主要用于改造或提取的,它具有过滤器,自定义标签,游客和易于使用JavaBeans。 HTML Parser是一个稳健,快速和行之有效的包。
HTML Parser是一个有用的 的神器出山:www.shenqi73.comJava库,设计HTML转换或提取。
这两个基本使用的解析器处理的情况下,提取和转换(使用的情况下,从头开始创建HTML页面的合成,更好地处理其他工具的数据源)。
在一般情况下,使用的的HTMLParser的,你需要能够在Java编程语言编写的代码。虽然一些示例程序可能是有用的,因为他们的立场,这是更可能你会需要(或想要)创建自己的程序或修改的匹配目标应用程序。
要使用库,你会需要添加的htmllexer.jar或htmlparser.jar,,你的classpath中编译和运行时。在该htmllexer.jar通用的字符串,注释,标签在页面上的节点线性的,平面的,连续的方式提供低级别的访问。
htmlparser.jar,其中包括的类中htmllexer.jar,访问的页面包含字符串,备注和其他标记节点的的嵌套有区别的标记序列。
萃取
提取包含了所有的信息检索方案,是注定不会保留源页面。
这覆盖了使用,如:
·文本提取,用作输入的文本搜索引擎的数据库,例如
·链接提取,爬行通过网页或电子邮件地址收获
·屏幕抓取,网页编程数据输入
·资源开采,采集的图像或声音
·浏览器的前端,页面显示的初步阶段
·链接检查,确保链接是有效的
·现场监测,检查页的差异不能采取简单的diff
有几个设施中的HTMLParser的代码库,以帮助提取,包括过滤器,游客和JavaBeans。
转型
转换包括所有处理中的输入和输出的HTML网页。
一些例子是:
·URL重写,修改的部分或所有页面上的链接
·现场拍摄,将内容从网络到本地磁盘
·审查,从页面中删除违规的单词和短语
·的HTML清理工作,纠正错误页面
·广告切除,切除的URL引用广告
·转换为XML,将现有的网页XML
读期间或之后在一个页面中,节点上的操作可以完成许多转换任务“到位”,然后可以将其输出的toHtml()方法。根据您的应用程序的目的,你可能会想看看节点的装饰,游客或自定义标签结合的PrototypicalNodeFactory。