软件名称:[B]杰里科的HTML解析器3.2_Jericho HTML Parser 3.2[/B]
软件类型:国产软件
运行环境:Win9X/Win2000/WinXP/Win2003/
软件语言:简体中文
授权方式:共享版
软件大小:2.05 MB
官方主页:Home Page
更新时间:2013-03-09 12:27:00
软件简介:

一个简单但功能强大的

Java HTML解析器库,可以分析和操纵部分的HTML文件

这包括一些常见的服务器端标签和事实的分析和操作过程逐字复制任何无法识别的或无效的HTML。

杰里科的HTML Parser还提供了高层次的神器出山:www.shenqi73.comHTML表单操作功能。

杰里科的HTML解析器是下发布的GNU宽通用公共许可证(LGPL)和Eclipse公共许可证(EPL)。因此,你是自由地使用它在商业应用中的详细介绍这些许可证文件中任一条款。

整个API的Javadocs提供了全面的文档,以及HTML和XML方面的一般。

下面是一些主要特点的“杰里科的HTML解析器”是一个非常有用的参考:

·HTML格式错误的存在不影响其余的文件,这使得库用于“现实世界”的理想HTML,电抗器等解析器解析
·ASP,JSP,PSP,PHP和梅森服务器标签的解析器得到明确承认。这意味着,正常的HTML仍然是正确解析即使有服务器标签内,这是很常见的例子时动态设置元素的属性
·既不是事件,也没有树的解析器,而是使用简单的文本搜索,高效的标记识别和标记位置缓存相结合的。完整的源代码文件的文本是第一次加载到内存中,然后搜索相关分部的相关搜索操作的每一个字符
相比基于树的解析器,如DOM,内存和资源的需求,可以更好,如果只有小部分需要被解析的文档或修改。不正确或格式的HTML很容易被忽视,不像树的解析器,必须确定在文件中从上到下的每一个节点
相比,如SAX基于事件的解析器,是上一个更高的水平,更直观的界面,如果需要的话,很容易创建的文档元素的层次结构树表示
·开始和结束位置在源文件中的所有解析段访问,允许修改只有选择段的文件,而无需重建整个文档树
·在源文件中的每一个位置的行数和列数很方便
·提供一个简单而全面的接口,用于分析和处理HTML表单控件,包括提取和人口的初始值,并转换为只读数据显示模式。分析的形式控制也允许从表单中接收的数据被存储并在以适当的方式
·自定义标签类型,可以方便地定义和确认注册的解析器
·内置的功能来格式化HTML源代码的缩进元素根据自己的文档中的元素层次结构的深度
·内置的功能来渲染HTML标记与简单的文本格式
·内置的功能,提取的所有文字,HTML标记,适合输送到一个文本搜索引擎,如Apache Lucene的

此版本中的新功能:

错误修正:
·IllegalCharsetNameException时引发的非法文件中指定的编码。
·潜在的多线程的错误Source.getNewLine()
·严格的java.policy运行时NullPointerException异常
·TextExtractor不包括任何属性值。
·所有未结束的字符引用解码不管的配置设置(在3.1中引入的错误)。
·Renderer类 - 下导致新的生产线。
·SourceFormatter没有正确处理TEXTAREA元素。
·如果没有抛出异常无效的字符集指定的服务器或源文件。
·字节顺序标记字符被包含在源文件中。
·HTML5元素添加到HTMLElementName和HTMLElements类的。
·检测HTML5的字符编码声明。
·使用Windows 1252作为默认的8位编码的子集,而不是编码ISO-8859-1。
·新增Renderer.setIncludeAlternateText(boolean)方法。
·添加了StartTag)方法Renderer.renderAlternateText(。
·新增Renderer.setIncludeFi ...


[url=http://www.sot9.com/soft/107603.html][B]杰里科的HTML解析器3.2_Jericho HTML Parser 3.2[/B][/url]

点这里下载->杰里科的HTML解析器3.2_Jericho HTML Parser 3.2 [ 下载地址 ]