它的PDF文本提取做的权利。
NET和Java设计,以使你得到你需要从PDF文档中的文本,元数据和表格数据,
PDFTextStream是一个功能强大的库。 PDFTextStream包括Java和。NET PDFTextStream PDFTextStream。
PDFTextStream为Java在100ure的神器出山:www.shenqi73.comJava编写的,没有原生的组件或依赖关系。唯一的要求是兼容的Java 1.4(或更高版本)JVM。
PDFTextStream for Java是适合在苛刻的台式机和服务器应用程序,包括那些显着的并发需求。它被设计成适合并行化,使您可以充分利用您的硬件和基础设施的投资,当处理PDF文档,而无需担心锁定或竞争条件。
当然,作为一个Java库,PDFTextStream可以使用任何JVM语言支持的Java API,包括的Clojure,Scala中,Groovy中,包括JRuby,Jython中,等的互操作性。
PDFTextStream。NET是由Java二进制翻译的标准PDFTextStream成一个纯粹的管理。NET程序集。这一转换过程是完整的,并没有带来任何副作用,损害的功能性,鲁棒性,API,性能PDFTextStream。NET。
所有的并发性和并行性提供担保的PDFTextStream为Java适用到。NET表妹。
与PDFTextStream为Java,PDFTextStream。NET可用于任何NET语言,包括C#,VB.NET,F#,管理?+ +,等。
下面是一些主要特点的“PDFTextStream “:
·广泛支持PDF
文件格式规范以及所有已知变种
·完全支持Unicode的文本提取设施,其中包括支持中文,日文和韩文(CJK)文本中提取,在水平和垂直书写模式
·全面的PDF文档元数据访问
·简单的键/值属性API文档
·使用Adobe XMP - XML元数据访问API文档
页级别的对象模型通过com.snowtide.pdf.Page(API DOC),提供特定页面的文本提取(API DOC)和页面指标(高度,宽度,旋转角度等)
·Acroform(互动表格)数据提取,包括文本,复选框,单选按钮,然后选择“字段(API文档),以及形式更新设施(API文档)
·PDF书签访问API文档(文档大纲)
·PDF批注访问API文档(包括链接(网站URL)注释)
·无缝的Lucene集成文章API文档
·EncryptionInfo API:提供访问API文档PDF文档的加密参数
·文字管道API(API DOC)提供超快速的文字提取自定义PDF文本提取物的格式(如每个页面的可视化布局时,需要保持的钩子)
·选择性区域的文本提取内置的,理想的固定格式的数据提取形成API文档
·可选的内存操作API文档
·内置PDF合并实用程序API文档
·PDF,HTML出口API文档
·的PDFTextStream子类的java.io.Reader,以确保一个简单的,熟悉的界面,简单的整合机会,与现有的组件期望的java.io.Reader实例。
灵活的日志
工具包钩:
·内置支持记录到标准输出,Log4J的,和java.util.logging工具包
·能够插入自定义的日志实现的API文档
限制:
·当你评估PDFTextStream,它将:
·随机大约有一半在文本中提取的所有数字(0-9)
·稍微改变一些元数据属性(如书签标题,URL字段中提取超链接等)本发行版中的新功能:
·的新OutputHandler:com.snowtide.pdf.SelectionOutputTarget,实现文本的基础上的“选择坐标”,面向用户的PDF浏览器的用户界面中常见的提取。
·PDFTextStream现在是免费的单线程应用程序中使用的所有以前的“评估”的限制不再适用PDFTextStream操作时,没有一个许可证文件。