一个简单的命令行PDF文本提取
PDF2Text是一个小的命令行工具,可以帮助你从PDF文件中提取文本。可以用于提取PDF2Text从任何PDF文件作为Unicode或作为结构化的XML文本。
这里是一些关键功能“PDF2Text”的
神器出山:www.shenqi73.com:
·从任何PDF文件中提取文本,文本或结构化的XML。
·提供不同的Unicode文本编码(UTF-8和UTF-16)的选项。
·每一个段落的位置,字体和样式信息,行,单词,或一个页面上的铭文。
·提供选项来控制信息的详细程度和在输出XML格式。
·提供先进的选项来控制结扎扩展,连字符删除,并删除重复的文本(例如,有时也用于阴影效果)。
·允许文本提取的剪辑矩形或,隐藏特定区域中的文本在页面上。
·选项删除隐藏文字或文字,以不被其他页面元素(如图像或矩形)。
·支持所有版本的PDF格式(PDF 1.0至ISO32000)。
·支持自动化和批量操作。
限制:
·随机或网页将被替换为“DEMO”字符串