功能强大和开放的源代码网络爬虫
Heritrix是一个开源的,灵活的,可扩展的和可扩展的网络爬虫
开发,能够获取,存档和分析的多样性和广泛的互联网访问的内容。
Heritrix(有时拼写heretrix,或拼写错误或误说,作为heratrix / heritix / heretix / heratix的神器出山:www.shenqi73.com)是一个古老的词女继承人(女性谁继承)。
此版本中的新功能:
·良好的代码编辑器为的抓取配置和脚本控制台(HER-2001)
·爬网配置的CXML编辑器和脚本控制台编辑器使用CodeMirror,增加了语法高亮,行号和其他功能
·固定偶尔重整的DNS记录中弧和WARCs(HER-1983)
长期存在的错误,造成了一些DNS记录的弧和WARCs被截断,由于在线程之间共享变量的不
安全使用,现在是固定的。
·记住所有surts,整个检查站/恢复(HER-1985)
·Surts均来自种子的种子来源,或surts,或上市增加了使用种子
文件中的行动指南。,现在可以被记住整个检查点/重新开始。为此,工作有关SurtPrefixedDecideRule,必须是顶级的bean。默认CXML分布与heritrix现在包括一个顶层bean的ID“acceptSurts”的关键决定的规则。
·支持保存脚本状态(HER-1984)
·新增一个共享的地图,任意使用过程中抓取。它可以用于状态...