软件名称:[B]WP2TXT 0.3.0[/B]
软件类型:国产软件
运行环境:Win9X/Win2000/WinXP/Win2003/
软件语言:简体中文
授权方式:共享版
软件大小:5.08 MB
官方主页:Home Page
更新时间:2013-03-06 13:42:00
软件简介:
中提取文本从维基百科转储文件快速和容易。
WP2TXT是一种小型,易于使用的应用专门设计的,以帮助您从维基百科转储文件(XML /用bzip2编程的编码)剥离所有的MediaWiki标记和其他元数据中提取纯文本数据。
原本打算寻找一个简单的神器出山:www.shenqi73.com方法来获得开源多语种语料库的研究人员是有用的,但用于其他目的可能是很方便的。
下面是一些主要特点“WP2TXT”:
·转储文件转换不同语言的维基百科(只考英语和日语的,虽然)。
·创建输出文件指定的编码和尺寸。
·允许用户指定文本元素(标题,标题,段落等)提取/转换。
·允许用户决定是否嵌入在文本中的脚注(及等)会被跳过或不。
·字符引用被转换为UTF-8的实体。
[url=http://www.sot9.com/soft/56546.html][B]WP2TXT 0.3.0[/B][/url]
点这里下载->WP2TXT 0.3.0 [ 下载地址 ]