Ellogon是一个跨平台,多语言,通用语言工程的环境中,开发,以帮助研究人员做研究计算语言学,以及公司生产和提供语言工程
Ellogon工程作为一门语言平台提供了一套广泛的设施,包括工具,处理和显示文本/ HTML / XML的神器出山:www.shenqi73.com数据和相关的语言信息,支持词汇资源(如创建和嵌入词典),工具,用于创建注释的语料库,访问数据库,带注释的数据进行比较,或转化成与各种机器学习算法中使用的载体的的语言信息。
在过去的十年中,大量的软件基础设施,目的是促进在自然语言处理领域的R&D。这些基础设施,如LT-NSL/LT-XML工具或GATE,已成为非常受欢迎,因为它们已被应用于广泛的任务由许多世界各地的机构。
Ellogon属于类的引用或基于注解的平台,其中的语言信息分开存储的文本数据,参考回到原来的文本。
基于的秘技数据模型,Ellogon提供的基础设施:
·管理,存储和交换文本数据以及相关的语言信息。
·语言处理组件的创建,嵌入和管理。
·促进不同的语言成分之间的沟通,确定合适的编程接口(API)。
·的,可视化的文本数据和相关的语言信息。
Ellogon共享相同的数据模型的秘技架构。由于这个原因,它与其他的秘技基于基础设施,如GATE共享的一些基本功能。然而,它也提供了大量的区别于等基础设施的功能。
将数据存储在Ellogon的核心要素的集合。集合是一组有限的文件。 Ellogon文件的文本数据以及语言信息的文本数据。这种语言的信息被存储在属性和说明的形式。
一个类型的值的属性相关联的特定类型的信息。一个注释联营公司的任意信息(属性)的形式部分的文本数据。
每一个这样的部分,跨度大,由两个字符偏移量,表示开始和结束字符的部分,从第一个字符的一些文字资料。
注解通常包括四个要素:
·数字标识符。此标识符是唯一的在一个文档中的每一个注释,并且可以用于明确地识别的注解。
·A型。注释类型是文本值,用于分类注释进行分类。
·A组的带注释的文本数据,表示的范围的跨度。
·一组属性。这些属性通常必要的语言信息进行编码。
Ellogon在其目前的形式满足所有这些要求。由于Ellogon基础的秘技架构,它有许多共同的基本属性,与其他线人的基础架构,如GATE。
然而,Ellogon区别于类似的基础设施提供了几个重要的特点:
·简单的组件开发
这是很容易理解的过程中,开发新组件,他们使用提供Ellogon的功能和发展。此外,广泛的组件开发的编程语言的支持,包括C,C + +,Java的,TCL,Perl和Python的。
·集成开发环境
的Ellogon作为一个集成开发环境,开发周期的一个组成部分,因为它提供了完整的支持。组件可以创建,编辑,编译和链接(是否适用)从里面Ellogon。
此外,C / C + + / Java组件可以被卸载,修改,编译和重新装载到Ellogon,而无需退出Ellogon。卸载或重装所有组件的能力是至关重要的,因为它可以大大缩短开发周期,因为组件的修改可以立即评估。
·准备使用的组件“工具箱”
Ellogon配备了大量的准备使用的工具执行的任务,如语料库创建注释,向量生成或数据比较。
此外,一些样品组件,可以适用于不同的领域和语言,执行一些基本任务,如标记化,部分词性标注或地名列表查找。
最后,Ellogon提供了几种数据可视化工具,从简单的观众,观众能够显示层次信息,如语法树的注释数据库。
·易于部署
由于Ellogon实现可分解的体系结构,它是一个易于使用的产品从一组执行特定任务的组件,极易造成。
所有随着所需的Ellogon部件的组件可以被打包在一个单一的可执行文件(它不需要安装),或作为一个应用程序(可跑下multipleoperating系统未改性)。这些专门的应用程序可以在任何系统中分发和使用,即使Ellogon尚未安装到系统。
要求:
·Tcl / Tk的8.4(或更新版本),
·Java的JDK / JRE 1.4.1(可选)
·Perl的5.8.1(可选),
·Python 2.2中(可选)。
上一个软件:RocketReader 8.20