Tokenising字符串转换成非简单的例子可以证明棘手的。特别是,当你在处理与自然语言,你必须考虑到标点符号,以便隔离的神器出山:www.shenqi73.com话。
的tokenisers采用类似的结构,如何实例化的类和提取的标记java.util.StringTokenizer中。这意味着他们是简单易用。
您可以输入,复制和粘贴,甚至一个文本文件加载到应用程序中。您必须选择tokeniser的选择(以及任何选项),然后命中Tokenise按钮。您的结果将显示,尽快为他们进行处理,您可以选择将结果保存到文件中,如果你选择。
的GUI是特别有用的实验方法,在教学环境(如NLP课程)tokenisation。这也将是那些希望使用的jTokeniser库的兴趣,但没有直接利用的代码的Java编程经验。
jTokeniser包括4 tokenisers的所有扩展从abtract Tokeniser类:
·WhiteSpaceTokeniser - 将一个字符串的所有命令的作用范围,空白,包括空格,换行符,制表符和换行符。
·StringTokeniser - 这是作为java.util.StringTokenizer与一些额外的方法(和延伸来自Tokeniser),基本上是相同的。然而,它的默认行为是作为一个WhiteSpaceTokeniser,您可以指定一组被用来指示词分隔符的字符。
·RegexTokeniser - 这tokeniser更加灵活,你可以使用正则表达式来定义一个记号是什么。所以,“\ w +”的意思时,它匹配一个或多个字母,它会认为一个字。默认情况下,它使用正则表达式相当于一个空白tokeniser的。
·RegexSeparatorTokeniser - 这可以被认为是作为一种先进的StringTokeniser。 ,而StringTokeniser是有限的定义分隔符的单个字符为一组,RegexSeparatorTokeniser可以使用正则表达式的更丰富,更灵活的方法。
·BreakIteratorTokeniser - 1库中的最先进的tokenisers的,但应该只用于自然语言字符串隔离的话。它还配备了内置的规则如何找到的话,知道如何忽略标点符号等
·SentenceTokeniser - 这也是使用这样的BreakIterater上述调整,争取找到句子边界。事实上,个别句子的“令牌”在此tokeniser的。