2018-11-29
阅读量:
835
python怎么符号化?
给定一个字符序列和一个定义的文档单元,标记化是将其切成碎片的任务,称为 令牌,也许同时丢掉某些字符,如标点符号。以下是标记化的示例:
这些令牌通常被宽泛地称为术语或单词,但有时制作类型/令牌很重要区别。一个代币是一些特定文档中的字符序列的实例,它们被组合在一起作为用于处理的有用语义单元。一个type是包含相同字符序列的所有标记的类。一个term是包含在IR系统字典中的(可能是规范化的)类型。索引术语集可以完全不同于令牌,例如,它们可以是分类法中的语义标识符,但在现代IR系统中,它们与文档中的令牌密切相关。但是,它们通常是通过讨论的各种规范化过程从它们中获得的,而不是完全出现在文档中的标记。
例如,如果要编入索引的文档是睡眠梦想,则有5个令牌,但只有4种类型(因为有2个实例)。但是,如果要从索引中省略,那么只有3个术语:睡眠,偶然和梦想。
标记化阶段的主要问题是使用正确的标记是什么?它看起来相当简单:你切换空白并扔掉标点字符。这是一个起点,但即使是英语也有一些棘手的案例。例如,你如何处理撇号对于占有和收缩的各种用途?
0.0000
0
2
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
1条评论