热线电话:13121318867

登录
2018-11-29 阅读量: 835
python怎么符号化?

给定一个字符序列和一个定义的文档单元,标记化是将其切成碎片的任务,称为 令牌,也许同时丢掉某些字符,如标点符号。以下是标记化的示例:

这些令牌通常被宽泛地称为术语或单词,但有时制作类型/令牌很重要区别。一个代币是一些特定文档中的字符序列的实例,它们被组合在一起作为用于处理的有用语义单元。一个type是包含相同字符序列的所有标记的类。一个term是包含在IR系统字典中的(可能是规范化的)类型。索引术语集可以完全不同于令牌,例如,它们可以是分类法中的语义标识符,但在现代IR系统中,它们与文档中的令牌密切相关。但是,它们通常是通过讨论的各种规范化过程从它们中获得的,而不是完全出现在文档中的标记。

例如,如果要编入索引的文档是睡眠梦想,则有5个令牌,但只有4种类型(因为有2个实例)。但是,如果要从索引中省略,那么只有3个术语:睡眠偶然梦想

标记化阶段的主要问题是使用正确的标记是什么?它看起来相当简单:你切换空白并扔掉标点字符。这是一个起点,但即使是英语也有一些棘手的案例。例如,你如何处理撇号对于占有和收缩的各种用途?

0.0000
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子