有关文本挖掘的14个概念-CDA数据分析师官网

有关文本挖掘的14个概念

2016-09-18

有关文本挖掘的14个概念

我们所处的信息时代以急速增长的数据信息收集、储存和转换成电子格式为特征。大量的商业数据以杂乱无章的文本形式储存。

据美林公司（Merrill Lynch）和高德纳公司（Gartner）联合进行的一项调查表明，85%的企业数据或多或少是以无序的方式收集储存的。同时，调查声称这些杂乱无章的数据每18个月增长一倍。

当今商界奉行“知识就是力量”，知识来源于数据和信息，若企业能够高效且有效地挖掘文本数据背后的资源，就能够做出更好的决策。文本挖掘（在文本数据库也称文本数据挖掘或者知识发现）是从大量无结构的数据中提炼出模式（也就是有用的信息和知识）的半自动化处理过程。请注意，数据挖掘是从有结构的数据库中鉴别出有效的、新颖的、可能有用的并最终可理解的模式。在这个有结构的数据库中，分类的、顺序的或者连续型变量构建起记录，数据在这些记录下进行组织。文本挖掘与数据挖掘的共同之处在于，它们都为了同样的目标，使用同一处理方式，不同之处在于文本挖掘流程中“输入”一项是一堆杂乱无章的（或者说是未经整理的）数据文件，比如Word、PDF、本文文档摘录、XML文件等。在大量数据产生的领域，文本挖掘的益处尤为突出。信息提取。通过模式匹配寻找出文本中先定的物件和序列，文本挖掘能够鉴别文本中主要的短语和关系。最常见的信息提取形式大概就是“实体抽取”。命名实体抽取包括命名实体识别（利用现有对域的知识，进行已知实体名称的识别，包括：人、企业、地点的名字、时间表达式以及某些数值表达式）、指代消解（检测文本实体间的同指代和回指代联系）、关系抽取（鉴别实体间的关系）。

话题跟踪。根据用户浏览的文件记录，文本挖掘可以预测用户可能喜欢的其他文本。

总结。文本挖掘可以为读者总结文本概要，节省阅读时间。

分类。文本挖掘能够发现稳当的主题，并归置在预先制定的类别之下。

聚类。文本挖掘可以在没有预先制定的类别时归类相似的文档。

概念衔接。文本挖掘可以鉴别文档的共享概念，从而把相关的文档连接在一起。用户由此可以找到传统搜索方法无法发现的信息。

答疑。通过知识驱动的模式匹配，文本挖掘可以找出问题的最佳答案。

文本挖掘有自己的语言体系，包括多种多样的术语和缩略词。非结构化数据。结构化数据有其预设的格式，常和简单的数据数值（分类的、顺序的或者连续型变量）一同被组织进入记录并储存在数据库。语料库。在语言学中，语料库是一个大型的结构化文本的集合（现在一般是以电子形式储存和处理），用作知识发现的工具。术语。术语是由在一个特定域的语料库中，通过自然语言处理提取的单词或者多词短语。概念。概念是通过人工、统计、规则导向或者多种混合的分类方法，从一系列文档中生成的特征。与术语相比，生成概念需要更高层次的抽象。词干提取。词干提取是将屈折词简化到词干（或者词根）的处理方式。比如，stemmer,stemming和stemmed都来自stem。停用词。停用词（也称为“干扰词”），是在自然语言处理之前或者之后被过滤掉的单词。停用词没有统一的清单，大多数自然语言处理工具将冠词（如a,am,the,of等），助动词（如is,are,was,were等）以及只在上下文中有意义，不具有区分价值的词视作停用词。

同义词和多义词。同义词是在句法上不同（也就是拼写不一样），但是意思一致或者相似的词语。相反地，多义词或者“同形异义词”，是句法上一致，但意义不同（例如bow，有鞠躬、船头、蝴蝶结等多个意思）。

标记化。标记是句子中已分类的文本块。根据功能的不同，与标记对应的文本块被分门别类，这一与意义相关的过程被称为“标记化”。只要对结构化文本有意义，标记可以是任何形式的。

术语词典。术语词典是一个小而专的领域里的术语集合，可以控制从语料库中提取的字词。

词频。词频就是一个单词在某文本中出现的次数。

词性标注。词性标注就是根据单词的意思和它在上下文的用法标记词性（是名词、动词、形容词还是副词）。

形态学。形态学是语言学的一个分支，是自然语言处理的一部分，它研究的是词语的内部结构。

术语-文本矩阵。常用来呈现术语和文本间基于频率的关系，以表格的形式表现，行表示术语，列表示文本，术语和文本间的频率以整数形式填在每个格里。

奇异值分解（也称为潜在语义索引）。是一种将术语——文本矩阵转化到可操作大小的降维手段。它利用一种与主成分分析法类似的矩阵控制法来生成中等大小的术语——文本频率表现形式。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

文本挖掘数据挖掘特征连续型变量降维

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

有关文本挖掘的14个概念

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...