大数据技术体系中的语义分析 -CDA数据分析师官网

大数据技术体系中的语义分析

2017-06-18

大数据技术体系中的语义分析

本文介绍了语义的相关概念、特征，指出语义分析技术在大数据挖掘中的重要性，并给出了示例。

一、什么是语义

在现实世界中，事物所代表的概念的含义，以及它与其他概念之间的关系，可以被认为是语义。

语义是对符号的解释，比如“苹果是一种水果，含有丰富的矿物质和维生素。”就解释了“苹果”这个字符串（符号、概念），“《互联网大数据处理技术与应用》是国内第一本系统讲述互联网大数据技术的专著，由曾剑平编著，于2017年由清华大学出版社出版”则描述了《互联网大数据处理技术与应用》这本书（概念）的含义。

语义的典型特征包括：语义的客观性和主观性、语义的清晰性和模糊性、以及语义的领域性等。其中，模糊性主要体现在语义边界上，例如“胖”所具有的语义是一个模糊概念，边界并不清晰，用简单的判断逻辑是无法定义的。领域性是指对于一些词语含义的理解，需要在某个具体的领域中才有确定的结果，可能存在同一事物在不同领域中有不同理解的情况。例如“苹果”在水果食品领域和手机通信领域就具有不同的含义。

二、大数据中的语义分析

大数据4V特征中的一个典型特征是Variety，它有多方面的含义，其中最主要的是指数据类型的多样化。在表示一本图书时，可以有数值型、日期型、文本型等多种形式。

在“大数据价值挖掘的难点和重点：非结构化数据处理”一文中我们介绍了结构化数据的表示方法，如下表示了两本书B1、B2：

B1: （互联网大数据处理技术与应用，曾剑平，清华大学出版社，2017，大数据类）

B2: （数学之美，吴军、人民邮电出版社，2014，数学类）

在图书推荐之类的大数据应用中，要决定把什么书推荐给客户，其中最基本的问题是计算两本书的相似度。就B1、B2这两本书来说，出版年份2017和2014之间的相似度就比较容易计算，但是“大数据类”和“数学类”简单依靠字符串就无法准确计算了，“互联网大数据处理技术与应用”和“数学之美”等文本型的就更难定了。而这些问题在大数据分析及应用中是非常普遍的，因此，语义分析计算对于大数据分析应用而言其重要性是不言而喻的，直接影响到最终的大数据价值体现。

由于词汇作为字符串所能提供的信息量非常少，在词汇级别上进行语义分析，通常需要借助一定的语义知识库或语料库，这种知识库可以采用如图所示的语义结构，该结构是基于Wiki百科提取得到的。

基于该结构，计算“数学”和“大数据”之间的语义相关度可以采用基于语义图结构的最短路径法、基于概念结点信息量的计算方法等，具体可以计算方法参考文献[1]。

由于词汇在关系型数据表达中也是非常常见的基本信息，因此，语义分析问题在结构化大数据中同样很重要。比如城市字段中存储的“北京”、“上海”“厦门”等，如何计算它们之间的相关度，在涉及地区的大数据挖掘等应用中是一项基本要求。除了采用各种方法构建的语义结构图外，基于word2vec的训练计算方法也是不错的选择。

相比于词汇的语义，句子级别的语义分析技术在大数据分析挖掘中就更为常见。典型的应用场景包括在新闻报道的文本中寻找事件的组成要素及其关系，在评论文本中识别评论信息，例如“手机的屏幕很大”这句话中“手机”和“屏幕”、“大”和“很”都是一种修饰关系，“屏幕”和“大”则是一种陈述关系。汉语中的实词在进入句子后，词与词之间有多少种语义关系以及各种语义关系的名称，目前汉语语法学界还没有统一的说法。但是目前经常提到的主要语义关系有施事、受事、与事、工具、结果、方位、时间、目的、方式、原因、同事、材料、数量、基准、范围、条件、领属等。正是由于语义关系的多样性，也使得语义分析研究任务丰富多彩。但是由于计算机处理和推理能力的限制，目前，在该领域研究中只针对很少部分的语义关系分析。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据特征数据分析数据挖掘字段

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

大数据技术体系中的语义分析

CDA考试动态

CDA报考指南

热门栏目

最新资讯

单因素方差分析结果与多重比较

【CDA干货】13年国企财务：这样使用财务数据分析模 ...

Youtube百万粉丝大佬：数据分析师职业发展路径 ...

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...