语言是人类区别其他动物的本质特性,也是人工智能的一个重要,甚至核心部分。用自然语言与计算机进行通信,这是人们长期以来所追求的。这就是涉及到了小编今天给大家推荐的这篇文章:详解自然语言处理(NLP)5大语义分析技术及14类应用(建议收藏),希望这篇文章对于大家NLP的理解和应用有所帮助。
作者:达观数据
来源:大数据DT(ID:hzdashuju)
内容摘编自《智能RPA实战》
导读:自然语言处理(Natural Language Processing,NLP)技术是与自然语言的计算机处理有关的所有技术的统称,其目的是使计算机能够理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。
自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。
01 语义分析技术
自然语言处理技术的核心为语义分析。语义分析是一种基于自然语言进行语义信息分析的方法,不仅进行词法分析和句法分析这类语法水平上的分析,而且还涉及单词、词组、句子、段落所包含的意义,目的是用句子的语义结构来表示语言的结构。语义分析技术具体包括如下几点。
1. 词法分析
词法分析包括词形分析和词汇分析两个方面。一般来讲,词形分析主要表现在对单词的前缀、后缀等进行分析,而词汇分析则表现在对整个词汇系统的控制,从而能够较准确地分析用户输入信息的特征,最终准确地完成搜索过程。
2. 句法分析
句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,以实现自动句法分析的过程。
3. 语用分析
语用分析相对于语义分析又增加了对上下文、语言背景、语境等的分析,即从文章的结构中提取出意象、人际关系等附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活中的细节关联在一起,从而形成动态的表意结构。
4. 语境分析
语境分析主要是指对原查询语篇之外的大量“空隙”进行分析,以便更准确地解释所要查询语言的技术。这些“空隙”包括一般的知识、特定领域的知识以及查询用户的需求等。
5. 自然语言生成
AI驱动的引擎能够根据收集的数据生成描述,通过遵循将数据中的结果转换为散文的规则,在人与技术之间创建无缝交互的软件引擎。结构化性能数据可以通过管道传输到自然语言引擎中,以自动编写内部和外部的管理报告。
自然语言生成接收结构化表示的语义,以输出符合语法的、流畅的、与输入语义一致的自然语言文本。早期大多采用管道模型研究自然语言生成,管道模型根据不同的阶段将研究过程分解为如下三个子任务。
早期基于规则的自然语言生成技术,在每个子任务上均采用了不同的语言学规则或领域知识,实现了从输入语义到输出文本的转换。
鉴于基于规则的自然语言生成系统存在的不足之处,近几年来,学者们开始了基于数据驱动的自然语言生成技术的研究,从浅层的统计机器学习模型,到深层的神经网络模型,对语言生成过程中每个子任务的建模,以及多个子任务的联合建模,开展了相关的研究,目前主流的自然语言生成技术主要有基于数据驱动的自然语言生成技术和基于深度神经网络的自然语言生成技术。
02 自然语言处理应用
自然语言处理应用的技术体系主要包括字词级别的自然语言处理,句法级别的自然语言处理和篇章级别的自然语言处理。
1. 中文分词
中文分词是计算机根据语义模型,自动将汉字序列切分为符合人类语义理解的词汇。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能够通过明显的分界符来进行简单的划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层面上,中文比英文要复杂得多、困难得多。
2. 命名实体识别
命名实体识别又称作“专名识别”(NER),是指对具有特定意义的实体进行自动识别的技术,是信息提取、知识图谱、问答系统、句法分析、搜索引擎、机器翻译等应用的重要基础。
3. 词性标注
词性标注(Part-of-Speech tagging或POS tagging)又称词类标注,是指为分词结果中的每个单词标注一个正确的词性的程序。具体来说就是,确定每个词是名词、动词、形容词或者是其他词性的过程(如图3-2所示)。
▲图3-2 词性标注
在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。常用的方法有:基于最大熵的词性标注、基于统计的最大概率输出词性、基于隐马尔可夫模型(HMM)的词性标注。
4. 同义词分析
由于不同地区的文化差异,输入的查询文字很可能会出现描述不一致的问题。此时,业务系统需要对用户的输入做同义词、纠错、归一化处理。同义词挖掘是一项基础工作,同义词算法包括词典、百科词条、元搜索数据、上下文相关性挖掘,等等。
5. 词向量分析
词向量技术是指将词转化为稠密向量,相似的词对应的词向量也相近。在自然语言处理应用中,词向量作为深度学习模型的特征进行输入。因此,最终模型的效果在很大程度上取决于词向量的效果。一般来说,字词表示有两种方式:one-hot及分布式表示。
词向量的生成可分为两种方法:基于统计方法(例如,共现矩阵、奇异值分解(SVD)和基于语言模型(例如,word2vec中使用的CBOW、Skip-gram等)。
6. 依存文法分析
依存文法通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中的核心谓语动词是支配其他成分的中心成分。而它本身却不会受到其他任何成分的支配,所有受支配的成分都以某种关系从属于支配者,如图3-3所示。
▲图3-3 依存文法分析距离
从分析结果中我们可以看到,句子的核心谓语动词为“召开”,主语是“民航局”,“召开”的宾语是“会”,“会”的修饰语是“通用航空发展工作专题”。有了上面的句法分析结果,我们就可以比较容易地看到,是“民航局”“召开”了会议,而不是“促进”了会议,即使“促进”距离“会”更近。
7. 词位置分析
文章中不同位置的词对文章语义的贡献度也不同。文章首尾出现的词成为主题词、关键词的概率要大于出现在正文中的词。对文章中的词的位置进行建模,赋予不同位置不同的权重,从而能够更好地对文章进行向量化表示。
8. 语义归一化
语义归一化通常是指从文章中识别出具有相同意思的词或短语,其主要的任务是共指消解。共指消解是自然语言处理中的核心问题,在机器翻译、信息抽取以及问答等领域都有着非常重要的作用。
就拿常见的信息抽取的一个成型系统来讲,微软的学术搜索引擎会存有一些作者的档案资料,这些信息可能有一部分就是根据共指对象抽取出来的。比如,在一个教授的访谈录中,教授的名字可能只会出现一两次,更多的可能是“我”“某某博士”“某某教授”或“他”之类的代称,不出意外的话,这其中也会有一些同样的词代表记者,如何将这些词对应到正确的人,将会成为信息抽取的关键所在。
9. 文本纠错
文本纠错任务指的是,对于自然语言在使用过程中出现的错误进行自动地识别和纠正。文本纠错任务主要包含两个子任务,分别为错误识别和错误修正。错误识别的任务是指出错误出现的句子的位置,错误修正是指在识别的基础上自动进行更正。
相比于英文纠错来说,中文纠错的主要困难在于中文的语言特性:中文的词边界以及中文庞大的字符集。由于中文的语言特性,两种语言的错误类型也是不同的。
英文的修改操作包括插入、删除、替换和移动(移动是指两个字母交换顺序等),而对于中文来说,因为每一个中文汉字都可独立成词,因此插入、删除和移动的错误都只是作为语法错误。由于大部分的用户均为母语用户,且输入法一般会给出正确提示,语法错误的情况一般比较少,因此,中文输入纠错主要集中在替换错误上。
10. 标签提取
文档的标签通常是几个词语或者短语,并以此作为对该文档主要内容的提要。标签是人们快速了解文档内容、把握主题的重要方式,在科技论文、信息存储、新闻报道中具有极其广泛的应用。文档的标签通常具有可读性、相关性、覆盖度等特点。
11. 文本相似度
文本相似度在不同领域受到了广泛的讨论,然而由于应用场景的不同,其内涵也会有差异,因此没有统一的定义。
从信息论的角度来看,相似度与文本之间的共性和差异度有关,共性越大、差异度越小,则相似度越高;共性越小、差异度越大,则相似度越低;相似度最大的情况是文本完全相同。
相似度计算一般是指计算事物的特征之间的距离,如果距离小,那么相似度就大;如果距离大,那么相似度就小。
相似度计算的方法可以分为四大类:基于字符串的方法、基于语料库的方法、基于知识的方法和其他方法。
12. 主题模型
主题分析模型(Topic Model)是以非监督学习的方式对文档的隐含语义结构进行统计和聚类,以用于挖掘文本中所蕴含的语义结构的技术。隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是常用的主题模型计算方法。
13. 文本分类
按照特定行业的文档分类体系,计算机自动阅读文档的内容并将其归属到相应类目的技术体系下。其典型的处理过程可分为训练和运转两种。即计算机预先阅读各个类目的文档并提取特征,完成有监督的学习训练,在运转阶段识别新文档的内容并完成归类。
14. 文本聚类
文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档的类别进行手工标注,因此具有一定的灵活性和较高的自动化处理能力。
文本聚类已经成为对文本信息进行有效地组织、摘要和导航的重要手段。文本聚类的方法主要有基于划分的聚类算法、基于层次的聚类算法和基于密度的聚类算法。
关于作者:达观数据,中国智能RPA领域的龙头企业,独立开发了全套“RPA+AI”系统,拥有核心知识产权。达观智能RPA产品是业界不依赖微软底层开发框架、未使用第三方开源框架的RPA产品。
本文摘编自《智能RPA实战》,经出版方授权发布。
数据分析咨询请扫描二维码
自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10在快速发展的商业环境中,数据分析能力已经成为许多行业的核心竞争力。无论是初学者还是经验丰富的专家,搭建一个有效的数据分析 ...
2024-11-10在如今的数据驱动世界,数据分析师在各行各业中扮演着至关重要的角色。随着企业越来越依赖数据决策,数据分析职位的需求不断增加 ...
2024-11-10