自然语言处理技术的一些应用

转载:https://zhuanlan.zhihu.com/p/31388720


自然语言处理(NLP)是现代计算机科学和人工智能领域的一个重要分支,是一门融合了语言学、数学、计算机科学的科学。这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

近段时间,笔者由于做了一些信息流内容平台相关的工作,对NLP的一些应用有了一定了解,所以和大家分享一下。


1. 词法分析

基于大数据和用户行为,对自然语言进行中文分词、词性标注、命名识体识别,定位基本语言元素,消除歧义,支撑自然语言的准确理解。

中文分词 —— 将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列

词性标注 —— 将自然语言中的每个词,赋予一个词性,如动词、名词、副词

命名实体识别 —— 即专有名词识别,识别自然语言文本中具有特殊意义的实体,如人名、机构名、地名

举例:


2. 依存句法分析

利用句子中词与词之间的依存关系,来表示词语的句法结构信息,并用树状结构来表示整句的结构。依存句法分析主要有几大作用:

  • 精准理解用户意图。当用户搜索时输入一个query,通过依存句法分析,抽取语义主干及相关语义成分,实现对用户意图的精准理解。
  • 知识挖掘。对大量的非结构化文本进行依存句法分析,从中抽取实体、概念、语义关系等信息,构建领域知识。
  • 语言结构匹配。基于句法结构信息,进行语言的匹配计算,提升语言匹配计算的准确率。

举例:


3. 词向量表示

词向量计算是通过训练的方法,将语言词表中的词映射成一个长度固定的向量。词表中的所有词向量构成了一个向量空间,每一个词都是这个向量空间中的一个点。利用这种方法,实现文本的可计算。主要应用在:

  • 快速召回结果。不同于传统的倒排索引结构,构建基于词向量的快速索引技术,直接从语义相关性的角度召回结果。
  • 个性化推荐。基于用户的过去行为,通过词向量计算,学习用户的兴趣,实现个性化推荐。

举例:



4. DNN语言模型

语言模型是通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯。通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等。

举例:


5. 词义相似度

用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一。主要应用:

  • 专名挖掘 —— 通过词语间语义相关性计算寻找人名、地名、机构名等词的相关词,扩大专有名词的词典,更好的辅助应用
  • query改写 —— 通过寻找搜索query中词语的相似词,进行合理的替换,从而达到改写query的目的,提高搜索结果的多样性

举例:



6. 短文本相似度

短文本相似度计算服务能够提供不同短文本之间相似度的计算,输出的相似度是一个介于-1到1之间的实数值,越大则相似度越高。这个相似度值可以直接用于结果排序,也可以作为一维基础特征作用于更复杂的系统。

举例:



7. 评论观点抽取

自动分析评论关注点和评论观点,并输出评论观点标签及评论观点极性,包括美食、酒店、汽车、景点等,可帮助商家进行产品分析,辅助用户进行消费决策。

举例:




8. 情感倾向分析

针对带有主观描述的中文文本,可自动判断该文本的情感极性类别并给出相应的置信度。情感极性分为积极、消极、中性。情感倾向分析能帮助企业理解用户消费习惯、分析热点话题和危机舆情监控,为企业提供有力的决策支持。

举例:



Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐