自然语言简介

sj1565

6642人浏览 · 2019-05-31 00:04:18

sj1565 · 2019-05-31 00:04:18 发布

自然语言处理基础

自然语言概念

自然语言，即我们人类日常所使用的语言，是人类交际的重要方式，也是人类区别于其他动物的本质特征。
我们只能使用自然语言与人进行交流，而无法与计算机进行交流。

自然语言处理

自然语言处理（NLP Natural Language Processing），是人工智能（AI Artificial Intelligence）的一部分，实现人与计算机之间的有效通信。
自然语言处理属于计算机科学领域与人工智能领域，其研究使用计算机编程来处理与理解人类的语言。

应用场景

自然语言处理，具有非常广泛的应用场景，例如：
•情感分析：从一段文本中提取该文本的感情色彩，是褒义、中性还是贬义
•机器翻译
•文本相似度匹配
•智能客服、聊天机器人

通用技术
•分词：◾将连续的文本，分割成语义合理的若干词汇序列。英文比较好分（本来就有空格，直接使用spilt通过空格分割），中文比较复杂（需要一些库，且库也没有分得比较完美）

•停用词过滤：◾在语文中，句子分为主干（主谓宾）与枝叶（定状补）两部分；停用词：文本中大量存在，但对语义分析没有帮助的词，如“万一下雨呢”删除“万一”、“呢”。

•词干提取：◾指对一个单词去掉后缀，还原为词本身，词干提取主要用在英文等西方语言中，中文没有词干提取。在这里插入图片描述

•词形还原：◾对同一单词不同形式的识别，将单词还原为标准形式，主要用在英文等西方语言中,中文没有词形还原。如am、are、is 的标准形式为be。
◾词干提取与词形还原——相同点：都是对同一单词的不同格式进行处理；——不同点：词干提取是去掉单词的后缀；词形还原是以词元为依据，进行语义分析，获取单词的标准形式。如ate→at(词干提取）；ate→eat(词形还原）.

•词袋模型:◾将文本转换为数值特征向量的表示形式。方式是将每个文档构建一个特征向量，其中包含每个单词在文档中出现的次数。
◾缺陷：模型往往是一个稀疏矩阵，因为每个特征相对整个文本出现的词，整个文本中出现的词都要作为特征，而统计的数量是当期文本中的词，占整个文本的一小部分。在这里插入图片描述

•TF-IDF：
在这里插入图片描述

在插入图片描述
IDF中分母加1的原因是防止分母为0的情况；log是为了避免语料库得出的数很大，与TF量级相差太大。。
◾通过词袋模型分词之后获得的稀疏矩阵，并不是说出现次数越多、数量越多的词的重要性越大，如“的”、“了”。重要的词汇，一般是在当前的文档中出现的次数多，而在其他文档中出现的次数不多。因此，词袋模型只是词汇数量的统计，TF-IDF