自然语言处理基础

自然语言概念

自然语言,即我们人类日常所使用的语言,是人类交际的重要方式,也是人类区别于其他动物的本质特征。
我们只能使用自然语言与人进行交流,而无法与计算机进行交流。

自然语言处理

自然语言处理(NLP Natural Language Processing),是人工智能(AI Artificial Intelligence)的一部分,实现人与计算机之间的有效通信。
自然语言处理属于计算机科学领域与人工智能领域,其研究使用计算机编程来处理与理解人类的语言。

应用场景

自然语言处理,具有非常广泛的应用场景,例如:
•情感分析:从一段文本中提取该文本的感情色彩,是褒义、中性还是贬义
•机器翻译
•文本相似度匹配
•智能客服、聊天机器人

通用技术
•分词:◾将连续的文本,分割成语义合理的若干词汇序列。英文比较好分(本来就有空格,直接使用spilt通过空格分割),中文比较复杂(需要一些库,且库也没有分得比较完美)

•停用词过滤:◾在语文中,句子分为主干(主谓宾)与枝叶(定状补)两部分;停用词:文本中大量存在,但对语义分析没有帮助的词,如“万一下雨呢”删除“万一”、“呢”。

•词干提取:◾指对一个单词去掉后缀,还原为词本身,词干提取主要用在英文等西方语言中,中文没有词干提取。 在这里插入图片描述

•词形还原:◾对同一单词不同形式的识别,将单词还原为标准形式,主要用在英文等西方语言中,中文没有词形还原。如am、are、is 的标准形式为be。
◾词干提取与词形还原——相同点:都是对同一单词的不同格式进行处理;——不同点:词干提取是去掉单词的后缀;词形还原是以词元为依据,进行语义分析,获取单词的标准形式。如ate→at(词干提取);ate→eat(词形还原).

•词袋模型:◾将文本转换为数值特征向量的表示形式。方式是将每个文档构建一个特征向量,其中包含每个单词在文档中出现的次数。
◾缺陷:模型往往是一个稀疏矩阵,因为每个特征相对整个文本出现的词,整个文本中出现的词都要作为特征,而统计的数量是当期文本中的词,占整个文本的一小部分。 在这里插入图片描述

•TF-IDF:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在插入图片描述
IDF中分母加1的原因是防止分母为0的情况;log是为了避免语料库得出的数很大,与TF量级相差太大。。
◾通过词袋模型分词之后获得的稀疏矩阵,并不是说出现次数越多、数量越多的词的重要性越大,如“的”、“了”。重要的词汇,一般是在当前的文档中出现的次数多,而在其他文档中出现的次数不多。因此,词袋模型只是词汇数量的统计,TF-IDF

•Word2Vec◾VEC指的是向量, 使用神经网络将词表转为向量表示。确切的说,是将词映射成n维空间向量,特征维度n视具体情况与需求而定。
◾为什么要进行这个转换?——因为文本格式无法像数值一样进行计算。 在这里插入图片描述

说明:
scikit-learn库中实现的tf-idf转换,与标准的公式略有不同。并且,tf-idf结果会使用L2范数进行规范化处理。
在这里插入图片描述

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐