自然语言简介
自然语言处理基础自然语言概念自然语言,即我们人类日常所使用的语言,是人类交际的重要方式,也是人类区别于其他动物的本质特征。我们只能使用自然语言与人进行交流,而无法与计算机进行交流。自然语言处理自然语言处理(NLP Natural Language Processing),是人工智能(AI Artificial Intelligence)的一部分,实现人与计算机之间的有效通信。自然语言处...
自然语言处理基础
自然语言概念
自然语言,即我们人类日常所使用的语言,是人类交际的重要方式,也是人类区别于其他动物的本质特征。
我们只能使用自然语言与人进行交流,而无法与计算机进行交流。
自然语言处理
自然语言处理(NLP Natural Language Processing),是人工智能(AI Artificial Intelligence)的一部分,实现人与计算机之间的有效通信。
自然语言处理属于计算机科学领域与人工智能领域,其研究使用计算机编程来处理与理解人类的语言。
应用场景
自然语言处理,具有非常广泛的应用场景,例如:
•情感分析:从一段文本中提取该文本的感情色彩,是褒义、中性还是贬义
•机器翻译
•文本相似度匹配
•智能客服、聊天机器人
通用技术
•分词:◾将连续的文本,分割成语义合理的若干词汇序列。英文比较好分(本来就有空格,直接使用spilt通过空格分割),中文比较复杂(需要一些库,且库也没有分得比较完美)
•停用词过滤:◾在语文中,句子分为主干(主谓宾)与枝叶(定状补)两部分;停用词:文本中大量存在,但对语义分析没有帮助的词,如“万一下雨呢”删除“万一”、“呢”。
•词干提取:◾指对一个单词去掉后缀,还原为词本身,词干提取主要用在英文等西方语言中,中文没有词干提取。
•词形还原:◾对同一单词不同形式的识别,将单词还原为标准形式,主要用在英文等西方语言中,中文没有词形还原。如am、are、is 的标准形式为be。
◾词干提取与词形还原——相同点:都是对同一单词的不同格式进行处理;——不同点:词干提取是去掉单词的后缀;词形还原是以词元为依据,进行语义分析,获取单词的标准形式。如ate→at(词干提取);ate→eat(词形还原).
•词袋模型:◾将文本转换为数值特征向量的表示形式。方式是将每个文档构建一个特征向量,其中包含每个单词在文档中出现的次数。
◾缺陷:模型往往是一个稀疏矩阵,因为每个特征相对整个文本出现的词,整个文本中出现的词都要作为特征,而统计的数量是当期文本中的词,占整个文本的一小部分。
•TF-IDF:
IDF中分母加1的原因是防止分母为0的情况;log是为了避免语料库得出的数很大,与TF量级相差太大。。
◾通过词袋模型分词之后获得的稀疏矩阵,并不是说出现次数越多、数量越多的词的重要性越大,如“的”、“了”。重要的词汇,一般是在当前的文档中出现的次数多,而在其他文档中出现的次数不多。因此,词袋模型只是词汇数量的统计,TF-IDF
•Word2Vec◾VEC指的是向量, 使用神经网络将词表转为向量表示。确切的说,是将词映射成n维空间向量,特征维度n视具体情况与需求而定。
◾为什么要进行这个转换?——因为文本格式无法像数值一样进行计算。
说明:
scikit-learn库中实现的tf-idf转换,与标准的公式略有不同。并且,tf-idf结果会使用L2范数进行规范化处理。
更多推荐
所有评论(0)