前言

最近,实验室有一个项目,做股市文本分析,通过定期获取股民关于股票的评论并结合其他因素来判定股票的涨跌情况。
在读《python自然语言处理实战 核心技术与算法涂铭、刘祥、刘树春著。我打算出一系列关于此书的笔记。
此书代码下载地址为:https://github.com/nlpinaction/learning-nlp

NLP基础

什么是NLP

NLP基本概念

NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。

NLP
自然语言理解
自然语言生成
音系学
词态学
句法学
语义句法学
语用学
自然语言文本

NLP的研究任务

  • 机器翻译:计算机具备将一种语言翻译成另一种语言的能力
  • 情感分析:计算机能够判断用户评论是否积极
  • 智能问答:计算机能够正确回答输入的问题
  • 文摘生成:计算机能够准确归纳,总计并产生文本摘要
  • 文本分类:计算机能够菜鸡各种文章,进行主题分析,从而进行自动分类
  • 舆论分析:计算机能够判断当前舆论的导向
  • 知识图谱:知识点相互连接而成的语义网络

NLP的发展与应用

萌芽期(1956年以前) -> 快速发展期(1980-1999) -> 突飞猛进期(2000至今)
萌芽期:这一时期,虽然诸如贝叶斯方法、隐马尔可夫、最大熵、支持向量机等经典理论和算法也有提出,但自然语言处理领域的主流仍然是基于规则的理性主义方法。
快速发展期:基于统计、基于实例和基于规则的语料库技术在这一时期开始蓬勃发展,各种技术开始融合。
突飞猛进期:深度学习在机器翻译、问答系统等多个自然语言处理任务中均取得了不错的成果,相关技术也被成功应用于商业化平台中。

NLP常用术语以及扩展介绍

基本术语

  • 分词
  • 词性标注
  • 命名实体识别
  • 句法分析
  • 代指消解
  • 情感识别
  • 纠错
  • 问答系统

知识结构

  • 句法语义分析
  • 关键词提取
  • 文本挖掘
  • 机器翻译
  • 信息检索
  • 问答系统
  • 对话系统

语料库

中文维基百科:https://dumps.wikimedia.org/zhwiki/
搜狗新闻语料库:http://download.labs.sogou.com/resource/ca.php
IMDB情感分析语料库:https://www.kaggle.com/tmdb/tmdb-movie-metadata

探讨NLP的几个层面

  1. 第一层面:词法分析
  2. 第二层面:句法分析
  3. 第三层面:语义分析

后文

NLP前置技术解析

中文分词技术

词性标注与命名实体识别

关键词提取算法

句法分析

文本向量化

情感分析技术

NLP中用到的机器学习算法

基于深度学习的NLP算法

Solr搜索引擎

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐