自然语言处理学习日记6
1.PaddleNLP解析:[1]PaddleNLP[nlp.baidu.com/homepage/nlptools/]是基于飞桨PaddlePaddle深度学习框架打造的领先、全面、易用的NLP开源工具集与预训练模型集。PaddleNLP开源内容覆盖了工业应用和学术研究;为开发者提供了多种业内效果领先的NLP应⽤任务模型和前沿的论文、代码、数据,让开发者能以超低门槛获取多种顶尖NLP能力;为..
1.PaddleNLP
解析:
[1]PaddleNLP[nlp.baidu.com/homepage/nlptools/]是基于飞桨PaddlePaddle深度学习框架打造的领先、全面、易用的NLP开源工具集与预训练模型集。PaddleNLP开源内容覆盖了工业应用和学术研究;为开发者提供了多种业内效果领先的NLP应⽤任务模型和前沿的论文、代码、数据,让开发者能以超低门槛获取多种顶尖NLP能力;为研究者提供百度NLP前沿研究成果的代码与数据等,让研究者们可以快速复现实验,并据此开展新的研究。
[2]PaddleNLP-研究版:开源了NLP领域最新研究成果的代码及数据,包括领域权威会议ACL、NAACL、IJCAI等,权威竞赛MRQA、SemEval等,可以帮助研究者快速了解百度NLP的前瞻研究成果,并在此基础上开展研究。
2.BiDAF
解析:BiDAF模型是一个利用双向注意力流,得到一个问题感知的上下文表征的神经网络,通常用在阅读理解领域。更深层的讲,问题感知的上下文表征是所给段落和问题之间的交互,可以理解为将问题嵌入段落中去。相比于Match-LSTM,BiDAF增加了Question中关注Passage的哪些单词更重要。
3.MMDNN
解析:匹配矩阵深度神经网络,通过匹配矩阵方法去得到文本之间的相似性。
4.PaddlePaddle安装
解析:
[1]D:\Anaconda3\Scripts\pip.exe install paddlepaddle-gpu -i
https://pypi.tuna.tsinghua.edu.cn/simple
[2]import paddle.fluid
[3]paddle.fluid.install_check.run_check()
说明:说明:如果出现Your Paddle Fluid is installed succesfully!,说明已成功安装。
5.Intel MKL
解析:Intel数学核心函数库[MKL]是一套高度优化、线程安全的数学例程、函数,面向高性能的工程、科学与财务应用。英特尔MKL的集群版本包括ScaLAPACK与分布式内存快速傅立叶转换,并提供了线性代数[BLAS、LAPACK 和Sparse Solver]、快速傅立叶转换、矢量数学[Vector Math]与随机号码生成器支持。主要包括:
[1]LAPACK[线形代数工具linear algebra package]
[2]DFTs[离散傅立叶变换Discrete Fourier transforms]
[3]VML[矢量数学库Vector Math Library]
[4]VSL[矢量统计库Vector Statistical Library]
6.BART模型
解析:FaceBook提出的一个名为BART的预训练语言模型。该模型结合双向和自回归Transformer进行模型预训练,在一些自然语言处理任务上取得了SOTA性能表现。
7.FASPell简繁中文拼写检查工具
解析:产学界最强[SOTA]的简繁中文拼写检查工具:FASPell Chinese Spell Checker [Chinese Spell Check/中文拼写检错/中文拼写纠错/中文拼写检查]。
8.SQuAD
解析:斯坦福大学机器阅读任务,在500多篇Wiki文章上进行问答。
9.Few-shot Learning
解析:one-shot learning,few-shot learning,甚至是zero-shot learning都是旨在解决在少量样本下如何建模的问题。
10.中医药知识平台
解析:中医药知识平台[http://www.tcmkb.cn]是一个针对中医药知识体系系统梳理、建模和展示的平台,它以图形可视化方式展示核心概念之间的关系,辅助中医专家厘清学术发展脉络,浏览中医知识,发现知识点之间的联系。
11.知识融合
解析:知识融合主要分为数据模式层融合和数据层融合:
[1]数据模式层融合
- 概念合并
- 概念上下位关系合并
- 概念的属性定义合并
[2]数据层融合
- 实体合并
- 实体属性融合
- 冲突检测与解决
12.知识建模
解析:使用知识图谱相关技术对行业知识和数据进行建模:
[1]以实体为主体目标,实现对不同来源的数据进行映射与合并。[实体抽取与合并]
[2]利用属性来表示不同数据源中针对实体的描述,形成对实体的全方位描述。[属性映射与归并]
[3]利用关系来描述各类抽象建模成实体的数据之间的关联关系,从而支持关联分析。[关系抽取]
[4]通过实体链接技术,实现围绕实体的多种类型数据的关联存储。[实体链接]
[5]使用事件机制描述客观世界中动态发展,体现事件与实体间的关联;并利用时序描述事件的发展状况。[动态事件描述]
13.知识图谱嵌入[KG Embedding]
解析:将知识图谱中包括实体和关系的内容映射到连续向量空间方法的研究领域称为知识图谱嵌入、知识图谱的向量表示、知识图谱的表示学习、知识表示学习。KG Embedding的应用包括链接预测、三元组分类、实体对齐、问答系统和推荐系统等。
14.实体对齐[Entity Resolution]
解析:实体对齐也称为实体解析,任务是验证两个实体是否指代或者引用的是同一个事物或对象。该任务可以删除同一个知识库中冗余的实体,也可以在知识库融合的时候从异构的数据源中找到相同的实体。
15.北京大学知识库问答系统gAnswer
解析:一个基于开放领域知识图谱的自然语言问答[QA]系统,能够将自然语言问题转化成包含语义信息的查询图,并将查询图转化成标准的SPARQL查询,将这些查询在图数据库[gStore]中执行,最终得到用户的答案。目前英文问答基于DBpedia2016数据集,中文问答基于PKU BASE。
16.Akutan
解析:Akutan is a distributed knowledge graph store, sometimes called an RDF store or a triple store.
17.gAnswer
解析:北京大学计算机所邹磊教授研究组开源面向RDF知识图谱的自然语言问答系统gAnswer。
18.对话系统
解析:根据对话系统目标的差别,可以把对话系统分为2种类型:
[1]任务导向型系统:用户在使用系统时有明确的目标,一般为完成确定任务。比如,订机票、查路线等。
[2]通用对话系统:用户没有具体目标,可能在多个任务之间切换。
19.意图识别和槽值填充
解析:除了使用规则和模板外,很多方法都是使用数据驱动的统计模型识别对话中的意图和抽取对话中的意图项[槽值抽取和填充]。对话意图识别可以描述为一个分类问题,通过从输入查询中提取的文本特征进行意图识别。槽值抽取和填充可以描述为一个序列标注问题,通过对每个输入词的标注和分类找出各个槽对应的值。
20.对话管理模块
解析:对话管理用于控制对话的框架和结构,维护对话状态,通过与任务管理器的交互生成相应的动作。常用的对话管理技术包括:基于有限状态自动机的方法,基于框架的方法和基于概率模型的方法。
21.自然语言生成模块
解析:自然语言生成技术包括2个部分:内容选择和内容描述。其中,内容选择是由对话管理模型决定,用户接收的描述内容则取决于自然语言生成模块。
22.数据平滑
解析:数据平滑只要是为了解决零概率问题,它的本质是重新分配概率空间,适当地降低已经出现过的词序列的概率,补充给未曾出现的词序列,使得所有词序列的概率都不为零,同时所有词序列的概率之和为1。典型的平滑方法有加法平滑、Good-Turing平滑、组合估计等。
23.知识图谱
解析:
[1]实体知识图谱:以人和物为实体中心的关系图谱,反应人和物之间的关系的关系网络。比如,两个人物之间通过夫妻关系联系起来的网络。
[2]事件知识图谱:事件区别以人和物为实体的关系图谱,每个不同的事件都用节点表示,事件和事件之间通过逻辑关系相连。比如,因果关系、并列关系、时序关系等。
24.多轮对话与槽位
解析:
[1]多轮对话是指在人机对话中初步获取用户意图后,需要更多轮次的对话来获取必要的信息以最终得到明确的用户指令的方式。
[2]槽是多轮对话过程中将初步用户意图转化为明确用户指令所需要补全的信息对话管理模块,一个槽与一件事情的处理中所需要获取的一种信息相对应。
[3]槽可以分为词槽和接口槽,利用用户话中关键词来填写的槽叫作词槽,利用用户画像以及其它场景信息填写的槽叫作接口槽。
[4]澄清话术是对话机器人希望获取某种信息时所使用的问句。比如买衣服,就需要知道东西的价格、颜色等属性信息。确定槽组中必填槽组之间的澄清顺序,当接收到用户问句后,对还未填充完成的必填槽组依次进行澄清。
25.neo4j graph.db
解析:
[1]home:/home/xxx/neo4j-community-3.5.12
[2]config:/home/xxx/neo4j-community-3.5.12/conf
[3]logs:/home/xxx/neo4j-community-3.5.12/logs
[4]plugins:/home/xxx/neo4j-community-3.5.12/plugins
[5]import:/home/xxx/neo4j-community-3.5.12/import
[6]data:/home/xxx/neo4j-community-3.5.12/data
[7]certificates:/home/xxx/neo4j-community-3.5.12/certificates
[8]run:/home/xxx/neo4j-community-3.5.12/run
参考文献:
[1]PaddlePaddle:https://www.paddlepaddle.org.cn/
[2]Few-shot Learning: A Survey:https://www.zhuanzhi.ai/paper/c7a2464c0865b9602a4103fb44659858
[3]中医药知识服务系统:http://www.tcmkb.cn/
[4]eBay/akutan:https://github.com/eBay/akutan
更多推荐
所有评论(0)