I. 知识图谱 应用案例 --- 美团
I. 知识图谱 应用案例 — 美团概述深度学习(隐性模型)特点面向一个具体任务(如下围棋、识别猫、人脸识别、语音识别等)需要海量训练数据需要强大的计算力场景示例人脸识别目前进展在一些任务上已经接近或超过人类任务范围面向具体任务,难以迁移可解释性较难解释数据量海量训练数据知识图谱(显性模型)特点可广泛用于不同任务从海量数据中进行知识学习和挖掘可理解、可解释,类似人类的思考方式场景示例语音助手目前进展
·
I. 知识图谱 应用案例 — 美团
概述
- 深度学习(隐性模型)
- 特点
- 面向一个具体任务(如下围棋、识别猫、人脸识别、语音识别等)
- 需要海量训练数据
- 需要强大的计算力
- 场景示例
- 人脸识别
- 目前进展
- 在一些任务上已经接近或超过人类
- 任务范围
- 面向具体任务,难以迁移
- 可解释性
- 较难解释
- 数据量
- 海量训练数据
- 特点
- 知识图谱(显性模型)
- 特点
- 可广泛用于不同任务
- 从海量数据中进行知识学习和挖掘
- 可理解、可解释,类似人类的思考方式
- 场景示例
- 语音助手
- 目前进展
- 在知识量上超过人类,在知识推理上不如人类
- 任务范围
- 广泛适用于不同任务
- 可解释性
- 可解释性强
- 数据量
- 海量知识数据
- 特点
- 未来趋势:两者融合
历史
- 2010年,微软
- 开始构建Satori和Proase
- 图谱规模约500亿
- 应用于微软的搜索、广告、Office 365、Cortana等项目
- 2012年,Google
- 发布 Google Knowledge Graph
- 图谱规模约700亿
- 应用于搜索引擎、智能助理等项目
- 2013年,百度
- 布局中文知识图谱、主要在搜索、助理、和一些2B商业化方向
- 2015年,阿里巴巴
- 应用于智能导购、搜索、智能问答、大促、新零售等项目
- 2016年,亚马逊
- 应用于理解、推荐引擎、搜索、问答等领域
美团知识图谱概述
- 发展历史
- 2018年:
- 餐饮知识图谱
- 2019年:
- 标签图谱
- 场景图谱
- 2020年
- 商品图谱
- 药品图谱
- 酒旅图谱
- 到综图谱
- 2018年:
- 要求
- 多层次
- 不同业务方、不同使用场景中,对于 “商品” 的定义有所差别
- 粒度从商品下挂的SKU,到概念型的商品类目词
- 多维度
- 对于商品各个属性维度的理解
- 通用维度 - 品牌、规格、包装、产品 等
- 类目特有维度 - 是否含糖、脂肪含量
- 高质量
- 商品图谱以客观信息为主,对精准信息的要求高
- 药品等特殊类目对信息错误零容忍
- 多层次
- 挑战
- 信息来源 — 充分利用层次体系聚合信息
- 数据少 - 标题 & 图片为主,商品介绍、评论数据稀缺
- 噪音大 - 信息误录、标题不规范、表达不一致
- 长尾效应显著 - 动销商品占比低
- 数据维度多 — 高效的数据流程支持
- 数十维的通用的属性维度
- 上百维的特定类目属性维度
- 依赖常识知识 — 结构化知识和语音模型的结合
- 信息来源 — 充分利用层次体系聚合信息
商品知识图谱构建
- 图谱体系
- 图谱层次
- 前台类目:牛奶
- 图谱品类:鲜牛奶、调味牛奶(核桃牛奶/香蕉牛奶)、高钙牛奶、纯牛奶、脱脂牛奶、儿童牛奶
- 抽象商品:蒙牛高钙牛奶、特仑苏纯牛奶
- 标准商品:具体的商品
- 商品SPU:店铺 + 具体的商品
- 业务视角
- 品类/类目视角
- 类目关联、典型品牌、典型属性、品类层级、品类搭配
- 用户认知视角
- 热度/销量、特色标签、别名/俗称、推荐理由
- 商品属性视角
- 品牌、口味、含糖/脂肪、香型、半/未加工、包装/规格、产地、适用人群、适用时间、适用场景
- 品类/类目视角
- 图谱层次
- 如何构建图谱体系
- 关联到标准商品:商品条码
- 问题:数据缺失、数据错误
- 解决方法:商品同义词判别
- 训练方式 - 远监督学习 + 模型主动去噪
- 正例:原始数据中处于高置信度的标品SPU
- 负例:原始数据中商品/图像相似却不属于同一个标品的SPU
- 远监督数据抽象准确率 96%
- 模型流程
- 基于Bert进行同义词模型训练
- 利用向量哈希召回相似商品
- 利用同义词模型判别
- 训练方式 - 远监督学习 + 模型主动去噪
- 结果准确率达到 99%
- 抽象商品(用户认知层)
- 概述
- 在标品的基础上进行聚合,对包装、规格等不敏感
- 思路
- 复用标品关联模型,向上聚合
- 对原先远监督数据进行调整
- 隐藏包装、规格维度信息
- 负例构造方式放宽商品名相似范围
- 复用标品关联模型,向上聚合
- 概述
- 品类 - 商品的本质
- 概述:承载用户精细商品需求的颗粒度
- 品类体系和类目体系的区别
- 粒度更细、更加精准的定位商品
- 节点和关系的覆盖更加全面
- 构建以算法模型指导为主、非人工运营主导
- 品类上下位 & 同义词挖掘
- 候选节点对:百科数据 + 搜索日志 +文本语义
- 模型:BERT + 统计特征
- 基于主动学习进行标准和质检
- 关联到标准商品:商品条码
- 属性维度挖掘
- 商品标题解析
- 将商品标题结构化,提取有效信息
- 为商品各属性维度提供候选信息
- 支持查询理解
- 对召回排序等下游提供高阶模型特征
- 方法 - 建模为文本序列标准任务
- 挑战
- 短文本序列标注,上下文信息少
- 大量依赖常识知识
- 标注数据含较多噪音
- 解决思路
- 图谱信息引入
- 节点信息
- 图谱节点作为词典,以Lattice-LSTM方式介入
- 缓解NER边界问题
- 关联信息
- 基于图谱结构进行表征学习
- 产出单字、词的嵌入表示接入NER模型
- 缓解常识知识确实的问题
- 节点类型信息
- 对于不同类型下的单词、词嵌入进行表征
- 利用注意力机制根据上下文聚合不同类型的表征
- 缓解不同类型下词语含义不同的问题
- 节点信息
- 针对噪音标注的优化
- 无法避免的标注问题
- 少漏标注(标注员知识缺乏,远监督数据源不充分)
- 标注错误(标注误差、边界模糊)
- 提出解法:基于置信度数据的Soft训练方式 + Bootstrapping迭代训练
- 无法避免的标注问题
- 图谱信息引入
- 商品标题解析
- 提高挖掘效果
更多推荐
已为社区贡献4条内容
所有评论(0)