I. 知识图谱 应用案例 — 美团

概述

  • 深度学习(隐性模型)
    • 特点
      • 面向一个具体任务(如下围棋、识别猫、人脸识别、语音识别等)
      • 需要海量训练数据
      • 需要强大的计算力
    • 场景示例
      • 人脸识别
    • 目前进展
      • 在一些任务上已经接近或超过人类
    • 任务范围
      • 面向具体任务,难以迁移
    • 可解释性
      • 较难解释
    • 数据量
      • 海量训练数据
  • 知识图谱(显性模型)
    • 特点
      • 可广泛用于不同任务
      • 从海量数据中进行知识学习和挖掘
      • 可理解、可解释,类似人类的思考方式
    • 场景示例
      • 语音助手
    • 目前进展
      • 在知识量上超过人类,在知识推理上不如人类
    • 任务范围
      • 广泛适用于不同任务
    • 可解释性
      • 可解释性强
    • 数据量
      • 海量知识数据
  • 未来趋势:两者融合

历史

  • 2010年,微软
    • 开始构建Satori和Proase
    • 图谱规模约500亿
    • 应用于微软的搜索、广告、Office 365、Cortana等项目
  • 2012年,Google
    • 发布 Google Knowledge Graph
    • 图谱规模约700亿
    • 应用于搜索引擎、智能助理等项目
  • 2013年,百度
    • 布局中文知识图谱、主要在搜索、助理、和一些2B商业化方向
  • 2015年,阿里巴巴
    • 应用于智能导购、搜索、智能问答、大促、新零售等项目
  • 2016年,亚马逊
    • 应用于理解、推荐引擎、搜索、问答等领域

美团知识图谱概述

  • 发展历史
    • 2018年:
      • 餐饮知识图谱
    • 2019年:
      • 标签图谱
      • 场景图谱
    • 2020年
      • 商品图谱
      • 药品图谱
      • 酒旅图谱
      • 到综图谱
  • 要求
    • 多层次
      • 不同业务方、不同使用场景中,对于 “商品” 的定义有所差别
      • 粒度从商品下挂的SKU,到概念型的商品类目词
    • 多维度
      • 对于商品各个属性维度的理解
      • 通用维度 - 品牌、规格、包装、产品 等
      • 类目特有维度 - 是否含糖、脂肪含量
    • 高质量
      • 商品图谱以客观信息为主,对精准信息的要求高
      • 药品等特殊类目对信息错误零容忍
  • 挑战
    • 信息来源 — 充分利用层次体系聚合信息
      • 数据少 - 标题 & 图片为主,商品介绍、评论数据稀缺
      • 噪音大 - 信息误录、标题不规范、表达不一致
      • 长尾效应显著 - 动销商品占比低
    • 数据维度多 — 高效的数据流程支持
      • 数十维的通用的属性维度
      • 上百维的特定类目属性维度
    • 依赖常识知识 — 结构化知识和语音模型的结合

商品知识图谱构建

  • 图谱体系
    • 图谱层次
      • 前台类目:牛奶
      • 图谱品类:鲜牛奶、调味牛奶(核桃牛奶/香蕉牛奶)、高钙牛奶、纯牛奶、脱脂牛奶、儿童牛奶
      • 抽象商品:蒙牛高钙牛奶、特仑苏纯牛奶
      • 标准商品:具体的商品
      • 商品SPU:店铺 + 具体的商品
    • 业务视角
      • 品类/类目视角
        • 类目关联、典型品牌、典型属性、品类层级、品类搭配
      • 用户认知视角
        • 热度/销量、特色标签、别名/俗称、推荐理由
      • 商品属性视角
        • 品牌、口味、含糖/脂肪、香型、半/未加工、包装/规格、产地、适用人群、适用时间、适用场景
  • 如何构建图谱体系
    • 关联到标准商品:商品条码
      • 问题:数据缺失、数据错误
      • 解决方法:商品同义词判别
        • 训练方式 - 远监督学习 + 模型主动去噪
          • 正例:原始数据中处于高置信度的标品SPU
          • 负例:原始数据中商品/图像相似却不属于同一个标品的SPU
          • 远监督数据抽象准确率 96%
        • 模型流程
          • 基于Bert进行同义词模型训练
          • 利用向量哈希召回相似商品
          • 利用同义词模型判别
      • 结果准确率达到 99%
    • 抽象商品(用户认知层)
      • 概述
        • 在标品的基础上进行聚合,对包装、规格等不敏感
      • 思路
        • 复用标品关联模型,向上聚合
          • 对原先远监督数据进行调整
          • 隐藏包装、规格维度信息
          • 负例构造方式放宽商品名相似范围
    • 品类 - 商品的本质
      • 概述:承载用户精细商品需求的颗粒度
      • 品类体系和类目体系的区别
        • 粒度更细、更加精准的定位商品
        • 节点和关系的覆盖更加全面
        • 构建以算法模型指导为主、非人工运营主导
      • 品类上下位 & 同义词挖掘
        • 候选节点对:百科数据 + 搜索日志 +文本语义
        • 模型:BERT + 统计特征
        • 基于主动学习进行标准和质检
  • 属性维度挖掘
    • 商品标题解析
      • 将商品标题结构化,提取有效信息
      • 为商品各属性维度提供候选信息
      • 支持查询理解
      • 对召回排序等下游提供高阶模型特征
    • 方法 - 建模为文本序列标准任务
    • 挑战
      • 短文本序列标注,上下文信息少
      • 大量依赖常识知识
      • 标注数据含较多噪音
    • 解决思路
      • 图谱信息引入
        • 节点信息
          • 图谱节点作为词典,以Lattice-LSTM方式介入
          • 缓解NER边界问题
        • 关联信息
          • 基于图谱结构进行表征学习
          • 产出单字、词的嵌入表示接入NER模型
          • 缓解常识知识确实的问题
        • 节点类型信息
          • 对于不同类型下的单词、词嵌入进行表征
          • 利用注意力机制根据上下文聚合不同类型的表征
          • 缓解不同类型下词语含义不同的问题
      • 针对噪音标注的优化
        • 无法避免的标注问题
          • 少漏标注(标注员知识缺乏,远监督数据源不充分)
          • 标注错误(标注误差、边界模糊)
        • 提出解法:基于置信度数据的Soft训练方式 + Bootstrapping迭代训练
  • 提高挖掘效果
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐