返回 登录
0

【BDTC 2016】与一点资讯、360、百度、阿里云共同探讨推荐系统

【CSDN现场报道】2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、中科天玑数据科技股份有限公司与CSDN共同协办,以“聚焦行业最佳实践,数据与应用的深度融合”为主题的2016中国大数据技术大会在北京新云南皇冠假日酒店隆重举办。

2016中国大数据技术大会“推荐系统论坛”于12月10日13:20准时开始,论坛主席、AdMaster技术副总裁卢亿雷先生向与会者介绍了各位演讲嘉宾,并对大家的到来表示热烈欢迎。

田超—— 一点资讯大规模实时点击反馈平台设计与实践

图片描述

实时获取和发现海量用户精准兴趣是一点资讯兴趣引擎的核心能力之一,在现场,田超介绍了一点资讯兴趣引擎背后的技术,即一点资讯大规模实时点击反馈平台——Neo的设计与实践,以及设计过程中面临的问题和挑战。该平台作为基础设施,是支撑包括实时用户画像、实时数据分析、大规模在线学习、实时广告统计等业务的基础平台。田超列举了设计过程中面的五大问题:对近似的pipeline统一、实时计算与离线计算如何统一、数据的变化如何追踪与Debug、线上高性能存储引擎、如何监控与维护,并详细给出了一点资讯的解决方案。

李成华——深度学习在自然语言处理中的应用

图片描述

武汉飔拓董事长、首席技术官李成华先生带来了《深度学习在自然语言处理中的应用》主题演讲。在现场,李成华先生深入浅出地为大家详细讲解了什么是自然语言、NLP的应用、自然语言处理的层次、语义与语用、内容层的信息处理等知识点。

据统计,日常工作中80%的信息来源于语言,处理文本的需求在不断增长。自然语言处理的典型应用包括:

  • 智能搜索引擎、自动问答、信息获取、语义网
  • 语音识别,文字识别、输入法
  • 机器翻译,自动文摘,跨语言检索
  • 文本分类、文本聚类、文本分析(结构、内容、情感)、文本挖掘(主题跟踪:人物跟踪,企业跟踪)、文本过滤

接下来,李成华先生就“机器人能够理解人的语言吗”这个问题,阐述了理解自然语言的准则、自动分词、分词歧义、词义消歧等内容,并为大家讲解了深度学习的发展历程以及几种常见模型。最后,李成华先生为大家讲解了一个word2vec的实战案例。

陈恩红——领域知识驱动的个性化推荐方法

图片描述

随着大数据向金融、教育等诸多领域的拓展,用户行为与认知、情境等新兴要素相互耦合,传统推荐技术已逐渐难以有效应对。陈恩红从基于认知的教学个性化推荐、情景感知的移动用户推荐、金融领域带风险约束的推荐、结合社交因素的用户推荐,这四个维度介绍了介绍其在领域知识驱动的个性化推荐方法问题上的相关工作和实践。陈恩红总结,面对不同领域独特的应用场景,泛化的模型结果难以满足用户的需求,通过结合各行业独特的领域知识,构建适用于不同领域下的推荐系统。

朱广彬——360聚效广告大数据平台实践

图片描述

360商业化产品事业部数据架构高级工程师朱广彬,带来了《360聚效广告大数据平台实践》主题演讲。计算广告是一门以计算驱动广告的学科,相对于传统广告而言,计算广告能够做到千人千面,可以针对不同用户的需求向其发送特定的广告,以提升用户转化率。朱广彬介绍360聚效广告大数据处理平台在实践过程中的演进与实践经验,包括在应对数据量从几十亿到近200亿的快速增长过程中数据平台的应对措施,以及如何提高实时性和投放准确性的算法实践。

360聚效广告大数据处理平台的目标:

  • 在合适的媒体上下文场景下为广告主找到合适的受众,投放合适的广告创意
  • 在广告主、媒体、受众的整个生态中的三方博弈中寻求三方共赢

流量越来越多,实时性要求越来越高,高可用和扩展性都给数据平台带来严峻的挑战。日志Schema的合理设计是后续数据处理的基石,选择合理的日志存储格式;实时Sessionization将用户的完整行为日志串联在一起,sessionId作为rowkey,bid/show/click分别作为family,形成天然的session化过程。通过Online Learning改善了离线Machine Learning计算过程复杂冗长的问题。

最后,朱广彬简述了360平台如何解决高可扩展稳定性可用性,跨机房不同集群版本数据共享,集群快速扩容导致的节点间数据不均匀的问题。

刘喆——基于图算法的跨设备受众识别

图片描述

Admaster架构师刘喆带来了《基于图算法的跨设备受众识别》主题分享。刘喆针对当前一人多机,且没有账号体系的问题,给出了AdMaster的解决方案:每次取15天的访问数据;同一天,同一IP,找出cookie和device,做笛卡尔乘积、形成对(pair);为每一“对”生成特征向量;根据已知数据,对特征向量训练,生成模型;把模型应用到新的“对”,根据可信度,取可信的“对”;用这些“对”生成森林,每棵树指代一个人。

在具体的实现中,AdMaster选取以下特征:

  • cookie - ip - count
  • device - ip - count
  • cookie-ips device-ips common count
  • ip-public-weight
    sum( pair-count / ip-public-weight ) 越大越好
  • same web page count
  • 同一电视剧

在做特征之前,AdMaster用以下两个指标对数据进行清洗:

  1. blueAir(可清洗掉10%的数据)
  2. 15天内,同一个IP出现的次数应小于4000次(可清洗掉40%的数据)

并对在具体实施过程中AdMaster发现的有趣现象进行了解读。

秦铎浩——百度大规模推荐系统实践

图片描述

百度高级研发工程师秦铎浩致力于百度内部机器学习平台大规模机器学习算法的研发,其分享了《百度大规模推荐系统实践》的演讲。秦铎浩首先介绍了百度机器学习开放平台历程,百度内部有非常多的系统都在使用BML的推荐算法,为业务效果带来了非常大的提升。在推荐系统的构建过程中,针对海量数据的推荐系统的训练是非常困难的。秦铎浩介绍了常用的推荐算法使用以及背景, 涉及的核心技术难点与解决方法,以及下一代推荐系统的未来发展趋势。

秦铎浩介绍了百度机器学习开放平台中的典型推荐系统:

ELF (Essential Learning Framework),简单易用, 编写Async SGD LR仅需要200行代码;组件分布式多线程实现, 支持细粒度的线程控制;节点间通信依赖高效的baidu-rpc;深度优化hashtable, 专用于Parameter Server

Alaya推荐是一款基于深度学习的推荐系统,支持基于用户和商品的协同过滤,可以使用上更多的用户信息,并行分布式训练。

郑重——阿里云推荐引擎

图片描述

阿里巴巴算法专家郑重带来了《阿里云推荐引擎》主题分享。郑重表示,一般说到大数据,我们会说到三个字:存、通、用。亚马逊是第一家将推荐系统引入网站运营的公司,时至今日,超过35%的成交与推荐系统相关;Netflix在多个业务场景中添加个性化服务,现在有 75% 的视频观看是与推荐系统有关的;Facebook 作为全球排名第一的社交网站,利用推荐系统来帮助用户找到他们可能感兴趣的页面、组、事件或者游戏等。

郑重先生首先介绍了推荐的历史、搜索引擎、在线广告系统、以及推荐系统。针对概念抽象的过程,郑重先生介绍了数据抽象和规范:

  • 用户、物品、行为
  • 格式规范
  • 埋点规范

并从业务、场景、算法流程三个方面对产品概念的抽象进行解读。最后,郑重先生向与会者介绍了阿里云推荐引擎的架构,并就一些常见问题提出行业解决方案。

至此,BDTC 2016推荐系统分论坛落下帷幕,我们来年再会。(部分讲者PPT已放至大会官网)


更多大会精彩内容,请关注CSDN“2016中国大数据技术大会” 专题报道;微博@CSDN云计算,微信搜索“CSDN大数据”订阅号获取大会精彩资讯。

评论