返回 登录
0

【SDCC 2016】直击雪球、北邮、品友互动、AdMaster、悠易互通的个性化推荐&算法实践 | PPT下载

【CSDN现场报道】2016年11月18日-20日,由CSDN重磅打造的年终技术盛会——2016中国软件开发者大会(Software Developer Conference China 2016,简称SDCC 2016)在北京京都信苑饭店隆重举行。本届大会云集了100多位国内外顶尖专家和技术大牛,共设新趋势和新实践2大主题会场,14个技术专题。面向国内外的中高端技术人员,聚焦最前沿技术及一线的实践经验,助力企业的技术升级和改造、全面提升技术人员的综合实力。(PPT下载地址:http://download.csdn.net/meeting/meeting_detail/23

11月20日下午,个性化推荐专题在Admaster技术副总裁卢亿雷的主持下正式拉开帷幕,雪球首席架构师唐福林、北邮模式识别实验室副主任高升、品友互动大数据部负责人林招、AdMaster基础架构部高级研究员景艳山、悠易互通高级算法工程师容一飞、微博商业产品部算法技术专家康乐为大家带来了个性化推荐的思考和算法实践,深层次解读用户画像、信息推荐、实时竞价、数据挖掘等纯粹技术。

图片描述
Admaster技术副总裁 卢亿雷

图片描述
会场座无虚席

雪球首席架构师 唐福林:雪球社区用户画像体系探索

图片描述
雪球首席架构师 唐福林

雪球首席架构师唐福林发表《雪球社区用户画像体系探索》主题演讲。雪球是一个投资者社区,搭这个系统最大的坑主要是数据字段类型不统一、加减字段,另外还有ETL缺乏规范和管理,存储原始内容,ETL较少,存储太多不必要的内容,job无序增长,其中CPU和IO争用情况逐渐增多等问题。雪球大数据体系目前有4个集群,20+机器。在现状的基础上,雪球开始用户画像的探索,采取趋势统计、多维分解、行为路径转化漏斗、用户分群A/B测试等数据分析手段,使用开源软件、第三方云服务或自研进行用户行为分析,其中自研的分析软件称之为Moneyball,从中提取用户信息为用户进行分类。算法使用Mahout,用HBase宽表为用户打标签,进行属性分群为用户分类。最后唐福林通过自身实践经验,建议搭建大数据体系的最佳时机是公司刚成立的时候,尽可能地收集能想到的数据,直到硬盘装不下了之后再考虑优化,仔细考虑数据库的表设计,字段类型结构选择。如果最初做的不够好,唯一的改正机会就是导入到大数据体系的时候。

北邮模式识别实验室副主任 高升:基于表示学习的信息推荐算法及应用

图片描述
北邮模式识别实验室副主任 高升

北邮模式识别实验室副主任高升发表《基于表示学习的信息推荐算法及应用》主题演讲。信息推荐系统所需要的数据源一般来自用户对商品或信息的偏好,系统用户的基本信息和推荐对象的元数据信息。用户偏好信息可分为显式和隐式用户反馈。表示学习旨在把目标对象映射到低维的统一特征空间,学习用户、商品以及用户偏好的潜在语义信息,从而进行相关性分析。表示学习有两种模型:第一种基于矩阵分解的Aspect-level推荐算法,自动抽取评论中的Aspect和每个Aspect的对应评分,然后分析用户对Aspect的偏好,总结商品Aspect的评分,最后计算用户的个性化评分,以及每个Aspect 的对应评分。第二种是基于偏好向量学习的信息推荐算法,将用户的偏好表示为一个分布式向量,可以平滑接入多种行为反馈模式。

品友互动大数据部负责人 林招:论实时竞价广告中的推荐

图片描述
品友互动大数据部负责人 林招

品友互动大数据部负责人林招发表《论实时竞价广告中的推荐》主题演讲。RTB(Real-time bidding)实时竞价通过用户入口登录媒体网站发送消息给RTB服务提供商,然后对接到DSP(Demand-side platforms)进行内部处理发送竞价给服务提供商从而反馈到网站并显示到用户界面。其中最为复杂的是DSP(广告竞价决策平台),涉及对象、内容、时机、样式、价格和目标。对象通过对比转化率过滤出合适的人,另外点击率(CTR)也是广告投放中最常见的一种考核目标。内容采用协调过滤、wcos、矩阵分解、BPR算法方法进行商品推荐。广告的主要效果依赖于程序化创意,可以促进用户点击。价格同样也是一个重要因素,采用竞价算法涉及三个价格:底价、竞拍价和成交价。以上的一切的基础是有效的数据和可靠的框架。

AdMaster基础架构部高级研究员 景艳山:个性化推荐之跨设备打通

图片描述
AdMaster基础架构部高级研究员 景艳山

AdMaster基础架构部高级研究员景艳山发表《跨设备打通》主题演讲。何为跨设备,跨设备ID识别就是识别不同设备背后的同一用户,它将成为整合碎片化用户数据、实现精准广告投放必不可少的工具。跨设备可以真正的受众去重,减少重复投放,精确定准原因,提高ROI。目前跨设备面临Cookie稳定性差,山寨机多、IP不稳定等困境。Admaster提出建模理念,有效缓解现状。建模第一步进行样本的构建,构建正样本和负样本并设置比例,过滤非人类量,在源头保证数据的证实性,候选Pair的产生。再建立IP的私密性。该模型主要应用于线上预测,百亿量级候选Pair。

悠易互通高级算法工程师 容一飞:实时竞价个性化推荐的人工智能

图片描述
悠易互通高级算法工程师 容一飞

悠易互通高级算法工程师容一飞发表《实时竞价个性化推荐的人工智能》主题演讲。在短时间内得出实时竞价较为精准的数据主要运用人工智能技术,通过竞价算法盒子实现广告活动投放期间内的KPI。下面从预测模块算法方面介绍人工智能应用,预测算法主要有点击率预估和竞价愿景预测。点击率预估定义机器学习回归模型框架以及损失函数,点击率预估时候运用机器学习解决框架,可以使用线性化和非线性化进行优化。在竞价愿景预测当中是符合对数正太分布的。决策模块算法中最重要的是出价算法,基于RTB竞价机制(第二高价竞价)中,对每一个期望进行评估。除了最大化广告主KPI,品牌更注重效果的稳定来帮助排期和分配预算。最后容一飞结合自身经验分享业内投放的实际过程中一些重要问题的解决之道,一是作弊与反作弊,二是数据倾斜于无偏处理,三是目标用户稀缺与扩展。

微博商业产品部算法技术专家 康乐:微博商业数据挖掘方法论

图片描述
微博商业产品部算法技术专家 康乐

【个性化推荐专题】微博商业产品部算法技术专家康乐发表《微博商业数据挖掘方法论》主题演 讲。数据挖掘以用户为中心展开,数据体系来自基础数据、兴趣数据、情景数据和能力数据。数据抽象之后定义成情景引擎,有LBS数据、App使用数据、话题数据、微博互动、关注、用户信息、分组信息。接着康乐分享日常会忽略但是重要的挖掘方法,第一种方法是评价,其中有四个级别,首先是效果级,数据挖掘的产出可以直接用线上来评价,如兴趣标签;第二是Ground truth级,统计有效的信息来挖掘数据,如性别、年龄;Case级别,每个用户状态来验证算法结果,如旅游状态;无法验证以上事实,可以使用Logic级,其中兴趣标签占取最高级别和最低级别的评价。第二种是兴趣标签挖掘方式,指定广告场景下用户对某个粒度的广告发生目标行为的概率。第三种根据平台的内容特性来确定分类。数据挖掘的实战经验首先要做到紧贴业务,学会花时间沟通让数据和业务活起来,然后建设系列评价体系,对于数据工作要遵循数据>特征>模型的规则。

活动剪影

图片描述
参会者与讲师台下交流

图片描述
参会者与讲师台下交流

图片描述
参会者提问

图片描述
参会者聚精会神


更多精彩内容,请关注图文直播专题:SDCC 2016中国软件开发者大会,微博:@CSDN研发频道,订阅 CSDN 官方微信公众号(ID:CSDNnews),即时获取大会动态。

评论