分享

【BDTC 2015】推荐系统分论坛:百度、FreeWheel、新浪微博、京东和猎聘推荐系统架...

eying 发表于 2015-12-16 17:29:58 [显示全部楼层] 只看大图 回帖奖励 阅读模式 关闭右栏 2 10683
本帖最后由 pig2 于 2015-12-16 20:21 编辑
问题导读:



1.关于BML百度大规模机器学习云平台的实践?
2.什么是基于大数据的新兴视频广告测量?
3.大数据驱动下的微博社会化推荐?







2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。

12日上午的推荐系统分论坛,百度基础架构部高级架构师沈国龙、FreeWheel技术副总裁李旸、新浪微博算法技术总监姜贵彬、京东数字营销大数据高级总监万昊和猎聘网首席数据官单艺分享了机器学习和推荐算法在搜索、广告、社交、电商和招聘等不同领域的应用。

一、百度沈国龙:BML百度大规模机器学习云平台实践

百度基础架构部高级架构师沈国龙分享了题为《BML百度大规模机器学习云平台实践》的演讲。

1.jpg


他提到大数据的处理流程包括六个模块:数据、手机、存储、变形、分析、业务场景。并且,他分享了百度大数据处理基础架构,主要讲解了百度大规模机器学习算法框架ELF(Essential Learning Framework)和百度机器学习云BML(Baidu Machine Learning)。ELF框架在设计上汲取了常见计算框架Hadoop、Spark、MPI的精华,拥有和Hadoop一样简单的编程模式,比Spark更快的性能,以及比MPI更易用的接口,并且将计算过程进行托管,提供了包括多轮数据迭代处理、异步更新、并行通信等功能,让用户不在考虑底层的实现细节,专注算法自身逻辑,还拥有性能一流的参数服务器(Parameter Server),可用于存储万亿规模参数。其特点总结为易用、高效。

他通过广告点击率建模应用介绍了百度机器学习。点击率建模的应用算法包括逻辑回归和GBDT + FFM,数据是各种用户点击日志。百度机器学习逻辑回归算法的特点是:支持数百T样本数据训练,千亿特征,千亿样本,支持连续值/离散值;支持L-BFGS和SGD两种算法求解。他提到把不含隐层的浅层学习模型转换为含多个隐层的深度学习模型的原因是:浅层需要观察特征,对特征工程压力很大,深度学习模型从根本上解决了特征的问题。

他总结了机器学习成功的要素:一、数据。包括数据收集和多套数据的打通,清晰、明确、“洁净”的数据源、Online & Offline数据的结合;二、系统。快速、低成本的实现,支持规模快速扩张的高效算法库,AB Test和模型迭代机制;三、评价标准。覆盖率、置信度、差异性、采纳率、新颖性、隐私性、预测Auc、NDCG、收入波动、人工使用体验等指标,对整体系统的影响。

2.jpg

最后,他介绍了广告推荐系统的流程。首先把数据日志、移动端日志、CRM、Marketing System与互联网数据进行打通。然后,提供各种数据工具进行分析、统计、挖掘。接下来,训练模型并发布预测服务。然后,通过智能Retargeting挽留老用户、发掘新用户,进行推广。

二、FreeWheel李旸:基于大数据的新兴视频广告测量实践

FreeWheel技术副总裁李旸分享了题为《FreeWheel基于大数据的新兴视频广告测量实践》的演讲。他主要从以下三个方面进行了分享:新兴视频广告测量方式、用户性别年龄预测、广告完成率预测。

3.jpg

他提到广告测量的挑战仍然是广告的实际效果很难被测量,而且市场里还没有建立起行之有效的被广告主和媒体都接受的广告测量方式。目前大多数都采用基于用户反馈进行测量。新兴视频广告测量方式包括三种:数字收视率、广告完成、可见曝光。数字收视率测量流程为:一、创建广告订单;二、注册该广告订单;三、播放视频;四、请求广告;五、发送beacon;六、返回前日投放结果。该方法面临的挑战是投放时预测用户年龄性别,年龄预测和性别预测的方法是完全类似的,一个直观的思路是把它想象成有监督分类问题,把前面的观看历史和静态信息当成一个特征,就可以知道用户的性别到底是什么,但问题是缺少有效的样本标注手段。

分析用户年龄性别的一个比较有用的特征是之前视频和网页的观看历史。基于名称和简短描述,提取两个特征,即Genre和Topic。对每个Genre训练一个SVM模型,获得特征为2-gram词表在正负样本中出现的次数的比值。利用LDA提取了100个Topic。Topic提取特征可以作为前面Genre模型很好的补充,把这两个结合作为一个网页或者视频特征的描述。

4.jpg

有了训练和特征,剩下就是做分类。采用不同的模型,发现计算用户的性别概率的准确率有时候比较低,这种现象有两方面原因:一方面是训练本身就不是百分之百准确;当有些用户观看率比较少的时候用这个模型计算也不是太准确。解决这个问题的办法是使用相似用户平滑进行优化,具体使用SVD分解,把用户在两千个网页上的浏览行为,映射到200维的特征空间,根据向量的距离,计算新用户和之前哪些新用户比较相似,提取比较相似的用户,取一个平均值,作为一部分的预测结果,再把这个结果和通过模型算出来的结果做加权平均,用这种方法得出最终平滑预测的结果。

广告完成率预测。广告完成率,是给定广告、用户、当前请求环境的条件下去预测广告完成事件可能出现的一个条件概率,它实际上是典型的回归问题,回归特征主要来自于三个维度,广告和用户。

三、新浪微博姜贵彬:大数据驱动下的微博社会化推荐

新浪微博算法技术总监姜贵彬分享了题为《大数据驱动下的微博社会化推荐》的演讲。他主要从以下几个方面进行了分享:推荐的角色与定位、大数据与推荐的关系、数据驱动下的微博推荐、商业推荐。

推荐的角色与定位。他认为微博的核心目标是提升关系构建量、内容传播速度和商业化营收。推荐手段包括大数据分析、兴趣协同、行为触发。推荐扮演了加速器和调控器的角色。加速器是指加速优质信息传播、加速高价值关系构建、加速用户成长。调控器是指优化用户关系网络结构、调控和引爆信息的定向传播。

5.jpg

大数据与推荐的关系。他认为数据量大是大数据的前提条件,这个爆炸式的数据增长,是深度和广度的增加,是数据多样性的提升。大数据的意义在于可以通过这些数据获取到原来数据中无法获取到的东西,对一些事情的认知会更加的全面、立体。相比于一般数据,他认为大数据效果随采样率降低而显著降低,大数据分析要求较高的采样率,推荐是典型的大数据问题,大数据是推荐系统的基石。

6.jpg

数据驱动下的微博推荐。他认为社会化的概念是去中心化、非对等性、社会化分工。他提到从信息层面微博数据特点是碎片化、UGC与媒体共存、简短、传播速度快、丰富。微博由点到面的关系网络结构,使微博具有非常强的信息传播能力。这个特点是把双刃剑,带来优势也会引发问题:传播速度过快,会让旧的信息很快被淹没掉,不管它是高价值的,还是低价值的,从而怎么样让优质信息沉淀下来,获得更多的曝光机会,是推荐需要去考虑和解决的问题。他认为产品设计应该顺应用户行为、自然流畅,先从最有效的推荐场景入手。关于推荐系统的架构,他提到应用层将场景特征传入在线服务,进行流量切分、算法策略选择和排序。该系统分为初选和终选。在算法实践上,他主要介绍了算法体系、协同过滤、相关性推荐、预估模型、时序混合、模型融合。

商业推荐。算法优化目标是在一层曝光量的前提下获得更多的实际曝光量和互动数。

四、京东万昊:大数据技术在京东广告中的应用

京东数字营销大数据高级总监万昊分享了题为《大数据技术在京东广告中的应用》的演讲。他主要分享了三个方面:大数据不仅仅在于数据大,更重要的在于对数据的洞察;广告中最重要的大数据应用在于定向;京东的大数据的三赢。

7.jpg

数据洞察是指数据里挖掘出的能够应用于产品、提升效果的规律。定向是指广告商希望哪些用户看到自己的广告,但更重要的是猜测自己产品的用户应该具有哪些特征,最直接的是找到潜在用户。搜索词定向是定向搜索了相应关键词的用户。购物行为定向那些看过或者买过特定商品、品牌、店铺、类目的用户。

8.jpg

京东广告大数据的三赢是指用户买到了自己想要的商品、广告商推广了自己的商品、京东获得商品销售收入和广告收入。定向代表广告商想要这个用户,而用户未必想要这个广告。京东广告算法要实现的是保证插入广告之后,用户购买商品总额上涨,具体的做法是通过大规模机器学习来预估是否满足用户需求。如何做到三赢?一方面,一个成功的大数据系统,必然是一个over-fitting到相应产品的系统。over-fitting到相应产品,京东电商这样的产品,优化目标和产品是绑定的,先搞清楚优化目标产品是什么,才能够把系统搭建的靠谱,有些产品确实不太好找数值化特别适合机器学习的优化。京东广告的架构、算法就与百度凤巢广告有很大区别,京东广告根据京东的特定产品场景对用户行为进行建模,使用京东独有的数据over-fitting。另一方面,一个成功的大数据系统,必然是一个能够快速迭代的系统。京东广告既有搜索又有推荐,因为统一的架构对于快速迭代非常重要,并且持续集成,能够自动化测试、部署、上线。广告系统检索流程包括三个阶段:一、召回,即购物行为定向和搜索定向。二、排序,包括质量因子计算和质量因子乘以出价排序。三、计费,即GSP二价计费。

五、猎聘网单艺:运用增强学习算法提升推荐效果

猎聘网首席数据官单艺分享了题为《运用增强学习算法提升推荐效果》的演讲。

他分享了猎聘网人才匹配基本的概念和框架。做很多小的匹配模型和策略,从不同维度把人和企业的职位进行匹配。这里边也用到了很多行为方面的数据,比如说人的浏览和投递行为,企业HR下载,还有表示满意不满意的行为,都把它用到匹配的策略里面去,这些匹配策略以后生成不同的结果,经过融合和过滤,分别推送给个人用户和企业。

9.jpg

职业社交同道系统,即猎聘同道,比较像社交推荐系统。策略是在行业和职能上面,设计他的社交图谱和行为,包括同学关系,如果你有完整履历,这些都可以把它用来作为信号,产生出候选,经过经典模式融合,再过滤,最后得到推荐结果。在做推荐工作的时候经常会发现,其实每天都面对很多新事物,对新的事物一无所知的时候就要去探索。这个问题就像你去一个赌场,有很多老虎机,你去试哪台机器可以赢钱,你希望收益最大化,A/B测试和这个有点像。这个问题是增强学习里面比较简单的问题。增强学习提供了一套自适应智能系统的理论框架。老虎机算法通过留很小的百分比去试验,观察return,选择目前最好的策略。Thomspon算法利用贝叶斯理论,根据当前后验进行采样,选取收益最大的。探测的时候可以知道它后验的分布,更新自己的模型参数,每次根据当前后验参数得出来的分布进行采样,有可能即使是比较差的策略,也可以保证一定程度的探索。

10.jpg

新用户冷启动问题,新用户来了不知道他的兴趣在哪里,这个时候可以用Thompson sampling分类,根据这些算法分类用户,收集用户反馈,他是点击看了还是收藏了,有了这些数据之后你就可以对类别的兴趣进行打分,你可以用UCB,也可以用Thompson sampling,这也是比较常用的方法。

增强学习的其他应用,没有context的和有context的比较复杂的增强学习,在实际当中遇到的情况有非常多的用途,比如智能控制,智能机器人,调度优化,互联网广告,在线游戏等等。

MAB模型能够帮助UI优化、推荐策略试验、用户兴趣探测、内容试验。Contextual MAB模型可以做得更深入、更好。



已有(2)人评论

跳转到指定楼层
a_zhen 发表于 2015-12-17 10:09:50
真正的大牛也不是写代码的,而是搞算法的
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条