8月29日-30日,以“数据重构未来”为主题的D-Future七牛数据时代峰会在上海举行。七牛携百名创业明星,技术大咖汇聚国际时尚中心,共话数据发展,探讨行业未来! 360 高级总监刘鹏在30日的会议上带来《大数据交易与变现》演讲,主要讲述如何把数据变成钱,怎么给数据定价,以及大数据时代隐私安全的问题。以下是他的演讲实录:
刘鹏:今天非常的诚惶诚恐在这么一个高逼格的地方做演讲。那数据到底有没有价值,从广告的行业来看的话,数据的价值和数据怎么样变成钱这个事,已经完全不需要讨论了,它已经有了十年以上的历史了,而且是在规模化的创造整个互联网的营收。 今天主要是阐明一个问题,数据是如何创造价值的,重点是说的关于用户的行为价值,别的变现的手段不在我们的讨论范围里。第二点是比较有意思的,以广告市场为基础,我们实际上已经形成了一个比较完成的数据的交易和定价的这么一个机制。我们知道在中国,今年有二个数据交易所诞生,一个是贵阳的,一个是武汉的长江以交易所,我也和他们一些人做过沟通,我特别强烈的建议,所有的对数据有兴趣的人,不管是从事数据变现,还是从事数据交易的,必须是要了解一下广告,因为广告的商业化的机制有过非常多的探索,而且有过非常多的弯路。 今天看一下广告相关的数据的交易,真正的理解数据的价值,做好数据交易有非常多的帮助。另外数据交易是非常前沿和不成熟的。它有一些什么问题呢,也是我们今天要讨论的一部分。 我经常在一些报告里提我的观点,互联网思维是什么,第一点我要提一下,互联网就是三个不要,首先是不要钱。我们用免费的产品加上后向变现的商业模式,最大的价值使我们过去很多不能做的事,现在在互联网可以做了,过去是没有商业模式的,为什么可以赚钱,它的价值是在哪里呢,有没有这种后象变现的逻辑,使数量和流量可以变成钱,这是互联网真正的创造了价值的地方。我个人认为互联网巨大的发展,并不是颠覆过去的行业,而是创造新的行业。 第二个是不要脸,这是每一个做互联网的人必须坚守的行为准则,中国的互联网的传播是一种无底线迎合用户的产品与营销方式,很难说对或者是错,这是市场的趋势。 最后一点是不要命,如何让产品的程序员以自愿的以996或者是007的方式加班,硅谷就是强调的做到这一点。有的时候变成了一种常态。 我的个人的观点三个不要。和什么有关呢,和不要钱有关系。我们看一下不要紧,我们把所有的传播信息的商品,包括了我们的网站,比如是我们推广一下,电影也是一种传播信息的商品,价格会趋向编辑成本。那是怎么赚钱的呢,就是把流量和数据变成钱,流量变成钱比较好理解,数据变成钱是最近几年特别热的话题。 所以要做一个广告,为什么要做这个广告呢,我还是建议大家要了解和数据相关的东西,并不是因为我做广告的说这个话,但是你不了解广告的话,会走很多很多的弯路。市场上没有人系统的整理广告里面的产品技术,所以我写的内容当然也不成熟,有兴趣的话,大家可以去计算广告就可以了。内容会比较的简单粗暴一点。包括象三个不要这样子的论调也会比较多。 我们切入我们的正题及这个会是关于大数据的,我个人觉得我对大数据的认识和其他的人有一点不一样。不一样在什么地方呢,我并不认为传统的数据的分析问题是属于大数据,这是从我的实践来说的,比如是我统计360公司在每一个省的用户的比例,这个问题要处理大量了日志,这个我个人这个不是大数据,这个我是属于传统的数据分析的问题,大数据的问题是属于怎么样的呢?就是我们在图里画的,A类这样子的问题,如果是通过你的数据采样解决这个问题,如果这个问题解决的效果是迅速的下降,那这才是大数据的问题。我举一个例子,广告就是典型的大数据,为什么呢?我需要对全中国每一个人分析他的行为的特征,分析他的购物的偏好,十亿人里面的100万分析,进行广告的RPM的优化,显然最后的受益也只有在这100万人产生,这样子的才是大数据的问题。只有这样子的问题,才需要用到快速的处理大量数据的基础架构,否则的话,我是不需要的。 我曾经说过一句话,多少也得罪了不少的人,象IBM,思科这种公司,他们对大数据也是说了很多,但是我觉得他们整个的产品线和大数据是毫无关系的。就好比是你去麦当劳吃西餐,真正的大数据应该是处理海量的用户行为数据,并且是在不能采样的情况下进行的。当然不是说大数据处理的难度要高,因为它对移植性的要求,为它的困难的程度,但是它不是必备的,这是我个人的观点。 数据有二类的基础应用,我们总结一下,这二类的基础应用,对应了我刚才说的观点,我们叫做洞察和自动化。洞察是全局或者是局部统计,比如是我要统计360在每一个省的用户占比,我要的是一张表,与它相对应的是个体的行为统计,这个个体可能是人,可能是一个网站,大量的个体的非聚合的特征。洞察我们大多数是用于宏观的决策支持,说的简单一点,给人看,而自动化比如说是定向的广告,个人的信用,面向的是机器的。用于微观业务的实施。所以最后的数据的结果是给人看的,还是给机器看的,如果是给机器看的话,我觉得应该是在大数据的今天,应该是放在更优先的地位。这是我的想法。 然后我用一个词来和大家说一下,数据是怎么变成钱的,大家对广告熟悉的人都很熟悉,不熟悉的人,正好可以了解这一点。数据变成钱的方式非常的简单。比如这是一个广告位,流量价值一万块钱,投的是吉列剃须刀的广告,很显然一半的女性的用户对吉列购买的潜在的可能性是比较小的,我说的是理论,实际上不一定,如果是把流量区分开,比如说把吉列的广告投给男性的用户,这样子的话,对广告主是好事,因为只要付出六千块钱,有效的用户没有损失,并且成本变化程度了60个,剩下的一半的流量,女性的流量,我可以再投给另外一个化妆品的广告。 6000+6000=1.2万,等于流量价值的一万块,二千块钱这个就是数据的价值了。为什么是数据的价值呢,因为你知道每一个用户是男是女,使你多赚了这二千块钱,这个是广告行业对用户的属性和变现的非常简单的原理,用这种方式来赚钱,特别特别的容易,数据一定是在规模化大量的赚钱,我们知道性别就可以多赚2000块,知道的更细,就可以赚更多的钱。 比如是有一块地,有的地的下面是有金子,有的是有银子,你知道有金子的话,把地买下来,把金子买下来,地还是原来的价格,但是你知道了这个信息,就得到了下面的金子,这个是数据变现的基本的原理。在互联网的广告里是可以规模化的变现的。有一个图,这个图是很有名的,如果是大家做广告的话,应该都知道,有一个咨询公司卢马(音)画的广告产品的示意图。 在广告市场上面这一大部分是从事广告交易的公司,广告交易是很复杂的。下面的一大块,全部是从事数据加工和交易的公司,所以实际上在广告的市场上存在这么一个分工,有人专门的从事数据加工交易,和广告丝毫没有关系,在广告的市场里是非常的核心的。大家也就可以知道数据对于整个互联网变现的核心的地位。所以在这个市场里面,其实就是存在着所说的数据加工交易的问题。 要说一下概念,我们说的数据交易,因为我了解的都是和广告相关的,其他的数据交易,现在并没有发展起来。说几个概念,所谓的三方数据,第一方的是广告的第一方的数据,广告平台比如是Facebook给我提供的用户的标签,这是第二方的数据,其他的来源数据,他的手里就是有数据,愿意从事广告的活动,把数字变成钱,这种数据叫做第三方数据,需要一个交易的过程,我把这个数据提供出来怎么样收到钱,这个数据的规模也是很大,但是还很不成熟。我们看一下下面有一些什么问题,这些问题也是需要我们在座的各位一起好好的想想,把它给解决了。 我们现在的数据交易的产品是叫做数据交易所,我会聚合很多人的数据,比如是你开的小网站,你想把数据变现,说实话不现实,不如把数据托管过数据交易所,把你的数据拿走以后,通过广告的过程卖了去,然后和你分成,这个是在北美市场和其他的市场很成熟的流程,交易量也很大。聚合了多种原始的数据加工成统一标签以后售卖,但是它不从事广告交易,很典型的只从事数据交易,不从事广告交易,但是又是寄生在广告市场的这么一种产品。 那说到了比较有意思的东西,数据交易有怎么样的特点呢?从今年开始,中国有很多的谈数据交易,我个人对数据交易有这么几点认识,我把它的叫做三定律,这个是有一点大话,只是我个人的观点,为了给大家加深印象,我用了这个词,我个人对数据交易的认识是这样子的。 第一定律,我认为数据只能交易,不能交换或者是共享。 第二定律,只有按效果而非购买量付出费,才能有足够的需求。 第三定律,同一数据被越多的人使用价值越低,流量是这个广告位投一次展示,只能是一个人在用,数据是可以告诉十个人,价值自然的就下降了,那会对数字产生一些什么影响呢,我们一会看一下。 关于第一个问题,为什么我个人认为数据不能共享?首先大家会有一些疑问,数据共享似乎是在发生的,各个公司之间在相互的交换数据,希望能够对彼此的业务产生一些贡献,但是我发现结果无非是二个,成功的有在线上系统进行大规模数据共享交换的数据,目前的话,有投诉的关系。就是母公司和子公司控股关系以后才会发生的数据交换。实际上这个定价或者是交易是发生在更高的之间。另外很多的人的交换或者是共享,往往我只看到了一个测试,大家测一下,你的数据对我有没有用,我的数据对你有没有用,测完了怎么样呢,就结束了。所以BAT和360有这么多的数据,为什么你们这些土豪不把数据拿出来。 我希望大家走出这个会场不要问这个荒谬的问题了,数据就是钱。数据很容易的在互联网的市场上变成钱,那你是不是可以要求百度你把现金拿出来,我们分一下,这是不可能的事。可是百度也会拿出一些数据,就比如是嘀嘀打车,为了让大家用,可以贴给用户一些钱,刺激市场的流动性,这种事情,短期是可行的,长期的话,很难形成规模。 唯有一点可以共享的是政府数据,政府没有盈利的需求,但是如果是政府没有无边界的共享,也会成为一种灾难,仍然是要一个做架的方式去做数据,这是我的看法。 关于第二点数据交易应该怎么样做的问题,我们看到长江交易所和贵阳,那个交易我还是很初级的。为什么这么说呢,它的没有摸到数据交易的一个特别重大的问题,就是我买数据的人,首先是我必须买一部分的数据,如果是你只给我的前二步,那买的人是很少的。比如是我就服务上海的几个广告主,可能我只要数据,我就要上海的这一点数据,你给了我多了也没有用,我还造成了成本。在广告的交易里,这个问题已经解决了,一点也不困难。 广告的程序化的交易过程中,如果是你就要上海的数据,我可以同时的把数据带出去,你要什么数据,我就给你什么,同时结算的来说,我也不是说根据,我给了你一百万个标签,你就给我这个钱,是根据最后赢得的广告的展示量,数据展示的效果来付费的。这个是整个在广告市场里做交易,为什么规模还可以做的比较大,这一点解决了部分的购买的数据和按照效果来购买数据,如果是整体的购买数据,我认为这个市场根本就做不起来,没有几家可以参与。互联网所有的产品,不管是广告,还是将来的数据,一定是靠头部的客户。 这一点我认为现在是初步的有了一些解决的方案,但是又不能是全部的解决方案,因为只适合广告产业,其他的场景怎么样部分的交易,需要结合每一个场景来讨论,前二个交易没有前景。 第三点就是最困难的怎给数据定价,今天没有办法展开了讲,广告行业解决了一个特别重要的定价的问题,互联网的广告和传统的广告不一样,我们是通过拍卖的方式竞价,完全是用市场经济的方式定价,定价权是掌握在需求方的,谁买这个流量,你自己说是多少钱,这样子解决了一个什么问题呢,就是广告的本身,有可能对我来说值五毛,对他来说是值二块,我是定五毛或是二块,都不合适,大家竞价解决资源的分配,数据迟早是会走向竞价的模式,但是数据的交易和流量的交易有一个本质的交易,流量交易本身是受限的。数字一个标签可以给十个人。现在实际上的数字交易是不限量的,带来了什么问题呢,我觉得发生了数据的价格向流量价格的转移,比如是地下埋了一块金子,我告诉一个人,他得到了信息,把金子挖走了,现在我卖了十个人,他们都去抢这一块地,地价就太高了,使他们拿到金子的交易就变少了,所以付出信息提供方的价格也就降低了。 现在的数据交易市场本身的交易量很大,但是价格偏低,这是为什么呢,我觉得是因为上面的这种交易的方式,竞价的交易方式,不限量的供应商品,是无法竞价的,这个对交易的过程,有很多深层次的影响和变化,这是一个问题,只有把这个问题解决了,限量供应和竞价的问题解决了,数据才能真正的给合理的定价。我特别的反对有一个定价委员会,给这个数据说值五毛还是二块,这个大家想也不用想,根本不可能,因为技术不是值二毛也不是值二块,对A需求方和B需求方是不一样的,根据自己的方式调整才是王道。 数据交易很有意思,我觉得是未来我们的大数据行业最有意思的一个点之一。谁可以彻底的解决数据交易的问题,一个没有交易的商品,很难说大规模的发展。 最后还要提醒一下大家,关于隐私,大家根本不知道隐私是什么问题,大多数的人,我觉得在座的各位,90%的人不知道什么是隐私的问题。隐私呢,就是希望你个人的数据不要被泄露给不相关的人,他可以采取一些动作,最早的时候,发现这个隐私是在欧盟的A29协会有过一些讨论,他们给出了一些基本的原则,这些基本的原则非常的好,也是现在的欧美的互联网公司的共识,因为在欧洲作业必须是要符合这种表现。 第一个是PII不能使用,一个字段看上去可以找到你的这个是叫PII,比如是家庭地址,你的电话,你的名字,这种是PII。PII是严格的禁止使用的,也不能变成标签。 第二个用户可以要求系统停止记录和使用自己的行为数据,中国的广告有的也开始做了。 第三点不能长期保存和使用户的行为数据。应该是一年半的周期,一年半以上的你备份也不可以,备份的话,就可能会泄露出去。 那实际的隐私碰到的问题比这个要严重的多,比如说朝阳区35岁在360上班,如果是熟悉我的人,对我有背景信息的了解,那你没有任何的PII,非常的容易定位成我的信息,如果是后面跟上我的月薪,这个就泄露了。所以电信运营商他们讨论脱隐,可以解决问题吗,完全的不解决问题。 互联网真正严重的是什么,稀疏的行为数据,曾经有一个100万美金的推荐大赛,让你们去预测对新的影片是不是喜欢,打几分,有一个人参加了这个比赛,就看到了一条记录,里面的ABC影片,什么时候看评价如何,他看了以后马上反映出来,这个记录一定是我同事的,这种事情的特点是什么,他发现了一个问题,除了这些观影记录之外那条记录很多是关于同性恋的电影,也就是说,这个同事他不想让别人知道自己在看这个影片,然后他把这个事告诉了他同事,他同事就把Intflix给告了,认为是泄露了自己的隐私,所以这个比赛搞了一届,就搞不下去了。隐私是什么问题,隐私并不是说有人把我们的信息八毛钱一条卖出去,我们关心的是熟人之间的隐私,他对你有一定的背景信息的了解,同时他在了解你的隐私的时候是不计成本的。上海电信的数据是拿出来的交易的,但是做了脱敏,如果是有一天发生了这样子的情况如果我在里面找上海市的某一个领导,我对他有足够的背景的了解,绝对是有信心把他找出来,因为我不计成本的,找到了以后,还可以发现很多的事情。这个绝对不是危言耸听。我们现在还没有技术的手段去规避这种问题,很多的科学家包括数学家都在一起研究,怎么样在一个个性化的系统里和数据交易里降低风险,但是现在还没有答案。这个也是大数据交易的一个问题。 我就说这么多,希望大家对几个问题有印象,就没有白听,首先数据是怎么变成钱的,希望大家都能够了解,另外大家一起的想一下交易里的问题,主要的二个问题,一个是定价的问题,一个是隐私的问题。这都是很前沿的,未解决的问题,我相信这些问题随着我们大数据产业的发展,一定有一天会有一个比较好的答案,需要在座的各位共同的努力,谢谢各位! End.
|