erbin 发表于 2018-4-26 17:17 保持横向维度数据不损失,在纵向上来减少数据量, 数据量小了办法就多了(关系型、mmp、es...?) |
hyj 发表于 2018-4-26 14:33 预聚合多维分析里常用的手段,提前将可能的维度组合计算出结果 形成数据立方 这样线上分析使用的时候就只要在聚合结果上操作,提高响应速度 量级预估:因为这个只是指导(忽悠)广告主定向投广告的一个参考数据,并不需要精确的告诉能覆盖多少(也不会告诉他)。。。 所以只是一个预估数据,说不定产品经理还会在此基础上加点水分.... 我理解应该就是这样了。。 |
我是这样想的,不知道是否可行,存储使用列式存储,维度独立化,有共同维度的使用同一维度,根据用户的行为特征、拼接出个人的特征维度,在根据这维度去推荐给使用的用户。(只是想法) |
hello2018 发表于 2018-4-25 20:48 实时这,是否是根据用户的行为日志不断迭代更新用户模型,越是铁粉推荐越精准 |
本帖最后由 erbin 于 2018-4-26 17:25 编辑 willgo 发表于 2018-4-26 09:39 这个定向预估一定的误差是可以接受的,毕竟展示给客户看的也是到万级别了。不过抽样统计在这种大量条件组合的情况下能适用吗?不是很了解这个抽样的具体方式。 |
fly2015 发表于 2018-4-26 11:51 kylin预计算的确查询速度快,不过这个场景下维度组合有点多啊。 |
willgo 发表于 2018-4-26 09:39 大神能否详细说说,指教,预聚合,这个是指? 广告主投递客群预估,只是一个量级预估 |
我就知道这种方案 适合kylin 但是实时更新确实做不到 |
三种方案: 1. 预聚合 优点:线上查询响应快 缺点:维度组合不能太高,预计算压力大,实时数据难以处理 比如:kylin 2. 明细查询 优点:维度可以任意组合,处理实时数据难度相对较小 缺点:线上查询压力大 比如:palo/clickhouse/这类 3. 采用抽样估算处理 优点:查询速度快 缺点:存在误差 类似Google Analytics中的处理 广告主投递客群预估,只是一个量级预估,感觉第三种方案更靠谱 头条怎么搞的就不知道了 哈哈。。。 |