分享

机器学习数据规模?

各位
1. 各种机器学习算法支持的数据规模都在什么量级或者规模?
2. 平时工作中处理数据源以什么居多?多少量级的数据一般?
方便的话麻烦大神们捎带上所述行业,谢谢
泛泛的回答或者一堆连接就不必了,就是想知道实际处理的情况

已有(3)人评论

跳转到指定楼层
yaojiank 发表于 2017-4-6 09:54:25
1. 各种机器学习算法支持的数据规模都在什么量级或者规模?
什么数量级这个看公司的,有的万亿量,就训练模型来讲TB量级足以。当然也有更少的,数据越多,越准确些。
2. 平时工作中处理数据源以什么居多?多少量级的数据一般?
数据源是多种多样的,比如有的直接获取用户请求,用的直接分析日志。关键他们分析的是什么,用来做什么。比如京东,会分析用户点击,推荐感兴趣内容。比如谷歌联盟,根据用户行为,推荐对用户有用的广告等。


回复

使用道具 举报

zeus_lhl 发表于 2017-4-6 10:36:33
yaojiank 发表于 2017-4-6 09:54
1. 各种机器学习算法支持的数据规模都在什么量级或者规模?
什么数量级这个看公司的,有的万亿量,就训练 ...

以TB级别来讲的话,比如SVM和LR,比较好的算法能执行多久出结果呢一般?SPSS这类傻瓜软件,一般能支持跑多大的数据量
回复

使用道具 举报

sstutu 发表于 2017-4-6 16:04:31
本帖最后由 sstutu 于 2017-4-6 16:06 编辑
zeus_lhl 发表于 2017-4-6 10:36
以TB级别来讲的话,比如SVM和LR,比较好的算法能执行多久出结果呢一般?SPSS这类傻瓜软件,一般能支持跑 ...
以TB级别来讲的话,比如SVM和LR,比较好的算法能执行多久出结果呢一般?SPSS这类傻瓜软件,一般能支持跑多大的数据量

SVM在小样本训练集上能够得到比其它算法好很多的结果
SVM对小样本的寻优能力是非常好的,无可置疑。对于数据量大的话,也是可以的。但是其优势就没有那么明显了。

LR案例比较多,其中比较有名的是,腾讯的广点通。
时间的长短,其实楼主不需要太在乎,这些都是外在的。需要硬件配置,人员技术,才能确定时间。比如腾讯只需要十几分钟,来更新增量模型。时间太长的话,推荐的实时性也就差了。所以要想发挥作用,当然时间越短越好。

下面示例,可以供楼主参考

LR.jpg
LR2.jpg
更多内容,推荐参考下面内容
pdf下载
链接:http://pan.baidu.com/s/1jIPvGxw 密码:8huc


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条