skrifer 发表于 2016-6-28 10:46:52

请教一些大数据业务处理场景解决方案.

RT,原来自己是做企业WEB开发的,现在新公司是做企业信息数据一块的,很多东西都要从头学起。在工作过程中遇到了很多问题,虽然能用一些方式解决,但总是觉得还有该进的地方,望大家能提点下!

场景1:
有一张主表A,附表 B,C,D,E,F.... ,附表都是主表的各个维度信息的补充。
主表有5000W数据,附表或多或少。我们定时把主表和附表的某些字段信息,增量同步到solr,提供客户删选。
客户在solr 删选完毕之后,敲定需要的数据量,我们就需要把 主表 和与之相对应的附表 信息 全部 导出给客户,并且 每隔一定时间会对这批数据更新同步给客户。
现在遇到的问题,客户删选的时候有时候量比较大,比如客户选了500W数据量,按照传统业务流程,就是分配一个订单号与这500w数据 的主键一对多捆绑在订单表里,这样就会真的插入500W行记录,等需要导出数据时,就取这500W主键 join 主表 /附表 然后导出到文件。
由于500W 数量多,还得分页执行才行,不然内存都不够。这种方式虽然能处理,但速度很慢,又有点不伦不类。
求有相关经验的能指导下 该进方式 谢谢。

qcbb001 发表于 2016-6-28 14:36:27

根据楼主的描述,下面仅供交流。
客户选了500W数据量,按照传统业务流程,就是分配一个订单号与这500w数据 的主键一对多捆绑在订单表里,这样就会真的插入500W行记录,等需要导出数据时,就取这500W主键 join 主表 /附表 然后导出到文件。
这时候插入量确实挺大。楼主可以在原先的基础上留一个字段,作为更新。相信更新比全部插入效率会更高。

由于500W 数量多,还得分页执行才行,不然内存都不够。这种方式虽然能处理,但速度很慢,又有点不伦不类。
500W 确实挺多的,楼主是通过UI导出功能?还是什么方式。个人认为可以通过mapreduce分布式实现。


页: [1]
查看完整版本: 请教一些大数据业务处理场景解决方案.