分享

阿里面试数据研发岗会问哪些问题

离线数仓:维度建模理论:缓慢变化维如何设计,累积表、全量表、周期快照表、拉链表分别作用于什么场景?举例说明
                 数仓如何分层?每一层做什么事情?主题域是如何划分的?对于有歧义的指标你们怎么处理的?数据质量你们是如何监控的?
                 基础技术环节:hive行列转换、窗口函数、mapjoin跟reducejoin的区别、有哪些高级用法、数据倾斜有哪几种情况分别怎么处理、参数调优、语法调优
                                         udf写过吗?举个例子。mr原理及执行流程,key热点如何处理
流式计算:你们实时大屏的整体架构如何设计的?怎么保证的数据不丢不重?如何优化把5秒延迟降低到1秒?我想每秒钟展示前一小时用户累积消费金额top10如何设计实现(回答过程中有模                   糊点要现场写代码)?
数据服务:你们数据仓库稳定后是如何对外提供服务的,有产品化吗?分别有哪些场景,要结合哪些工具或产品满足不同用户需求?

上面这些是笔者亲身经历过的,而且技术面也是通过了,如果大家有任何技术或者业务上的疑问欢迎留言,我会回复
好久不发帖了,还是要养成分享的习惯,其实笔者有很多沉淀记录成了笔记,后续陆续发出来,大家一起学习,一起成长!

已有(3)人评论

跳转到指定楼层
VENS 发表于 2020-2-21 17:23:35
还真的问倒我了
回复

使用道具 举报

zhuqitian 发表于 2020-2-22 20:07:02
VENS 发表于 2020-2-21 17:23
还真的问倒我了

搞定这些,基本上数据研发岗你就算是高手了
回复

使用道具 举报

smstarlee 发表于 2020-2-26 09:56:32
坐等高手分享经验
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条