大数据面试真题_F

丰巢

  1. 你们 dws 层数据放在 clickhouse,你们不同层的数据是放在不同的存储引擎上吗?
  2. 你们前面 3 层都是做短时间的 kafka 存储吗?还是说你们 kafka 也是存的全量数据
  3. 明细层的话在业务库,只是做短时间的存储?最终输出到 clickhouse 做持久化的存储?
  4. 离线数仓你有参与吗?离线数仓是怎么构建的
  5. 你们在实时和离线的明细层分别做了两套逻辑汇总,一套是根据实时展现的指标,一套是根据后续报表进行汇总 -> 如何保证两边的口径一致?大家对一些业务口径的理解可能有些出入,如何保证两边的口径和算出来的数据是一致的
  6. 不同的业务方对同名指标的描述不一致的情况,有没有考虑郭做这种指标的管理,或者一些归档?
  7. 你们现在大概有多少张表, 对业务部门提供的指标有多少?
  8. 数据量方便, 你们的订单表之类的大概一天有几个订单?
  9. 最大的事实表是哪张? 它的量大概是什么样子? 每天的增量是多少
  10. 轻度汇总是每天都会有某一个维度订单的汇总, 这个数大概是多少? 在某一个维度的事务事实的汇总的量得出来的值大概是多少呢?说的 6w 上下 -> 这个数据量的话其实用不到数仓, mysql 的一个分表就可以处理
  11. 讲一下维度建模中的星型模型和雪花模型有什么区别? 模型分别的优劣势
  12. 事务表用哪种方法来建? 累积快照还是事务事实? 事务事实表的建设方法
  13. 事务事实和累计快照的区别, 事务事实会有什么数据, 累积快照会有什么数据?
  14. 无论用事务事实还是用累积快照都可以记录订单的流转, 那累积快照是怎样去记录, 事务事实是怎样去记录
  15. SQL 与 HQL 的优化, sparkSQL 有了解过吗?
  16. reduceByKey 和 groupByKey 哪一个性能更好, 分别使用在怎样的场景下
  17. 广播变量的优势是什么劣势是什么
  18. 数据治理监控, 就是每天数仓跑出来的数据是正确的还是不正确的, 是否有异常, 这些怎么处理

富德

  1. 自我介绍,问离职原因
  2. 问Hive原理、分区、压缩和存储、表的管理、存储、调优、(这家主要技术为Hive)
  3. HDFS读写流程
  4. Flink相较于Spark的优势、Flink怎样处理数据、WaterMaker的产生与使用,Flink 中的状态机制
  5. Java中异常的产生与处理、悲观锁与乐观锁的理解
  6. JVM的结构、内部运行流程图
  7. 最后主要抓着业务问(比如你们公司的主营业务、你们负责那一块,用的什么框架与技术,你负责什么,主要实现了什么......)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

走过冬季

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值