大数据开发学习文档(分布式文件系统的实现,大数据生态圈学习文档等): 文章专栏(点击跳转)
国科大学习生活(期末复习资料、课程大作业解析、实习经历等): 文章专栏(点击跳转)
离线数据开发流程
流程图如下:
专有名词解释:
PM:Product Management 数据产品经理,负责协调业务与开发对接,看板配置等工作
DE:Data Engineer 数据工程师即数据开发,负责数仓建设,数据驱动业务行为。
-
业务需求沟通阶段
首先业务方会以BRD文档的形式提出需求。初接触新业务时,我们首先要做的事就是弄清楚该需求的背景,弄清楚业务方真正想要的是什么。有时候对于某些业务逻辑,可能业务想要的数据并不合理,如口径没有拉齐等情况,这就要求我们给出建议,及时调整,确定一个比较清楚的业务需求。 -
技术方案产出阶段
如果有了明确的产品需求文档(PRD),接下来就进入到技术方案产出阶段。离线开发重要阶段,对于较复杂的业务需求来说,在产出技术开发方案的过程中可以明确业务需求需要用到哪些上游表,并根据这些上游表的特点来确定需要进行怎样的预处理(如何聚合、业务约束等),有时候这样的操作会避免后续开发过程中手忙脚乱、顾此失彼的情况。 -
开发阶段</