工业物联网下一站制造项目：数仓设计与数据采集详解

MD文件

下载需积分: 0 | 40KB | 更新于2024-08-04 | 31 浏览量 | 举报 2 收藏

立即下载

今天我们将深入探讨"Day1007_数仓设计及数据采集"的主题，聚焦在一站式制造项目的数据处理与管理工作。该项目源于工业物联网背景下的加油站服务商数据分析平台，目标是通过优化数据采集、存储和分析，提升服务质量，合理规划成本。首先，项目的主要需求包括： 1. **服务质量分析**：对安装、维修、巡检和改造工单进行深入剖析，以便提供针对性的服务改进策略。 2. **成本核算**：实现收益分析、报销管理和物料成本控制，帮助决策者做出更精准的财务决策。技术选型方面，项目涉及的关键组件有： - **数据来源**：项目依赖Oracle的CRM、客服和报销系统，这些数据将成为后续处理的基础。 - **数据采集**：采用Sqoop从Oracle等异构数据源抽取数据到Hive数据仓库。 - **数据存储**：Hive作为数据仓库，用于长期存储和管理大量结构化数据。 - **数据计算**：SparkSQL被选为离线和实时分析工具，支持SQL查询语言。 - **数据应用**：MySQL用于日常交互式查询，而Grafana则用于数据可视化展示。 - **任务调度**：Airflow用于自动化工作流程和数据管道管理。 - **服务监控**：Prometheus被用来监控系统的性能和健康状况。 - **资源管理**：Docker容器技术被用于部署和管理各组件，提高效率和资源利用率。接下来，我们讨论了Docker的基本操作，如启动、停止、进入和退出容器，以及解决DG连接问题，例如使用JDBC（Java Database Connectivity）连接Hive和SparkSQL，注意两者使用的端口不同，尽管可以共享一个网络，但在配置时需确保不冲突。在CS模式（Client-Server模式）下，HiveServer2负责解析SQL，而Metastore作为服务端存储元数据；SparkSQL的ThriftServer同样处理SQL查询，但会转化为SparkCore程序执行。遇到SparkSQL的Thrift启动问题时，可能涉及到清理过期包，导入特定版本的Hive库，以及调整hive-site.xml文件设置。这一系列知识点涵盖了从项目需求理解、技术栈选择到具体操作实践的全面内容，有助于理解和实施一个高效的数据仓库设计和数据采集流程。通过掌握这些技能，你将能够构建一个强大的数据分析平台，为业务增长和优化提供有力支持。