
数据分析笔记
文章平均质量分 87
数据分析笔记
羚风雯
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据化运营的工作流程
这样就完成了从“发现问题—分析—落地—复盘”的完整数据化运营闭环。原创 2025-09-07 17:42:49 · 191 阅读 · 0 评论 -
Day 01(02): 精读HDFS概念
本文系统介绍了HDFS的核心原理与架构。HDFS作为Hadoop分布式文件系统,采用主从架构,由NameNode管理元数据,DataNode存储数据块。其特点包括:分块存储(默认128MB)、多副本机制(默认3个)、高容错性,适合海量数据批处理。详细解析了HDFS的读写流程、元数据管理机制(FsImage+Edits)、安全模式原理以及高可用方案(HA)。同时介绍了HDFS的基本操作命令和REST API接口,并指出其局限性(如小文件处理效率低)。通过本文可全面掌握HDFS的设计思想与关键技术。原创 2025-08-31 22:15:49 · 1115 阅读 · 0 评论 -
Day 01(01): Hadoop与大数据基石
就像淘金,金矿的总含金量很高(价值高),但矿石中的金元素分布非常稀疏(密度低),需要强大的技术进行“提纯”和“挖掘”才能获得价值。:大数据的价值在这些场景中得以兑现:从传统的报表分析,到实时的风险控制、智能推荐,再到超前的趋势预测,构成了数据驱动决策的核心体系。这是一个非常高明和有效的讲解方式。编写程序,来处理HDFS上的原始数据(进行清洗、转换),处理干净后再存入Hive或HBase,供上层的SQL分析使用。OK,这节课的总结和升华就到这里,澄清了技术选型的重大误区,并强化了核心概念的理解。原创 2025-08-31 16:42:42 · 1025 阅读 · 0 评论 -
不同行业视角下的数据分析
行业核心业务焦点数据类型关键技能特点互联网/科技用户增长、产品优化、商业化用户行为日志、海量非结构化数据SQL, Python, 大数据平台, AB测试节奏快,重实验和创新,数据量大且复杂金融风险管理、客户价值、反欺诈交易数据、客户数据、风险数据SQL,SAS/Python统计学, 机器学习高合规性,高准确性,模型可解释性要求高消费零售销售预测、供应链、营销ROI交易数据、库存数据、会员数据SQL,ExcelPower BI, Python紧密连接线下业务,驱动效率和增长医疗健康。原创 2025-09-05 17:29:30 · 1701 阅读 · 0 评论 -
数据字典:数据治理的核心工具
数据字典作为数据治理的核心工具,其建设过程虽然充满挑战,但对企业数据资产管理和价值挖掘具有重要意义。它不仅是管理和查询元数据的主要工具,更是数据治理过程中的"神兵利器"。示例:流量主题(UV、PV)、商品主题(上架SKU等):结合业务需求确定数据范围,实现数据体系的质量控制。:数据的属性或描述性特质(如学生状态、生源地等)切入点:业务数据或源系统(如CRM、ERP等):帮助业务和技术人员理解数据状态和业务含义。:反映数据之间的组合关系,类似社交网络。:记录数据产生、处理、流转的全链路。原创 2025-08-20 14:07:36 · 780 阅读 · 0 评论 -
数据模型:构建数据世界的框架
数据模型作为构建数据世界的框架,其设计质量直接影响数据中台的成败。数据产品经理需要深入理解业务,掌握多种建模方法,才能打造出既满足当前需求又具备扩展性的数据体系。:通过经验与认知对真实世界进行重组与抽象形成的概念模型(业务模型)它不仅是数据的静态特征描述,还包括了。:将概念模型数据化后形成的可用系统处理的数据体系。:客观存在的业务体系、产品体系与组织架构等。什么人,在什么时间与条件下,做了什么事":既要合理存储数据,又要满足业务场景。示例:查询接口设计、数据更新机制。:保证字段原子性(不可再分)原创 2025-08-20 14:18:53 · 462 阅读 · 0 评论 -
数据仓库的基本原理
数据仓库是由W.H.Inmon在1992年面向主题的集成的不可更新的随时间不断变化的数据集合用于支持经营管理决策制定Informix公司Tim Shelter的定义补充:将企业网络中分散的商业数据集成到单一关系型数据库中便于信息访问和历史数据分析支持研究事物发展走势。原创 2025-08-20 14:34:40 · 402 阅读 · 0 评论 -
数据体系建设实例:从理论到实践
案例展示了数据中台建设从理论到实践的全过程,为不同企业的数据产品经理提供了可借鉴的工作框架和方法思路。数据分类:人力/行政/财务大类下细分(如行政数据分为办公地点类、固定资产类等)职能数据分散在多个系统(eHR、OA、供应商管理等)和线下表格中。示例:财务和行政的HC需求合并为HR数据域的员工HC主题。数据样表:收集字段信息,注明来源、更新频率和口径。数据中台建设会暴露被忽视的场景,产生衍生开发需求。数据获取周期长、口径不统一、沟通成本高。数据来源(系统/线下)、提供方。临时方案:数据中台提供上传入口。原创 2025-08-20 14:38:53 · 671 阅读 · 0 评论 -
数据仓库的基本结构
数据仓库的完整体系结构由三个核心层次组成:数据源(Data Source):数据仓库的数据来源数据仓库(Data Warehouse):集成、主题导向的数据存储数据集市(Data Mart):面向特定部门或应用的子集三者通过数据仓库管理软件相互连接,构成完整的数据体系。原创 2025-08-20 15:01:42 · 1155 阅读 · 0 评论 -
常用数据分析工具
戴师兄2023数据分析必学工具推荐:涵盖Tableau、PowerBI、FineBI等BI工具,SQL与数据库管理,Python编程与爬虫技术,以及Excel办公自动化。教程包含影刀RPA、算法建模等进阶内容,提供系统学习路径,适合数据分析师技能提升。视频课程和文档资料同步配套,帮助掌握商业智能分析全流程技能栈。原创 2025-08-11 09:51:41 · 305 阅读 · 0 评论