数据科学的实用指南：从需求层次到最佳实践

# 数据科学的实用指南：从需求层次到最佳实践 ## 1. 数据科学的需求层次数据科学工作与业务需求的契合是成功的必要但不充分条件。当某件事理论上能对业务产生积极影响时，并不意味着你现在就应该着手去做。 ### 1.1 类比马斯洛需求层次理论大家可能熟悉马斯洛需求层次理论，即马斯洛金字塔。该理论表明，在底层需求未满足之前，人们不会去关注更高层次的需求。例如，一个无家可归且饥饿的人不会关心自我实现。数据科学也有类似的需求层次金字塔： | 层次 | 数据科学需求 | | --- | --- | | 自我实现 | AI、深度学习 | | 尊重需求 | 学习/优化（A/B 测试、简单机器学习算法） | | 归属与爱需求 | 聚合/标注（指标、聚合、细分、特征） | | 安全需求 | 探索/转换（清理、异常检测） | | 生理需求 | 收集（日志记录、外部数据）、移动/存储（基础设施、管道、ETL、数据流） | 这个金字塔与马斯洛金字塔一样，具有明显的逻辑。在存储数据之前需要先收集数据，在探索数据之前需要先存储数据，以此类推。 ### 1.2 企业案例分析有一家颇具规模的中型公司，刚开始利用其庞大用户群的数据。从数据科学需求层次来看，该公司还在底层第二层徘徊。部分数据被收集并存储在一个呈现“自然增长”迹象的数据库中，存在不同的表、软件开发人员临时添加的列，以及一些人拼凑的基础文档。尽管该公司还无法提供全面的数据驱动业务报告或进行 A/B 测试，但管理层却不断提及“跨越式发展到人工智能”。他们热衷于跳过金字塔的一半，但却无法详细说明如何实现这一目标。这就好比一个在树林中被熊追赶的人，却还在思考如何优化投资组合。 ### 1.3 数据科学实践建议数据科学需求层次并不意味着在进行任何数据分析之前必须构建完美的数据基础设施。更好的做法是从多个层次的一个小领域入手，然后横向扩展。例如，在对一个网络应用进行货币化时，首次涉足数据科学可以按以下步骤进行： 1. 收集与交易相关的日志数据。 2. 将数据移动并存储到合适的数据库。 3. 对数据进行清理和异常检测。 4. 聚合交易指标，如每小时交易数量。一般来说，最好先摘取容易实现的成果。例如，当每小时交易数量低于阈值时设置自动警报，这虽然看似简单甚至有些乏味，但当例行更新意外移除“购买”按钮时，它可以为你挽回数天的收入。相反，使用机器学习预测用户可能感兴趣的内容并提供个性化推荐，虽然是一个很酷的数据科学项目，但实施起来需要更多的时间和精力，而且其影响可能微不足道。 ## 2. 数据科学的三个核心价值在确保数据科学工作符合业务需求，并从最紧迫的需求入手之后，接下来要遵循三个核心价值：简单性、可重复性和可共享性。 ### 2.1 简单性简单性的价值和美感一直被人们所提及。安托万·德·圣埃克苏佩里在 20 世纪 40 年代写道：“完美不是没有更多东西可以添加，而是没有东西可以拿走。”而“保持简单，傻瓜”这句更直白的话从 1960 年就开始流传。然而，我们周围仍存在许多不必要的复杂性，比如电视遥控器。不必要的复杂性泛滥主要有三个原因： 1. **对简单性的误解**：简单性常被视为一种缺点，是缺乏复杂性的表现。人们不想被视为简单的人，尤其是在工作中，特别是作为数据科学家，可能被期望既能修理坏掉的 MacBook，又能黑进五角大楼的服务器。于是，有些人会使用长难词，谈论比听众高一个层次的内容，让别人听不懂，以此显得自己聪明。 2. **缺乏支持简单性的群体**：复杂性通常有其支持者，随着产品（如数据驱动的报告）添加各种功能，每个功能都有一群想要它、期望从中受益并能为其添加进行辩护的人。而简单性是一种非排他性的好处，每个人都能从中受益，但很少有直接明显的方式。因此，主张添加功能的人总是比反对的人多，功能不断增加，复杂性也随之增长。 3. **实现简单性的困难**：即使我们想保持简单，也往往很难做到。最近的研究表明，人们总是倾向于考虑添加组件的改变，而

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

数据科学的实用指南：从需求层次到最佳实践

相关推荐

专栏目录

数据科学的实用指南：从需求层次到最佳实践

相关推荐

管理数据标注项目的最佳实践

Spring 面试指南：含 200 + 问题及答案，助力 Spring 相关知识复习与面试准备.zip

《基于 R 语言的自动化数据采集技术》书籍读者交流讨论区

网络层次分析法(ANP)实战指南：从理论到SuperDecision实践一步到位

高程HGT文件实用指南：从基础到GIS集成的全攻略

尾递归优化实用指南：理论精讲与实践技巧大揭秘

【医学影像安全与隐私指南】：3D Slicer中的最佳实践

信号去噪C语言终极指南：方法论与最佳实践案例

环境科学数据分析：MATLAB模型构建的实践指南

加权叠加数据预处理：ArcGIS分析中的最佳实践

Oliver Woodford的MATLAB实用程序库_Oliver Woodford's MATLAB utility

专栏目录

最新推荐

凸轮与从动件机构的分析与应用

磁电六铁氧体薄膜的ATLAD沉积及其特性

微纳流体对流与传热应用研究

MATLAB数值技术：拟合、微分与积分

克里金插值与图像处理：原理、方法及应用

自激感应发电机稳态分析与电压控制

MATLAB目标对象管理与配置详解

电力系统经济调度与动态经济调度研究

可再生能源技术中的Simulink建模与应用

TypeScript高级特性与Cypress测试实践