数据科学：概念、用途与数据理解

### 数据科学：概念、用途与数据理解 #### 1. 数据科学是什么参加数据科学会议时，常遇到关于“什么是数据科学家”的讨论，但其实大家更应关注现实世界中的数据科学，包括实际情况、注意事项等。数据科学常用来描述将统计学领域拓展以融入新进展的学科。有四种数据科学家原型： - 运营型：将数据科学应用于企业日常运营。 - 产品导向型：与产品团队紧密合作，和运营型数据科学家一样需具备商业头脑。 - 工程型：构建和维护支持产品或运营型数据科学家工作的系统。 - 研究型：致力于推动技术发展，通常在深度学习、计算机视觉或自然语言处理等领域，不要求其工作立即对公司有用。本文主要探讨运营型和产品导向型数据科学家所从事的数据科学，它涉及广泛的活动，需要多种技能。Drew Conway的维恩图展示了数据科学所需技能：领域专业知识、数据处理、计算机科学、机器学习、数学和统计研究。不过，一个人在某个领域的熟练程度并非非0即1的二元变量，而是连续的，且实际情况更复杂。此外，图中缺少“沟通”这一重要领域。不同组织对数据科学的应用和要求不同： - 一些组织的数据科学工作只是传统的“商业智能”，可能由单个业务分析师（也可称为数据科学家）回答临时问题，对各项技能要求较低。 - 数据成熟度较高的组织，尤其是运营网站和/或移动应用的组织，会进行A/B测试。这种测试通过随机分组比较用户表现，帮助企业做出最佳决策，深入了解用户行为。但这对各方面技能要求更高： - 商业方面：A/B测试的设计和分析需从商业角度合理，如对新用户进行测试以避免结果受老用户对变化的反应干扰。 - 编程方面：SQL查询更复杂，例如从简单计算付费用户百分比的查询： ```sql SELECT SUM(is_paying_user) / COUNT(*) FROM users ``` 变为分别计算每个A/B测试组的付费用户百分比： ```sql SELECT test_group, SUM(is_paying_user) / COUNT(*) FROM users JOIN abtest_groups USING(user_id) GROUP BY test_group ``` - 统计方面：关注测试组行为差异是由用户体验差异还是随机波动导致。 - 沟通方面：回答如“哪个测试组表现更好”等问题比回答“平均转化率是多少”更复杂，向商业人士解释p值或贝叶斯推断是不小的沟通挑战。样本足够大的组织会利用“机器学习”和“预测建模”挖掘数据模式，此时数据科学家对各方面技能的掌握需更强。从个人经历来看，早期（2013年初）工作流程主要是SQL、Excel、PowerPoint和基本沟通能力。如今，经过在线课程学习和实践，工作流程变得更复杂，可能涉及创建机器学习模型、部署到云端等。虽然数据透视和训练深度神经网络看似不同，但都可归为数据科学范畴。 #### 2. 数据科学的用途有时数据科学本身就是产品，如推荐引擎的模型；有时是产品的一部分，如送餐应用中估算送餐时间的算法。在这些情况下，数据科学对产品成功的影响明显且可直接测量。但在大多数公司，从数据科学工作到业务目标的因果链较长，即“数据影响路径”。以移动游戏公司为例，数据科学家分析发现某游戏机制盈利不佳，结果需先呈递给业务绩效经理，再到游戏制作人。制作人可能决定修改游戏，让开发团队实施并推送到生产服务器。但“数据影响路径”可能在每个环节中断： - 业务绩效经理可能认为分析结果不确定或不适合广泛传播。 - 制作人可能优先开发新游戏机制而非去除现有机制。 - 游戏团队可能不舍得放弃辛苦开发的机制而反对修改。曾在《糖果粉碎传奇》项目中，数据科学家分析发现某关卡阻碍因素表现不佳，但游戏团队强烈反对修改，虽最终修改但也可能维持原状，导致数据分析无用。而在《糖果粉碎苏打传奇》项目中，游戏团队创造新关卡机制后主动询问表现，根据数据放弃新机制并替换实验关卡。除非数据科学本身是产品或产品的一部分，否则其最终目标是改变他人观点。但不能带着改变特定观点的意图开始工作，否则会陷入反向确认偏差。数据有时会证实人们已有的观点，但如果数据从不与人们的信念相矛盾，数据科学就失去了意义。例如设计免费手游时进行A/B测试，若测试结果总是证实原有猜测，要么直觉完美（不太可能），要么测试过程有问题，数据就没有产生影响。相反，若测试结果表明直觉错误并改变决策，数据科学就体现了价值。在足球伤病预测中，由于球员数据有限且相关人员凭经验的直觉较准，预测数据模型仍需提高。 #### 3. 理解数据的重要性有观点认为“分析师的能力取决于对数据的理解，而非工具的使用”，这是很有道理的。了解数据的来龙去脉、收集方式和原因很重要。在工作中，有时会遇到一些无实际意义的问题，如会议上有人说“看看……会很有趣”，但他们并无解决问题的意图，可忽略此类问题。而当有人真诚地认为回答问题有益时，需帮助他们判断是否值得分析。例如曾有人询问自我报告的睡眠质量数据与客观睡眠质量数据是否相关，经询问发现无论分析结果如何都会使用睡眠追踪设备，此时就应优先分析可能改变决策的其他数据。学习数据集的细节并非每个分析师都乐意做的事，很多人会凭直觉开始数据分析，希望在过程中了解数据。但既不能对数据了解太少，也不能过于纠结每个细节。尤其是处理“宽”数据时，列数众多，了解每列具体内容不现实，只要验证了对数据集整体和要使用的几列的假设，对数据的理解在项目中就可能足够。曾在一家金融科技公司，业务分析师展示的利润和利润率数据异常高，有人质疑时他坚称“数据就是这样”，但更了解情况的人指出数据库中“金额”列以美分而非美元为单位，导致分析错误。这表明对数据了解不足会带来严重问题。 ### 数据科学：概念、用途与数据理解 #### 4. 数据科学在不同场景中的对比分析为了更清晰地展现数据科学在不同组织和场景中的应用差异，我们可以通过以下表格进行对比： | 组织类型 | 数据科学应用方式 | 技能要求 | 数据影响路径特点 | | --- | --- | --- | --- | | 数据欠成熟组织 | 类似传统“商业智能”，回答临时业务问题 | 各项技能要求较低，掌握基本操作即可 | 相对简单直接，但可能因数据理解不足导致结果不准确 | | 数据成熟组织（A/B测试型） | 进行A/B测试，通过随机分组比较用户表现辅助决策 | 商业、编程、统计、沟通等多方面技能要求较高 | 因果链较长，环节较多，易在各环节出现问题 | | 样本大的组织（机器学习型） | 运用“机器学习”和“预测建模”挖掘数据模式 | 对各方面技能掌握要求更强，需深入专业知识 | 因果链复杂，需要多部门协作和专业技术支持 | 从这个表格中我们可以看出，随着组织的数据成熟度和业务需求的提升，数据科学的应用方式和技能要求都在不断提高，数据影响路径也变得更加复杂和难以把控。 #### 5. 数据科学工作流程的演变与分析数据科学工作流程在不同阶段发生了显著的变化，下面我们通过mermaid格式流程图来展示早期（2013年初）和现在的工作流程对比： ```mermaid graph LR classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px; classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px; A([开始]):::startend --> B(SQL):::process B --> C(Excel):::process C --> D(PowerPoint):::process D --> E(与人沟通):::process E --> F([结束]):::startend ``` 早期（2013年初）的工作流程相对简单，主要围绕SQL、Excel、PowerPoint和基本的沟通能力展开。 ```mermaid graph LR classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px; classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px; A([开始]):::startend --> B(运行SQL查询):::process B --> C(计算汇总指标和统计数据):::process C --> D(将结果保存为CSV文件):::process D --> E(导出到Excel):::process E --> F(制作漂亮的图表):::process F --> G(将图表和文本放入PowerPoint):::process G --> H(呈现结果):::process H --> I(对机器学习产生热情):::process I --> J(创建ML模型):::process J --> K(得到失望结果):::process K --> L(制作原型):::process L --> M(获得初始反馈):::process M --> N(创建Shiny仪表盘):::process N --> O(部署到AWS):::process O --> P(发送链接):::process P --> Q(获得更多反馈):::process Q --> R([结束]):::startend ``` 现在的工作流程变得更加复杂和多元化，涉及到机器学习模型的创建、部署到云端等先进技术，这反映了数据科学领域的快速发展和技术的不断更新。 #### 6. 数据科学成功与失败案例总结通过前面提到的移动游戏公司案例，我们可以总结出数据科学项目成功和失败的关键因素： - **成功因素** - 相关人员主动询问数据结果，愿意根据数据进行决策调整，如《糖果粉碎苏打传奇》项目中游戏团队的做法。 - 数据科学分析结果清晰明确，能够为决策提供有力支持。 - 组织内部有良好的数据驱动文化，尊重数据和分析结果。 - **失败因素** - 数据影响路径中各环节人员对分析结果存在质疑或不认可，如业务绩效经理认为分析结果不确定。 - 团队内部存在利益冲突或情感因素影响决策，如游戏团队不舍得放弃原有游戏机制。 - 对数据了解不足，导致分析结果不准确或无法应用于实际决策。 #### 7. 对数据科学从业者的建议基于以上对数据科学的多方面分析，为数据科学从业者提供以下建议： - **技能提升方面** - 不断学习和掌握新的技术和方法，如机器学习、深度学习等，以适应不同组织和项目的需求。 - 注重沟通能力的培养，能够将复杂的数据分析结果清晰地传达给不同背景的人员。 - 加强商业知识的学习，理解业务需求，使数据分析能够真正为业务决策服务。 - **数据理解方面** - 在开始项目前，尽可能了解数据的来源、收集方式和目的，避免因数据理解不足导致错误分析。 - 合理把握对数据细节的了解程度，避免陷入过度分析的陷阱。 - **项目执行方面** - 积极与团队成员沟通协作，确保数据影响路径的各个环节顺畅进行。 - 当遇到问题时，冷静分析原因，及时调整策略，提高项目成功的概率。总之，数据科学是一个充满挑战和机遇的领域，从业者需要不断学习和实践，提高自身能力，才能在这个领域取得良好的发展。同时，组织也需要营造良好的数据驱动文化，充分发挥数据科学的价值，实现业务的增长和创新。

最低0.47元/天解锁专栏

赠100次下载

点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

数据科学：概念、用途与数据理解

相关推荐

专栏目录

数据科学：概念、用途与数据理解

相关推荐

“数据湖”：概念、特征、架构与案例

【计算机科学】数据结构概述：常见类型特性及应用场景综述

全面解析数据集：分类、获取途径与使用技巧

ds：数据工程师和数据科学

理解Matlab中的数组和矩阵：区别与用途

趣谈数据结构：原来数据结构也这么有趣

数据结构：来自数据结构的算法，竞争性编程课程

算法与数据结构：11-树3.pdf

Python数据科学手册_Python数据科学手册_python_

MATLAB语言：数据分析与多项式计算习题与答案.pdf

试论应用型本科电子商务创新型人才培养项目的初探(“学生”文档)共16张.ppt

专栏目录

最新推荐

微纳流体对流与传热应用研究

磁电六铁氧体薄膜的ATLAD沉积及其特性

MATLAB目标对象管理与配置详解

克里金插值与图像处理：原理、方法及应用

自激感应发电机稳态分析与电压控制

凸轮与从动件机构的分析与应用

TypeScript高级特性与Cypress测试实践

电力系统经济调度与动态经济调度研究

MATLAB数值技术：拟合、微分与积分

可再生能源技术中的Simulink建模与应用