数据科学自动化:从手动到智能的进化之旅
立即解锁
发布时间: 2025-09-02 02:12:13 阅读量: 4 订阅数: 21 AIGC 

### 数据科学自动化:从手动到智能的进化之旅
在数据科学领域,编写软件代码并非数据科学家工作的必要组成部分,这项任务常常会模糊地落到数据工程师或软件工程师手中。不过,在机器学习领域,数据科学家(负责研究、探索性分析和构建模型)与机器学习工程师(将模型投入“生产”,即融入面向客户的产品)之间通常有更清晰的分工。虽然编写代码的能力并不能定义一个数据科学家,但它确实能提升工作价值。无论是独自工作还是团队协作,具备编程经验、熟悉变量和运算符、条件逻辑和循环、函数和库的人,都能在工作中发挥更大的作用。
#### 自动化的故事
作者加入 King 公司后,经历了从手动数据分析到“熄灯式”自动化数据分析的过程。公司有通过 A/B 测试来进行游戏设计决策的文化,作者和其他数据科学家需要分析数据并向游戏开发团队展示结果。在两到三年的时间里,整个过程经历了几个不同的阶段。
##### 阶段 1:“手动”数据科学
最初,作者需要熟悉公司数据库中的数据,遇到不清楚的地方就向资深同事请教。具体操作步骤如下:
1. 运行一些 SQL 查询来获取数据,例如玩家分配到测试组的情况以及他们在游戏中的活动数据。
2. 将数据导入电子表格,以便进行探索性分析,验证假设(如玩家在测试组中是否平均分配)。
3. 为每个测试组计算业务指标(如留存率、转化率等)。
4. 将数据转化为带有彩色线条和有用注释的图表。
5. 创建一组幻灯片,在其中包含 A/B 测试设置的描述、结果得出的结论、潜在的注意事项以及未来研究的建议。
这种亲力亲为的方法有其优缺点,如下表所示:
|优点|缺点|
| ---- | ---- |
|迫使自己亲自探索和了解公司数据|过程耗时,分析一个 A/B 测试可能需要几天时间|
|在电子表格中手动操作,能清楚知道每一步的操作情况|任何更改(如添加指标或重新设计图表)都需要大量时间和精力|
|能直接从展示中获得反馈,了解不同利益相关者的需求|分析难以重现,分享方法时需要向他人详细展示电子表格中的操作|
|能了解不同利益相关者对数据和可视化的看法和推理方式|每次手动操作都有引入人为错误的风险|
|结果以演示文件形式呈现,通常通过电子邮件共享,查找旧报告不方便| |
##### 阶段 2:模板
在使用“手动”方法分析了几个 A/B 测试后,作者开发了一套全面的 SQL 查询,能够生成报告所需的所有数据。当发现自己使用的 SQL 代码基本相同,只是 A/B 测试的名称和运行日期不同时,作者创建了一个模板,具体操作如下:
1. 在模板顶部输入参数。
2. 运行整个查询,输出结果保存为 CSV 文件,可直接导入电子表格。
3. 电子表格本身也是一个模板,新分析时只需替换数据,然后更新下游的计算和图表。
这种方法虽然不如理想中灵活,例如新的 A/B 测试测试组数量不同时仍需调整,但比从头开始做要好得多,并且具有以下优点:
- 节省时间。
- 减少犯错的机会。
- 确保业务指标计算的一致性。
##### 阶段 3:脚本
作为一名初出茅庐的数据科学家,作者一开始很难放弃手动操作。现代数据科学家通常需要掌握一到两种最流行的数据分析编程语言,如 R 和 Python,作者的资深同事主要使用 R。虽然作者在数据分析之外有编程经验,但学习曲线仍然是一个挑战。
电子表格中的数据处理和绘图既耗时又容易出错,手动更改一个电子表格或图表的内容,其他地方不会自动同步。而使用 R 编程,虽然一开始不太习惯,但一旦掌握,就能感受到自动化的魔力。作者逐渐用 R 代码重现了在电子表格中所做的一切,带来了以下巨大好处:
- 节省更多时间。
- 更易于更改计算和可视化,能尝试以前因成本高而不敢尝试的事情。
- 进一步减少犯错的机会。
- 可以共享代码,虽然阅读他人代码并不总是容易,但比理解复杂的电子表格要容易得多。
- 除了计算,还能确保展示的一致性,所有图表都通过运行相同的代码生成。
##### 阶段 4:完全自动化
随着公司的发展,数据科学团队和 A/B 测试的数量都在增加。对 A/B 测试分析进行标准化和自动化的基层努力演变成了一个跨团队项目,最终实现了一个集中的、完全自动化的在线仪表板。现在,大多数 A/B 测试不再需要数据科学家参与,业务利益相关者只需在互联网浏览器中打开仪表板,选择感兴趣的 A/B 测试,就能看到每日和累计数据及图表。这带来了以下好处:
0
0
复制全文
相关推荐









