人工智能的Pipeline
- 数据清洗
- 清洗数据
- 处理数据
- 如何做特征工程,如何把数据做出优秀的训练集
- 影响后面机器学习应用,烂的数据集效果不好,质量不高
- ETL–Extract Transform Load
- Pandas/Numpy/MapReduce
- 数据库(数据仓库)
- Mysql/Redis/mongo
- Mysql/Postgres
- Hive 10亿辆车 聚类 --> 最后交给MapReduce做
- OLAP --HMASE
- spark
- 数据集市/数据挖掘/数据标注(50%时间)
- 如何生成我需要的精细的、优质的数据
- 数据挖掘
- 数据可视化
- 数据统计
- 特征工程
- 数据标注 (80%是监督学习/无监督学习也是为了监督学习)
- 自动化标注(没有人工就没有数据)
- 标注平台、节省人力
- 聚类等自动化
- 几乎不存在任何
通用算法
做自动化标注,一定是特定算法特定标注 - 算法人员花大量时间在标注上!
- 再标再跑
- 合理高效的标注
- 几乎不存在任何