1. 廖雪峰的网站
博客网址:
https://www.liaoxuefeng.com/
如何学习机器学习网址:
2. 机器学习常用框架
1)scikit-learn(基于Python);
2)Mahout(Hadoop生态圈,基于MapReduce,基于Java);
3)Spark MLib(MLib是Spark的机器学习库,基于scala)。
3. 常见的判别式模型(Discriminative Model:直接对条件概率进行建模,如线性回归、决策树、支持向量机、K近邻、神经网络等。关注数据的差异性,寻找分类面。
常见的生成式模型(Discriminative Model:对联合分布概率进行建模,如隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型、LDA等。关注数据是如何产生的,寻找数据分类模型。
由生成式模型可以生成判别式模型,反之不行。
4. 机器学习问题分类:分类,聚类,回归,关联规则。

5. 机器学习的开发流程:
1)数据收集;2)数据预处理(清洗与转换);3)构建模型;
4)模型测试评估;5)投入使用(模型部署与整合);6)迭代优化。
其中2)用到Python中的Numpy,Pandas等,缺失值、异常值的处理等。经常是1)和2)是一个小团队,对数据进行处理。

6. 数据收集与存储

公开数据集(比赛有Kaggle和天池大赛)

7. 特征工程
即数据清洗与转换。有

1和2常用:

将介绍1 of k 哑编码(避免认为A、B、C没有差异):

本文介绍了机器学习的基础概念,包括常用的机器学习框架如scikit-learn、Mahout和SparkMLib,判别式与生成式模型的区别,以及机器学习的问题分类。此外还详细讲解了机器学习的开发流程,并提供了数据收集、特征工程等方面的具体指导。
1044

被折叠的 条评论
为什么被折叠?



