机器学习学习小结(1)

本文介绍了机器学习的基础概念,包括常用的机器学习框架如scikit-learn、Mahout和SparkMLib,判别式与生成式模型的区别,以及机器学习的问题分类。此外还详细讲解了机器学习的开发流程,并提供了数据收集、特征工程等方面的具体指导。

 

1. 廖雪峰的网站

博客网址:

https://www.liaoxuefeng.com/

如何学习机器学习网址:

https://www.liaoxuefeng.com/discuss/001409195742008d822b26cf3de46aea14f2b7378a1ba91000/001533286342441c4da9d8faeba4c1db70a5142872e4087000

2. 机器学习常用框架

1)scikit-learn(基于Python);

2)Mahout(Hadoop生态圈,基于MapReduce,基于Java);

3)Spark MLib(MLib是Spark的机器学习库,基于scala)。

3. 常见的判别式模型(Discriminative Model:直接对条件概率进行建模,如线性回归、决策树、支持向量机、K近邻、神经网络等。关注数据的差异性,寻找分类面。

    常见的生成式模型(Discriminative Model:对联合分布概率进行建模,如隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型、LDA等。关注数据是如何产生的,寻找数据分类模型。

    由生成式模型可以生成判别式模型,反之不行。

4. 机器学习问题分类:分类,聚类,回归,关联规则。

5. 机器学习的开发流程:

1)数据收集;2)数据预处理(清洗与转换);3)构建模型;

4)模型测试评估;5)投入使用(模型部署与整合);6)迭代优化。

其中2)用到Python中的Numpy,Pandas等,缺失值、异常值的处理等。经常是1)和2)是一个小团队,对数据进行处理。

6. 数据收集与存储

公开数据集(比赛有Kaggle和天池大赛)

7. 特征工程

即数据清洗与转换。有

1和2常用:

将介绍1 of k 哑编码(避免认为A、B、C没有差异):

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值