机器学习(一)

1.机器学习概述

1.1 人工智能概述

1.1.1 机器学习与人工智能、深度学习的关系

机器学习是人工智能的一个实现途径,而深度学习是机器学习的一个方法发展而来。

1.1.2 人工智能的起点

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1.1.3 机器学习、深度学习能做什么?

应用领域:网络搜索、识别人类语言、自动驾驶、计算机视觉、传统预测、图形识别、自然语言处理。

AGI为Artificial General Intelligence的首字母缩写,意为人工通用智能。它是一种可以执行复杂任务的人工智能,能够完全模仿人类智能的行为。

1.2 什么是机器学习?

1.2.1 定义

机器学习是从数据中自动分析获取模型,并利用模型对未知数据进行预测

在这里插入图片描述

1.2.2 数据集的构成

结构: 特征值 + 目标值

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

注:

对于每一行数据可以称为样本。

有些数据集可以没有目标值。(需要采用聚类算法这些,进行分类。)

1.3 机器学习算法

在这里插入图片描述

1.4 机器学习开发流程

  • 获取数据
  • 数据处理(缺失值、坏点等等)
  • 特征工程(让数据变得更容易被机器学习算法使用的数据)
  • 机器学习算法训练(之后得到模型)
  • 模型评估
  • 应用

在这里插入图片描述

2.特征工程

2.1 数据集

2.1.1 可用数据集

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Kaggle网址:Find Open Datasets and Machine Learning Projects | Kaggle

UCI网址:UCI 机器学习存储库

scikit-learn网址:scikit-learn: machine learning in Python — scikit-learn 1.5.0 documentation

2.1.2 Scikit-learn工具介绍

  • python语言的机器学习的工具
  • Scikit-learn包含许多机器学习算法的实现

2.1.3 安装

pip install Scikit-learn

# 如果有多个python版本的话,需要指定,以3.12为例
pip3.12 install Scikit-learn

完了之后,可以查看自己是否安装成功。

pip list

2.1.2 Sklearn数据集

# * 表示的是数据集的名字

# 获取小规模数据集,数据包含在datasets里
sklearn.datasets.load_*()

# 获取大型数据集,需要从网络下载,默认是 ~/scikit_learn_data/
# datahome : 标识数据集下载的目录
# subset:'train' 或 'test' 或 'all' 可选,选择要加载的数据集
sklearn.datasets.fetch_*(datahome = None,subset = "train")

# 两种方法的返回的数据值
# load和fetch返回的数据类型datasets.base.Bunch(字典格式),这个是继承自字典
	# data: 特征值数据数组,是[n_samples * n_features]的二维numpy*ndarray数组
    # target: 标签数组,是n_samples 的一维numpy * ndarray数组
    # DESCR: 数据描述
    # feature_names: 特征名
    # target_names: 标签名

示例:

from sklearn.datasets import load_iris


def datasets_demo():
    """
    sklearn数据集使用
    :return:
    """
    # 获取数据集
    iris = load_iris()
    print("鸢尾花数据集:\n", iris)
    print("鸢尾花数据集描述:\n", iris["DESCR"])
    print("鸢尾花数据集特征值的名字:\n", iris.feature_names)
    print("鸢尾花数据集特征值的形状:\n", iris.data, iris.data.shape)
    return None


if __name__ == '__main__':
    datasets_demo()

2.1.3 数据集的划分

机器学习数据集会划分为两个部分:

  • 训练数据:用于训练 , 构建模型
  • 测试数据:在模型检验中使用,评估模型是否有效

数据集划分API

  • sklearn.model_selection.train_test_split(arrays,*options)
    • x 数据集的特征值
    • y 数据集的标签值
    • test_size 测试集的大小,一般为float
    • random_state 随机数种子,不同的种子会造成不同的随机采样结果。
    • return 训练集特征值,测试集特征值、训练集目标值、测试集目标值
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split


def datasets_demo():
    """
    sklearn数据集使用
    :return:
    """
    # 获取数据集
    iris = load_iris()

    # 数据集划分
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2)
    print("训练集特征值:\n", x_train, x_train.shape)
    print("训练集目标值:\n", y_train, y_train.shape)
    print("测试集特征值:\n", x_test, x_test.shape)
    print("测试集目标值:\n", y_test, y_test.shape)
    return None


if __name__ == '__main__'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CPanMirai

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值