自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 DataWhale 10月组队学习-深入浅出PyTorch task2_学习记录

task 2 Tensor 张量 这个名词还是听陌生的,第一次听,不知道是一个怎么样的东西,脑子能关联到的就是向量了。在机器学习里,接触的最多的是向量和矩阵,而它们其实都可以称为张量。 向量,是一维的;矩阵,是二维的…张量似乎就是各种维度的矩阵的一个统称,但我们通常需要处理的数据有零维的(单纯的一个数字)、一维的(数组)、二维的(矩阵)、三维的(空间矩阵)、还有好多好多维的。Pytorch为了把这些各种维统一起来,所以就起名为Tensor——张量。 如果之前有学习过NumPy,那现在的Tensor和它不能

2021-10-15 21:35:34 307

原创 DataWhale 9月组队学习-动手学数据分析 task2_学习记录

数据清洗及特征处理 通常原数据都是不干净的,可能存在异常值,缺失值以及其他问题。所以一般进行数据分析之前都需要先对数据进行清洗。 读个文件先 #加载所需的库 import numpy as np import pandas as pd #加载数据train.csv df = pd.read_csv('train.csv') 缺失值观察与处理 缺失值,可能是人为失误或者机器失误造成部分数据值的空缺,如果不对这些空缺的地方进行操作,极大可能会影响我们后续分析或建模得到的结果。 首先是观察缺失值,观察缺失值的

2021-09-20 10:53:24 375

原创 DataWhale 9月组队学习-动手学数据分析 task3_学习记录

建模 数据分析我认为最重要的部分就是运用我们目前已有的数据建立模型,对未知的东西进行一个预测。当然数据本身也是非常重要的,所以需要前面的增删查补,对数据进行一个规整,以此可以训练出一个健壮的模型。 首先是导入包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from IPython.display import Image 前面三个库是老朋友了,就不做过多的介绍了。

2021-09-18 21:19:55 358

原创 DataWhale 9月组队学习-动手学数据分析 task1_学习记录

导入文件 首先是导入此次需要用到的两个包 import numpy as np import pandas as pd 导入之前需要下载包 !pip install numpy !pip install pandas 下载的很顺利,不顺利的可以考虑换个源,在代码后面补上-i 和 源的地址。 接着是文件的读取,本次读取的文件格式是csv,所以用pandas库中的read_csv()函数来读取 df = pd.read_csv('train.csv') 上面的train.csv文件是与代码文件在同一父文

2021-09-13 14:18:07 224

原创 OCR竞赛实践学习记录 task_01

代码下载 本人大二,很少上github和gitee,之前下载代码都是直接在网站上打包下载zip到本地,直接解压就好了,但是这次出了点意外,下载出现了问题。 后来参照他人博客进行Git的安装,顺利下载好代码。 代码移至本地完成了。(别骂了别骂了,菜鸡的第一次嘛) 前期准备 图片下载 过程并不是很顺利,中途多次报错,提示连接方长时间未响应或答复。什么原因不太理解,解决方法就是重新运行down_image.py文件,直到4000多张图片下载完成。 预测模型下载 直接复制了指导文件上的源码 w

2021-07-16 01:16:33 183

原创 Task4 建模与调参

Task4 建模与调参 逻辑回归模型: ​ 逻辑回归是应用非常广泛的一个分类机器学习算法,将数据拟合到logistic函数里,完成对事件发生的概率进行预测;它始于输出结果为有实际意义的连续值的线性回归,但是线性回归对于分类的问题没有办法准确而又具备鲁棒性地分割,而逻辑回归可以解决这个问题,它的输出结果表征了某个样本属于某类别的概率。 决策树模型: ​ 决策树是一种基本的分类与回归方法。通过排序策略确定各个节点的排放顺序,按照树的方式延伸属性,通过决策规则预测变量的值。可以处理多值输出变量问题,几乎不需要

2021-03-25 22:42:20 161

原创 Task3 特征工程

Task3 特征工程 3.1 学习目标 学习时间序列数据的特征预处理方法 学习时间序列特征处理工具 Tsfresh(TimeSeries Fresh)的使用 3.2 内容介绍 数据预处理 时间序列数据格式处理 加入时间步特征time 特征工程 时间序列特征构造 特征筛选 使用 tsfresh 进行时间序列特征处理 3.3 代码示例 ​ 接下来就是跟着文章跑代码… 3.3.1 导入包并读取数据 # 包导入 import pandas as pd import numpy as np imp

2021-03-22 22:23:31 261

原创 Task 02 数据分析 小白自学

Task 2 数据分析 赛题:心电图心跳信号多分类预测 学习目标 熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用 了解变量间的相互关系以及变量与预测值之间的存在关系 完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结 掌握基础的查看数据基本信息的方法 2.1 导入各种数据科学以及可视化库、载入数据 import warnings warnings.filterwarnings('ignore') import missingn

2021-03-18 23:00:02 126

原创 Task1 心电信号赛题理解 小白自学

Datawhale 零基础入门数据挖掘-Task1 赛题理解 Task1赛题理解 赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来引导大家了解医疗大数据的应用,帮助竞赛新人进行自我练习、自我提高。 1.1学习目标 理解赛题数据和目标,清楚评分体系。 完成相应报名,下载数据和结果提交打卡(可提交示例结果),熟悉比赛流程 1.2了解赛题 赛题概况 数据概况 预测指标 分析赛题 1.2.1赛

2021-03-16 22:26:58 450

原创 机器学习_基于支持向量机的分类预测(纯小白自学)

学习目标 了解支持向量机的分类标准 了解支持向量机的软间隔分类 了解支持向量机的非线性核函数分类 支持向量机的介绍 支持向量机(Support Vector Machine,SVM)是一个非常优雅的算法,具有非常完善的数学理论,常用于数据分类,也可以用于数据的回归预测中,由于其其优美的理论保证和利用核函数对于线性不可分问题的处理技巧,在上世纪90年代左右,SVM曾红极一时。 主要优点:1. 利用内积核函数代替向高维空间的非线性映射 2. 避免了“维数灾难” 3. 简化了通常的分类和回归等问题 主要缺点

2020-08-26 21:46:35 2725

原创 机器学习_基于决策树的分类预测(纯小白自学)

学习目标 1.了解 决策树 的理论知识 2.掌握 决策树 的 sklearn 函数调用使用 决策树的介绍 决策树是一种常见的分类模型,在金融分控、医疗辅助诊断等诸多行业具有较为广泛的应用。决策树的核心思想是基于树结构对数据进行划分,这种思想是人类处理问题时的本能方法。例如在婚恋市场中,女方通常会先看男方是否有房产,如果有房产再看是否有车产,如果有车产再看是否有稳定工作……最后得出是否要深入了解的判断。 主要优点:1. 具有很好的解释性,模型可以生成可以理解的规则。2.可以发现特征的重要程度。3.模型的

2020-08-22 20:36:59 499

原创 机器学习算法_基于逻辑回归的分类预测(纯小白自学)

写在前面 第一次写博客,也是第一次进行自学,该文章仅仅用来记录学习情况 以前学习从来不做笔记 当然如果有大佬能够对我提出意见我也是非常开心非常欢迎的! 学习目标 1.了解逻辑回归的理论 2.掌握逻辑回归的 sklearn 函数调用使用

2020-08-19 17:53:30 875

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除