海洋 之心
图神经网络-大数据-推荐系统研究者,专注于计算机领域前沿技术的分享等人工智能算法研究工作
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习项目实战案例目录】项目详解 + 完整源码
本专栏整理了《机器学习项目实战案例》,内包含了各种不同的入门级机器学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集。原创 2022-11-24 09:36:33 · 35229 阅读 · 50 评论 -
机器学习项目实战案例数据集
本专栏整理了《机器学习项目实战案例》,内包含了各种不同的机器学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集。原创 2023-03-13 18:04:36 · 3187 阅读 · 0 评论 -
DataCastle-租金预测
ID:编号;时间:房屋信息采集的时间;小区名:房屋所在小区,已脱敏处理;小区房屋出租数量:小区出租房屋数量,已脱敏处理;楼层:0、1、2分别表示楼层低,中,高;总层数:房屋所在建筑的总楼层数,已脱敏处理;房屋面积:房屋面积数值,已脱敏处理;房屋朝向:房屋的朝向;居住状态:房屋的居住状态,表示是否已出租或居住中,已脱敏处理;卧室数量:户型信息,数字表示卧室的个数;卫的数量:户型信息,数字表示卫生间的个数;厅的数量:户型信息,数字表示厅的个数;原创 2022-11-26 14:22:28 · 3183 阅读 · 0 评论 -
基于随机森林的假新闻检测项目
关于数据集在预处理、特征提取和模型分类方面,Getting Real about Fake News似乎最有希望。原因是所有其他的数据集都缺乏文章/声明文本产生和发布的来源。引述文章文本的来源对于检查新闻的可信度至关重要,并进一步帮助将数据标记为假的或不可信的。原创 2022-11-26 17:32:27 · 5392 阅读 · 1 评论 -
利用XGBoost实现短期电力负荷预测
本数据集为某地区2009年-2015年的用电负荷,时间片为每分钟这里我们定义了XGB模型作为实例,来进行模型训练,之后我们会对其使用网格搜索找到最优的参数。原创 2022-11-26 18:42:32 · 3998 阅读 · 5 评论 -
基于K近邻的葡萄酒质量检测项目
葡萄酒质量数据总共有178个样本,是一个典型的三分类数据集,三个类别分别是【雪莉,贝尔摩得,琴酒】,每个样本的特征有13列alcoholmalic_acidashmagnesiumflavanoidshueproline。原创 2022-11-26 16:10:30 · 4976 阅读 · 0 评论 -
利用LightGBM实现天气变化的时间序列预测
这里我们定义了LGB模型作为实例,来进行模型训练,之后我们会对其使用网格搜索找到最优的参数。原创 2022-11-26 18:20:54 · 5139 阅读 · 5 评论 -
利用线性回归实现股票预测分析
股价预测其实是一个较难拟合的问题,因为在现实生活中影响股价的因素有非常多,不只是过去股价有影响,不过为了体会LSTM网络的作用,本文中LSTM模型去对股价做一个大致的预测,只考虑时序因素,未掺杂其它影响因子,下图为拟合过后的图。由于是时序数据,那么过去一段时间的数据会对未来的数据产生影响,这里定义一个时间步,可以理解为滑动窗口,就是利用过去多少天的数据来预测未来的数据,这个时间步也对应着LSTM中的时间片xt。时间片为1,则数据为1-2,2-3,3-4,4-5,5-6,6-7。例如:数据为1234567。原创 2022-11-26 17:56:08 · 11906 阅读 · 5 评论 -
AGNES-层次聚类模型
层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分有两种策略:一种是自下而上,另一种是自上而下;自下而上初始将每个样本视作一个单独的簇,然后选择相距最近的两个样本进行合并,循环执行,直到达到预设的聚类簇个数,而自上而下恰好相反,它假设所有样本都属于同一个簇,然后将相距最远样本进行划分。原创 2022-11-26 15:00:28 · 772 阅读 · 0 评论 -
贝叶斯网络-拼写检查器
本数据集采用的是网上爬的一篇英文小说,我们使用它作为我们的语料库。原创 2022-11-26 14:39:28 · 1130 阅读 · 0 评论 -
基于逻辑回归的泰坦尼克生存预测
该数据集分为两个部分,分为训练集和测试集,训练集中总共有891个样本,而测试集中总共有418个样本,每个样本的特征维度为11,标签共有2类,为【0,1】分别代表【死亡、存活】。Survived:0代表死亡,1代表存活Pclass:乘客所持票类,有三种值(1,2,3)Name:乘客姓名Sex:乘客性别Age:乘客年龄(有缺失)SibSp:乘客兄弟姐妹/配偶的个数(整数值)Parch:乘客父母/孩子的个数(整数值)Ticket:票号(字符串)原创 2022-11-25 16:26:56 · 1264 阅读 · 0 评论 -
基于决策树的MNIST数字分类
scikit-learn内置的乳腺癌数据集来自加州大学欧文分校机器学习仓库中的威斯康辛州乳腺癌数据集。乳腺癌数据集是一个共有569个样本、30个输入变量和2个分类的数据集。30个数值型测量结果由数字化细胞核的10个不同特征的均值、标准差和最差值(即最大值)构成。radius(半径):mean of distances from center to points on the perimetertexture(质地):standard deviation of gray-scale values。原创 2022-11-25 15:27:00 · 1280 阅读 · 0 评论 -
支持向量机(SVC)实现乳腺癌肿瘤预测
scikit-learn内置的乳腺癌数据集来自加州大学欧文分校机器学习仓库中的威斯康辛州乳腺癌数据集。乳腺癌数据集是一个共有569个样本、30个输入变量和2个分类的数据集。30个数值型测量结果由数字化细胞核的10个不同特征的均值、标准差和最差值(即最大值)构成。radius(半径):mean of distances from center to points on the perimetertexture(质地):standard deviation of gray-scale values。原创 2022-11-25 15:05:01 · 2307 阅读 · 0 评论 -
KMeans聚类
本数据集是自拟的,总共有500条数据,总共有7个簇,也就是7个类别其实KMeans是一种基于质心的聚类,为什么这么说呢?因为它的设计思想就是从总样本中找到几个标志性的数据,将其定为每个簇的数据中心,然后分别判断每个数据的距离状况,然后进行更新每个簇内的质心。对于样本集D={x1,x2...xn}D={x1,x2...xn}来说,我们要将其分成k个数据簇,也就是对应C={C1,C2,...Ck}C={C。原创 2022-11-25 13:56:00 · 1005 阅读 · 0 评论 -
聚类算法用于降维,KMeans的矢量量化应用(图片压缩)
shuffle:该函数是将图片二维数据随机排序,类似于洗牌,取出前1000个色素信息,训练模型,确定质心,然后利用已知质心再去分类所有的二维图片色素信息,分为k类,然后将这k类中的质心色素代替新的图片色素信息,再将二维数据改为三维,成为图片格式。由上图可以看出用KMeans压缩的图片和原图片差不多,因为KMeans是将所有色素信息聚类,不同类的色素信息用该类的中心点代替,所以颜色并没有什么缺失。然而随机取出的色素来代替,颜色会有缺失,因为随机选取色素的过程中丧失了主要的色素信息。随机取出k个色素数据。原创 2022-11-24 17:56:26 · 646 阅读 · 0 评论 -
PCA降维:简易人脸识别模型
img.resize( (32,32) ):调整图片尺寸大小。n_components可以取整数,意思是保留相应数目特征。如果为0~1的浮点数,则表示保留相应百分比的数据信息。img.convert(‘L’):将图片灰度处理。Image.open(‘file’):获取图片。原创 2022-11-24 17:57:13 · 1257 阅读 · 0 评论 -
鸢尾花分类预测
鸢尾花数据总用有150个样本,是一个典型的分类数据集,共有3个类别,分别是山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica),每个样本的特征有4列sepal_length:萼片长度sepal_width:萼片宽度petal_length:花瓣长度petal_width:花瓣宽度这里我们定义了随机森林模型作为实例,来进行模型训练,之后我们会对其使用网格搜索找到最优的参数。原创 2022-11-24 17:33:12 · 1899 阅读 · 0 评论 -
波士顿房价预测
波士顿房价数据总用有506个样本,每个样本的特征有14列crim:按城镇划分的人均犯罪率。zn:划作超过25,000平方英尺地段的住宅用地比例。indus:城镇非零售营业面积占比。chas:查尔斯河虚拟变量(= 1,如果土地边界河流;0否则)。nox:氮氧化物浓度(千万分之一)。rm:每个住宅的平均房间数。age:1940年以前建造的自住单位的比例。dis:到波士顿五个就业中心的加权平均距离。rad:径向公路可达性指数。tax:全值财产税税率每$10,000。原创 2022-11-24 16:18:09 · 4581 阅读 · 3 评论