中国癌症患者数据集,用于医学研究、生存预测建模和医疗差距分析 数据包括肿瘤特征、治疗类型、生存状态和生活方式因素(如吸烟和饮酒)
数据量:10000
中国癌症患者数据,用于医学研究、生存预测建模和医疗差距分析。数据包括肿瘤特征、治疗类型、生存状态和生活方式因素(如吸烟和饮酒)。它反映了现实的癌症流行病学,具有较高的肺癌、胃癌和肝癌频率,并考虑了治疗和结果的地区差异。主要特点包括:
覆盖中国主要省份的地理分布,按比例代表性。
癌症类型、阶段和肿瘤大小与中国的流行病趋势一致。
治疗方法(如手术、化疗、免疫治疗)和治疗次数。
共病、基因突变数据(有意缺失5-10%的值)。
生存结果和最长60个月的随访时间。
数据描述:
病人ID
性别
年龄
省
种族
肿瘤类型
癌症分期
诊断日期
肿瘤大小
转移
治疗类型
手术日期
化疗疗程
放射治疗会议
生存状态
后续月份
吸烟状况
饮酒
基因突变
合并症
此数据集适用于机器学习模型、公共卫生研究、预测分析和学术研究——特别是在癌症结果预测、治疗效果评估和高级护理可及性公平性方面的研究。
糖尿病预测数据集,该数据集是从患者那里收集的医疗和人口统计数据,以及他们的糖尿病状态(阳性或阴性) 数据包括年龄、性别、身体质量指数(BMI)、高血压、心脏病、吸烟史、HbA1c水平和血糖水平等特征
数据量:100000
该数据集是从患者那里收集的医疗和人口统计数据,以及他们的糖尿病状态(阳性或阴性)。数据包括年龄、性别、身体质量指数(BMI)、高血压、心脏病、吸烟史、HbA1c水平和血糖水平等特征。该数据集可用于基于患者的医疗历史和人口信息建立机器学习模型,以预测患者是否患有糖尿病。这对于医疗专业人员在识别可能发展成糖尿病的患者以及制定个性化治疗计划方面非常有用。此外,该数据集还可供研究人员用于探索各种医疗和人口因素与发展成糖尿病的可能性之间的关系。
数据介绍:
性别
年龄
高血压
心脏病
吸烟史
身体质量指数
糖化血红蛋白水平
血糖水平
糖尿病
学生表现因素数据集,该数据集全面概述了影响学生考试成绩的各种因素 它包括学习习惯、出勤情况、家长参与以及其他影响学术成功方面的信息
数据量:6607
关于数据集
描述
该数据集全面概述了影响学生考试成绩的各种因素。它包括学习习惯、出勤情况、家长参与以及其他影响学术成功方面的信息。
列描述
属性 描述
学习时长 每周学习的小时数。
出勤 出席课程的百分比。
家长参与 家长参与学生教育的程度(低、中、高)。
资源访问 教育资源的可用性(低、中、高)。
课外活动 参加课外活动(是,否)。
睡眠小时数 每晚平均睡眠时间(小时)。
之前的成绩 之前考试的分数。
动机水平 学生的学习动机水平(低,中,高)。
互联网接入 互联网接入的可用性(是,否)。
辅导课程 每月参加辅导课程的次数。
家庭收入 家庭收入水平(低,中,高)。
教师质量 教师质量(低、中、高)。
学校类型 上学类型(公立,私立)。
同伴影响 同伴对学业成绩的影响(正面、中性、负面)。
体育活动 每周平均体育活动小时数。
学习障碍 学习障碍的存在(是,否)。
父母的教育水平 父母的最高教育水平(高中,大学,研究生)。
离家距离 从家到学校的距离(近、适中、远)。
性别 学生性别(男,女)。
考试成绩 期末考试成绩。
糖尿病指标数据集,这个原始数据集包含441,455个个体的回应,共有330个特征 这些特征要么是直接向参与者提问的问题,要么是基于个人参与者回应的计算变量
数据介绍:
数据集一:
糖尿病_012
0 = 无糖尿病 1 = 糖尿病前期 2 = 糖尿病
高血压
0 = 无高血压 1 = 高血压
高胆固醇
0 = 无高胆固醇 1 = 高胆固醇
胆固醇检查
0 = 5 年内未进行胆固醇检查 1 = 5 年内进行胆固醇检查
体重指数
身体质量指数
吸烟者
您一生中至少吸过 100 支香烟吗?[注:5 包 = 100 支香烟] 0 = 否 1 = 是
中风
(曾经被告知)你中风了。0 = 没有 1 = 有
心脏病或心脏病发作
冠心病 (CHD) 或心肌梗塞 (MI) 0 = 否 1 = 是
身体活动
过去 30 天内的体力活动 - 不包括工作 0 = 否 1 = 是
水果
每天吃水果 1 次或多次 0 = 否 1 = 是
蔬菜
每天食用蔬菜 1 次或多次 0 = 否 1 = 是
酗酒
重度饮酒者(成年男性每周饮酒超过 14 杯,成年女性每周饮酒超过 7 杯) 0 = 否 1 = 是
任何医疗保健
有任何形式的医疗保险,包括健康保险、HMO 等预付费计划等。0 = 没有 1 = 有
医疗成本
过去12个月里,您是否曾需要去看医生,但因为费用问题而无法就医?0 = 没有 1 = 有
GenHlth
您认为您的总体健康状况是:等级 1-5 1 = 优秀 2 = 非常好 3 = 好 4 = 一般 5 = 差
心理健康
现在想想你的心理健康状况,包括压力、抑郁和情绪问题。过去30天里,你的心理健康状况有多少天不太好?量表1-30天
物理健康
现在想想你的身体健康状况,包括身体疾病和受伤,过去30天里,你的身体健康状况有多少天不太好?量表1-30天
差异行走
您走路或爬楼梯有严重困难吗?0 = 没有 1 = 有
其他详见PDF数据集说明
电子商务交易数据集,包含50,000个电子商务交易记录,使其非常适合数据分析、可视化和机器学习实验 它包括用户人口统计信息、产品类别、购买金额、支付方式和交易日期,以帮助理解消费者行为和销售趋势
数据量:50000
概述
该数据集包含50,000个电子商务交易记录,使其非常适合数据分析、可视化和机器学习实验。它包括用户人口统计信息、产品类别、购买金额、支付方式和交易日期,以帮助理解消费者行为和销售趋势。
数据集详情
列
Transaction_ID – 每笔交易的唯一标识符
User_Name – 随机生成的用户名
Age – 用户年龄(18到70岁)
Country – 交易发生的国家(从10个国家中随机选择)
Product_Category – 购买商品的类别(例如,电子产品、服装、书籍)
Purchase_Amount – 交易总金额(在$5到$1000之间随机生成)
Payment_Method – 付款使用的支付方式(例如,信用卡、PayPal、UPI)
Transaction_Date – 购买日期(在过去的两年内随机选择)
使用案例
销售和趋势分析 – 识别最受欢迎的产品类别
客户分段 – 根据年龄和国家分析消费行为
欺诈检测 – 检测不寻常的购买模式
机器学习 – 训练推荐系统或收入预测的模型
中国工商银行每日股价数据集,该数据集包含 中国工商银行 (ICBC) (1398.HK) 的历史股票市场数据,从 2006年10月27日到2025年2月28日
数据介绍:
date:交易日期(YYYY-MM-DD格式)
open:当日开盘价
high:当日最高价
low:当日最低价
close:当日收盘价
adj_close:调整后的收盘价(考虑拆股/股息)
volume:当日交易股票总数
这个数据集对以下方面有价值:
股票市场分析:分析工行股票表现随时间的变化趋势。
时间序列预测:建立机器学习模型以预测未来的股票价格。
技术分析:使用OHLC数据识别模式以制定交易策略。
金融研究:研究宏观经济因素对股票价格的影响。
青少年心理健康数据集,数据集旨在通过匿名化社交媒体活动、调查和可穿戴设备数据来分析青少年的心理健康模式,重点关注压力水平 它包含5000条记录和11个字段,每个字段捕捉用户日常行为和健康的不同方面
数据集旨在通过匿名化社交媒体活动、调查和可穿戴设备数据来分析青少年的心理健康模式,重点关注压力水平。它包含5000条记录和11个字段,每个字段捕捉用户日常行为和健康的不同方面。目标是检测社交媒体使用、身体活动、睡眠模式和压力水平等因素之间的相关性。该数据集对青少年心理健康研究、早期压力检测和预防性护理都有助益。
数据介绍:
用户身份:每个参与者的唯一标识符。
年龄:参与者的年龄(13-19岁)。
性别:参与者的性别(“M”代表男性,“F”代表女性)。
社交媒体时间:每天在社交媒体上花费的时间。
锻炼时间:每天锻炼的时间。
睡眠时间:每天的总睡眠时间。
屏幕使用时间:每天的总屏幕时间(包括社交媒体、游戏等)。
调查压力分数:自我报告的压力分数(1 到 5 的等级,其中 1 表示低压力,5 表示高压力)。
可穿戴设备压力评分:通过可穿戴设备测量的压力分数(范围0到1)。
支持系统
学业成绩
电商个性化推荐数据集,旨在支持多智能体 AI 系统的开发,该系统通过提供超个性化的产品推荐来增强电子商务平台 它捕获客户互动、产品属性和推荐模式,从而实现 AI 驱动的洞察,以提高参与度、转化率和
客户数据集:10000条
产品数据集:10000条
数据集组成
客户数据:浏览行为、购买历史、人口统计和参与度指标。
产品信息:产品描述、类别、定价、可用性和用户评级。
推荐日志:历史推荐、客户回应和点击率。
用户细分:根据购买行为、频率、偏好和兴趣进行聚类。
客户数据集包含:
客户 ID
年龄
性别
地点
浏览历史
购买历史
客户细分
平均订单价值
假期
季节
产品数据集包含:
产品 ID
类别
子類別
价格
品牌
类似产品的平均评分
产品评级
客户评论情绪评分
假期
季节
该数据集旨在支持多智能体 AI 系统的开发,该系统通过提供超个性化的产品推荐来增强电子商务平台。它捕获客户互动、产品属性和推荐模式,从而实现 AI 驱动的洞察,以提高参与度、转化率和客户保留率。
苹果每日股价数据集,该数据集包含从1980 年 12 月12日到2025 年 6 月 10 日的AAPL历史每日价格数据 对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用
数据集概述
该数据集包含从1980 年 12 月12日到2025 年 6 月 10 日的AAPL历史每日价格数据。对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用。
此数据集包括以下字段:
Date: 记录的日期
Open: 开盘价
High: 今日最高价
Low: 今日最低价
Close: 收盘价
Volume: 交易的股票数量
潜在用途
分析股票价格随时间变化的趋势和波动性。
创建和测试用于股票变动的预测模型。
金融、统计或数据科学的教育演示。
可视化市场模式和进行投资研究。
XAUUSD黄金股价数据集,该数据集包含从2004-06-11到最近可用日期的XAU/USD历史每日黄金价格数据 对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用
数据集概述
该数据集包含从2004-06-11到 2025 年 6 月 6 日的XAU/USD历史每日黄金价格数据。对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用。
提供2个粒度的数据
1小时 (1H)
1天 (1D)
此数据集包括每个时间范围内的以下字段:
开放时间:间隔开始的时间戳。
开盘价:在该时间段开始时的比特币价格。
最高:该区间内的最高价格。
低: 该区间内的最低价格。
收盘价:在该区间结束时的比特币价格。
交易量:该时间段内的交易量。
文件内容
XAU_1d_data.csv: 2004-06-11到 2025 年 6 月 6 日的15分钟间隔数据。
XAU_1h_data.csv: 2004-06-11到 2025 年 6 月 6 日的1小时间隔数据。
比特币每日股价数据集,包含(2018-2025)- 15分钟、1小时、4小时和1天,四个时间周期的粒度数据
数据集概述
该数据集包含自2018年1月1日至现在的比特币(BTC/USDT)历史价格数据。提供四个时间周期的粒度蜡烛图数据:
15分钟 (15M)
1小时 (1H)
4小时 (4H)
1天 (1D)
此数据集包括每个时间范围内的以下字段:
开放时间:间隔开始的时间戳。
开盘价:在该时间段开始时的比特币价格。
最高:该区间内的最高价格。
低: 该区间内的最低价格。
收盘价:在该区间结束时的比特币价格。
交易量:该时间段内的交易量。
关闭时间:该间隔关闭的时间戳。
报价资产交易量:在该时间段内交易的总报价资产量。
交易次数:在该区间内执行的交易数量。
买家购买基础资产量:买家购买的基础资产量。
买家报价资产交易量:买家花费的报价资产交易量。
忽略:来自币安API的占位符列,分析中未使用。
文件内容
btc_15m_data_2018_to_present.csv: 2018年至现在的15分钟间隔数据。
btc_1h_data_2018_to_present.csv: 2018年至今的1小时间隔数据。
btc_4h_data_2018_to_present.csv: 从2018年到现在的4小时间隔数据。
btc_1d_data_2018_to_present.csv: 从2018年到现在的1天间隔数据。
纽约证券交易所个股每日股价数据集,时间从1962 年 1 月 2 日- 2025 年 6 月 13 日(交易日数据)
共1920个文件(文件大小:450M左右)
数据纬度:
Ticker:股票代码
Date:数据点的日期
Open:开盘价
High:当日达到的最高值
Low:当日达到的最低值
Close:收盘价
纽约证券交易所 1920 只股票,每日信息范围从 1962 年 1 月 2 日至 2025 年 6 月 13 日,数据为交易日数据,且不是每个股都从1962 年 1 月 2 日起。
潜在用例
使用 LSTM、ARIMA 或 Prophet 进行时间序列预测
回测交易策略
分析长期金融趋势和波动性
可视化重大事件(例如互联网泡沫)周围的市场行为
比较实际股价与调整后股价
项目构想
使用深度学习预测次日价格
使用 Plotly 创建交互式可视化
训练 ML 模型来检测看涨/看跌模式
计算 RSI、MACD、布林带等技术指标
比亚迪股价数据集,该数据集包含历史股票价格数据,涵盖比亚迪股份有限公司 (BYDDF),时间线为2009-02-13 -2025-03-14
数据介绍
日期– 交易日期
开盘价——股票开盘价
最高价– 交易日内达到的最高价格
最低价– 交易日内最低价格
收盘价——交易时段结束时的收盘价
调整收盘价– 考虑股息/拆股后调整后的收盘价
成交量——当天交易的股票总数
潜在用例
股价可视化– 绘制 BYDDF 股票多年来的走势图
移动平均线分析– 识别支撑位和阻力位
市场情绪研究– 分析新闻/事件如何影响股价
股市分析– 研究比亚迪的历史价格趋势
时间序列预测– 构建 ML 模型来预测未来股价
电动汽车行业洞察– 分析市场事件如何影响比亚迪的股票
比较分析– 与特斯拉 (TSLA)、蔚来汽车和其他电动汽车股票进行比较
特斯拉股价数据集,数据量为2010-6-29到2025-3-3
数据指标:
数据包括每日开盘价、最高价、最低价、收盘价和交易量。它是股票市场分析、时间序列预测和金融研究的理想选择。
NVIDIA股票价格数据集,该数据集提供了NVIDIA Corporation股票市场表现的详细历史概述,包括每日交易记录,使其适用于时间序列分析、金融预测、算法交易模拟和教育目的
数据:1999.1.22-2025.06.10
该数据集提供了NVIDIA Corporation股票市场表现的详细历史概述,涵盖了多年的关键交易数据。NVIDIA是一家领先的科技公司,以图形处理单元(GPU)和人工智能的创新而闻名。了解其股票行为可以为对金融建模和市场趋势感兴趣的投资者、分析师、学生和研究人员提供宝贵的见解。
该数据集包括每日交易记录,使其适用于时间序列分析、金融预测、算法交易模拟和教育目的。用户可以探索英伟达(NVIDIA)的股票价格如何随时间演变,识别模式或异常,并构建或基准测试预测模型。
列描述
日期:具体的交易日期,格式为 YYYY-MM-DD。
关闭:交易日结束时英伟达股票的收盘价。
高:在交易时段内,NVIDIA股票达到的最高价格。
低:在交易时段内记录的最低价格。
开盘:英伟达股票当天开始交易的价格。
交易量:该日期交换的NVIDIA股票总数。
潜在用途
分析NVIDIA股票价格随时间变化的趋势和波动性。
创建和测试用于股票变动的预测模型。
金融、统计或数据科学的教育演示。
可视化市场模式和进行投资研究。
标普500指数每日股价数据集,数据量:2010 年 1 月 4 日- 2025 年 6 月 13 日(交易日数据)
文件大小:143M左右
数据介绍:
Ticker:股票代码
Date:数据点的日期
Open:开盘价
High:当日达到的最高值
Low:当日达到的最低值
Close:收盘价
Volume:股票交易量
潜在用例
使用 LSTM、ARIMA 或 Prophet 进行时间序列预测
回测交易策略
分析长期金融趋势和波动性
可视化重大事件(例如互联网泡沫)周围的市场行为
比较实际股价与调整后股价
项目构想
使用深度学习预测次日价格
使用 Plotly 创建交互式可视化
训练 ML 模型来检测看涨/看跌模式
计算 RSI、MACD、布林带等技术指标
纳斯达克股票市场个股每日股价数据集,纳斯达克上的3298只股票,每日股价信息从1962年1月2日到2025年6月13日
数据量:1962 年 1 月 2 日— 2025 年 6 月 13 日(交易日数据)
共3298个文件(文件大小:450M左右)
数据介绍:
Ticker:股票代码
Date:数据点的日期
Open:开盘价
High:当日达到的最高值
Low:当日达到的最低值
Close:收盘价
纳斯达克 3298 只股票,每日信息范围从 1962 年 1 月 2 日至 2025 年 6 月 13 日,数据为交易日数据,且不是每个股都从1962 年 1 月 2 日起。
潜在用例
使用 LSTM、ARIMA 或 Prophet 进行时间序列预测
回测交易策略
分析长期金融趋势和波动性
可视化重大事件(例如互联网泡沫)周围的市场行为
比较实际股价与调整后股价
项目构想
使用深度学习预测次日价格
使用 Plotly 创建交互式可视化
训练 ML 模型来检测看涨/看跌模式
计算 RSI、MACD、布林带等技术指标
学生表现与行为数据集,这个数据集是来自一个私人学习提供商的5000条真实记录数据 数据集包括探索与学业表现相关的模式、相关性和见解所需的关键属性
列:
Student_ID: 每个学生的唯一标识符。
名字: 学生的名字。
姓氏: 学生的姓氏。
电子邮件:联系电子邮件(可以匿名化)。
性别:男,女,其他。
年龄:学生的年龄。
部门:学生的部门(例如,计算机科学,工程,商业)。
出勤率 (%): 出勤率百分比 (0-100%).
Midterm_Score: 期中考试成绩(满分100分)。
Final_Score: 最终考试成绩(满分100分)。
Assignments_Avg: 所有作业的平均分(满分100分)。
Quizzes_Avg: 平均测验分数(满分100分)。
参与评分:根据课堂参与情况的评分(0-10)。
项目评分: 项目评估得分(满分100分)。
总分:所有成绩的加权总和。
成绩:字母等级(A, B, C, D, F)。
每周学习小时数:每周平均学习小时数。
课外活动:学生是否参加课外活动(是/否)。
家庭互联网接入:学生是否在家有互联网接入?(是/否)。
父母教育水平:父母的最高教育水平(无,高中,学士,硕士,博士)。
部分省略
出勤情况不计入总分或权重非常小。
总分=(期中考试0.15)+(期末考试0.25)+(作业平均分0.15)+(测验平均分0.1)+(参与度0.05)+(项目得分0.3)
数据集包含:
缺失值(空值):在某些记录中(例如,出勤、作业或家长教育水平)。
某些数据中的偏见(例如:评分偏见,例如,出勤率高的学生会获得稍微更好的成绩)。
分布不均衡(例如,某些部门的学生更多)。
注意:
数据集是真实的,但作者故意加入了一些偏见,以增加挑战。
某些列已被掩码化,因为数据所有者要求如此。 "Students_Grading_Dataset_Biased.csv" 包含了有偏见的数据集 "Students Performance Dataset" 包含了掩码化数据集
学生抑郁数据集,数据集编译了旨在理解,分析和预测学生抑郁水平的广泛信息 它是为心理学,数据科学和教育研究的研究而设计的,提供了对有助于学生心理健康挑战并有助于设计早期干预策略的因素的见解
概述
该数据集编译了旨在理解,分析和预测学生抑郁水平的广泛信息。它是为心理学,数据科学和教育研究的研究而设计的,提供了对有助于学生心理健康挑战并有助于设计早期干预策略的因素的见解。
数据描述
格式: CSV(每行代表个人学生)
特征:
ID:每个学生的唯一标识符
人口统计:年龄,性别,城市
学术指标: CGPA,学术压力,学习满意度
生活方式与福祉:睡眠时间,饮食习惯,工作压力,工作满意度,工作/学习时间
其他因素:职业,学位,财务压力,精神疾病家族史以及学生是否有自杀念头
目标变量:
抑郁状态:二进制指标(0/1或是/否)表示学生是否正在经历抑郁症
关键亮点
多方面数据:整合人口,学术和生活方式因素,以提供对学生健康的全面视图。
道德考虑:数据收集遵守严格的道德标准,重点是隐私,知情同意和匿名化。
研究与实践应用:理想的理想选择预测模型,进行统计分析并为教育环境中的心理健康干预策略提供信息。
用法和潜在应用
学术研究:探索学术压力与心理健康趋势之间的相关性。
数据科学项目:建立预测模型,以根据各种指标识别高危学生。
政策制定:告知学术机构内有针对性的心理健康支持计划的制定。
道德考虑:由于数据的敏感性,请确保任何分析或已发表的结果尊重隐私和道德准则。该数据集的用户在解释和共享见解时应注意道德含义。
AI开发者生产力数据集,通过跟踪行为、咖啡因、睡眠和人工智能使用情况来量化开发人员的生产力
数据集模拟了AI开发人员在500天内的生产力,捕捉了深度工作、干扰、咖啡摄入量和代码质量之间的微妙互动。为了测试机器学习的极限,这个数据融合了行为、生理和生产力指标,以允许高级预测建模、回归、聚类和时间序列分析。
数据指标:
hours_coding 总共花费在软件开发工作上的专注时间(0-12小时)。
coffee_intake_mg 每日咖啡因摄入量(毫克,0-600毫克)。
distractions 干扰源的数量(例如,会议,Slack通知)(0-10)。
sleep_hours 前一晚的睡眠时间(3-10小时)。
commits 一天中推送的代码提交次数(0-20)。
bugs_reported 当天编写代码中报告的错误数量(0-10)。
ai_usage_hours 使用AI工具(例如,ChatGPT,Copilot)的时间(0-12)。
cognitive_load 自我报告的精神压力,用1到10的 scale 来表示。
task_success 目标列 — 每日生产力目标是否达成(0/1)。
建议的机器学习任务
二元分类 (task_success)
回归(例如,预测cognitive_load)
工作模式的聚类
相关性分析与特征重要性
时间序列模拟 & 移动平均值(适用于合成日期列)
探索性数据分析 (EDA)
灵感
咖啡因如何影响代码中的错误?
你能否根据干扰和AI工具的使用来预测一个开发人员今天是否能成功?
在AI使用和原始编码时间之间,最佳的平衡是什么?
这个数据集是使用Python和NumPy基于观察到的软件开发人员行为模式合成生成的。尽管是虚构的,但数据分布被设计成模拟合理的开发人员活动,融合了生产力指标和行为科学。
美国加州Boore(2003)钻孔VS30数据集
VS30指地表以下30米深度内时间平均的剪切波速,是地震学和地震工程学领域国际通用的进行场地条件分类进而表征地震动场地效应的主要参数。上世纪90年代被提出以来,VS30广泛地应用于地震动衰减关系、地震危险性分析、地震风险评估等诸多领域。
数据内容未进行更改。
数据范围:美国加州地区
数据格式:Microsoft Excel
共享协议:CC BY
https://creativecommons.org/licenses/by/4.0/
引用:Boore, D. M. (2003). A compendium of P- and S-wave velocities from surface-to-borehole logging: Summary and reanalysis of previously published data and analysis of unpublished data, U.S. Geol. Surv. Open-File Rept. 03-191, 13 pp.
土耳其AFAD强震动台网台站VS30数据及土耳其及周边地区VS30地图数据集
数据量:1680+
VS30指地表以下30米深度内时间平均的剪切波速,是地震学和地震工程学领域国际通用的进行场地条件分类进而表征地震动场地效应的主要参数。上世纪90年代被提出以来,VS30广泛地应用于地震动衰减关系、地震危险性分析、地震风险评估等诸多领域。
数据内容未进行更改。
数据范围:土耳其及受地震影响的周边区域
数据格式:Microsoft Excel
共享协议:CC BY-SA
https://creativecommons.org/licenses/by-sa/4.0/
引用: Zhou J. (2023). VS30 Data of Turkey AFAD Strong-Motion Network Stations and VS30 Map of Turkey and Adjacent Area Related to the Feb. 2023 Turkey Earthquake Sequence, Technical Report, DOI: 10.13140/RG.2.2.24389.12007
中国大陆工程场地VS30地图2024新版数据集
数据量:1040000+
该地图数据基于中国大陆的7939个工程钻孔和SRTM1km精度的DEM产出的地形坡度数据,应用2024年更新的地形坡度协同克里金VS30拟合模型(SCK模型)拟合产出。
地图VS30在有实测钻孔数据的位置收敛于实测数据;地图给出了VS30估计误差的分布,误差随着与实测钻孔距离的缩小趋近为零;地图合理地区分了山谷、山前、平原等不同地貌的VS30差异特征;地图覆盖中国大陆全境,空间分辨率为30弧秒(约900米)
VS30指地表以下30米深度内时间平均的剪切波速,是地震学和地震工程学领域国际通用的进行场地条件分类进而表征地震动场地效应的主要参数。上世纪90年代被提出以来,VS30广泛地应用于地震动衰减关系、地震危险性分析、地震风险评估等诸多领域。
数据内容未进行修改。
文件包含2022旧版地图数据。
数据范围:中国大陆地区
数据格式:DBF
数据精度:30 弧秒
共享协议:CC BY
https://creativecommons.org/licenses/by/4.0/
引用:Zhou, J., L. Li, X. Li, N. Xi, and X. Tian (2024). A 30 Arcsec Resolution VS30 Map for Mainland China Using Refined Topographic Slope-Based Cokriging (SCK) Model, Bull. Seismol. Soc. Am. XX,1–17, doi: 10.1785/0120240104
腾讯TCEHY每日股价数据集(2010-2025年)
数据量:2010-1-5 —2025-7-23 (交易日数据)
数据集概述
该数据集提供了腾讯公司(TCEHY)从2010-1-5 到2025-7-23的历史股票价格变动的全面记录。作为一家领先的科技巨头,腾讯的股票受到投资者、分析师和研究人员的广泛跟踪。该数据涵盖了每日交易活动,可用于财务分析、机器学习项目和教育目的,对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用。
数据介绍:
日期: 交易日期 (YYYY-MM-DD)
开盘: 开盘价
最高: 交易日内达到的最高价格
最低: 交易日最低价
收盘: 收盘价
Adj Close: 调整收盘价(考虑了股息和股票拆分)
交易量: 某一天的总交易量
该数据集的价值在于:
时间序列分析: 分析股票价格随时间变化的趋势和模式。
预测: 使用统计或机器学习技术建立预测模型,以预测未来的股票价格。
技术分析:应用传统的金融指标和策略(例如,移动平均线、RSI、MACD)来研究价格走势。
事件影响研究:研究外部事件(收益发布、产品发布、宏观经济新闻)对股价的影响。
投资组合模拟: 使用历史数据对交易策略进行回测或模拟投资组合。
教育目的: 教授或学习有关金融市场、数据处理和数据可视化。
示例分析
可视化几十年来的股价增长。
比较在重大市场事件(崩盘、繁荣等)中的股票表现。
分析财报或产品发布对价格走势的影响。
将交易量与价格波动相关联。
目标检测-番茄叶病数据集YOLOv8格式
该数据集是为番茄叶片病害检测而设计的,使用YOLOv8。它包含10,853张标注图像,涵盖了10个不同类别的番茄叶片状态,包括病毒性、细菌性和真菌性感染,以及健康的叶片。
数据集详情
总图像数:10,853
训练集:7,842张图像(72%)
验证集:1,960张图像(18%)
测试集:1,051张图像(10%)
图像分辨率:调整为640x640(拉伸)
标注格式:YOLOv8
10个类别
Bacterial Spot 番茄细菌性斑点病
Early Blight 番茄早疫病
Late Blight番茄晚疫病
Leaf Mold番茄叶霉病
Septoria Leaf Spot番茄叶斑病
Tomato Spider Mites (Two-Spotted Spider Mite)番茄红蜘蛛(双斑红蜘蛛)
Target Spot番茄靶斑病
Yellow Leaf Curl Virus番茄黄化曲叶病毒
Healthy番茄健康
Mosaic Virus番茄花叶病毒
预处理已应用
像素数据的自动方向 (EXIF元数据已去除)
图像调整为640x640(拉伸)
未进行任何增强处理
大学生就业因素数据集,这个数据集包含了10,000名大学生的学术和职业档案,重点是影响安置结果的因素 它包括智商、学术成绩、CGPA、实习、沟通技巧等特征
数据量:10000
这个数据集包含了10,000名大学生的学术和职业档案,重点是影响安置结果的因素。它包括智商、学术成绩、CGPA、实习、沟通技巧等特征。
列名描述
学院编号 学院的独特编号(例如,CLG0001到CLG0100)
智商 学生的智商得分(通常围绕100正态分布)
上学期成绩 上学期的平均绩点(范围:5.0到10.0)
累积平均绩点 累积平均绩点(范围:~5.0至10.0)
学业成绩 年度学术评分(满分:10分)
实习经验 学生是否完成过任何实习(是/否)
课外活动评分 参与课外活动(0到10分)
沟通技巧 软技能评分(1到10的评分标准)
项目完成 完成的学术/技术项目数量(0到5)
安置 最终安置结果(是=已安置,否=未安置)
该数据集适用于:
预测性安置结果建模
分类教育练习
特征重要性分析
端到端机器学习项目
使用案例
分类建模(逻辑回归、决策树、随机森林等)
探索性数据分析 (EDA)
特征工程与选择
模型评估实践
电动汽车规格数据集(2025),该数据集提供了现代电动汽车(EV)的规格和性能指标的全面集合 它旨在支持从事数据科学、机器学习、汽车市场研究、可持续性研究或电动汽车采用分析的研究人员、分析师、学生和开
数据量:478
该数据集提供了现代电动汽车(EV)的规格和性能指标的全面集合。它旨在支持从事数据科学、机器学习、汽车市场研究、可持续性研究或电动汽车采用分析的研究人员、分析师、学生和开发人员。
数据集中的每一行代表一个特定的电动汽车型号,并包含丰富的属性,涵盖:
核心属性:
品牌和型号:电动汽车的制造商和具体铭牌。
车身类型: 分类如掀背车、SUV、轿车等。
细分市场: 车辆细分市场(例如,紧凑型、中型、豪华型)。
电池和续航:
电池容量 (千瓦时): 电池的总能量容量。
电池单元数量和电池类型: 技术电池信息,如有。
效率 (Wh/km): 车辆的能耗率。
续航里程 (公里): 预估满电续航里程。
收费详情:
快速充电功率 (千瓦): 最大支持的直流快速充电功率。
快速充电端口类型:连接器标准(例如,CCS,CHAdeMO)。
性能:
最高时速 (公里/小时): 车辆的最大速度。
0–100 公里/小时 加速时间 (秒): 静止状态下加速到 100 公里/小时所需时间。
扭矩 (Nm): 最大扭矩输出,如适用。
实用规格:
牵引能力(千克): 牵引能力,如适用。
货物体积 (L): 行李空间,有时是近似值或以其他单位表示。
座位: 总座位容量。
尺寸:
长、宽、高(毫米): 车辆的实际占用空间。
技术信息:
动力系统: 动力传动配置(例如,全轮驱动,后轮驱动,前轮驱动)。 来源网址: 每辆车的参考链接(用于抓取)。
数据质量与清理说明:
所有数值字段已清理并转换为适当的 数据类型(浮点数、整数)。
对于一些技术属性,如牵引能力以及电池单元数量,由于数据无法可靠提取,缺失值仍然存在。
用例:
电动汽车趋势分析与可视化
市场比较工具
机器学习模型的特征工程
车辆性能预测
清洁能源采用见解
2025年数据科学、人工智能和机器学习职位的薪资数据集,该数据集提供了对数据科学、机器学习和 人工智能角色全球薪资趋势的全面了解 通过结合市场研究和公开数据来源精心整理,包括AIJobs薪酬调查(
数据量:145000+
该数据集提供了对数据科学、机器学习和 人工智能角色全球薪资趋势的全面了解。
通过结合市场研究和公开数据来源精心整理,包括AIJobs薪酬调查(CC0许可)、365DataScience、Payscale、KDnuggets、ZipRecruiter等,该数据集反映了全球各地的真实薪酬模式。
数据来源:
aijobs.net Salary Dataset (CC0)
365datascience.com
Payscale
KDnuggets
ZipRecruiter
Wellfound (AngelList)
无论你是数据科学家、人工智能从业者、学生、招聘人员还是行业研究员,这个数据集都旨在支持:
工资预测和机器学习建模
全球市场基准测试
职业决策与谈判
远程工作趋势分析
商业智能仪表板和可视化
2026年QS世界大学排名,包含官方的2026年QS世界大学排名,覆盖1,501所机构遍布全球 它包括用于评估大学相对地位的全面表现数据和排名指标
数据量:1500+
该数据集包含官方的2026年QS世界大学排名,覆盖1,501所机构遍布全球。它包括用于评估大学相对地位的全面表现数据和排名指标。
每一行代表一所大学,并包括其当前和之前的排名、综合评分以及QS用来计算最终排名的多个个人表现指标。
特征层面的解释
一般信息
2026年排名:该大学在2026年QS排名中的排名。
上一年排名:该大学在上一年(2025年)的排名。
机构名称:大学或机构的全称。
国家/地区:机构所在的国家。
地区:地理区域(例如,欧洲、美洲、亚洲)。
规模:根据学生人数估算的大学规模(例如,S,M,L,XL)。
重点:该机构的学术重点(例如,CO = 综合性,FC = 专注性)。
研究:研究强度水平(例如,VH = 非常高)。
状态:机构类型(例如,公立,私立非营利)。
绩效指标(得分和排名)
AR 分数 / 排名:学术声誉 — 基于全球学术调查。
ER SCORE / RANK:雇主声誉 — 基于雇主反馈。
FSR 分数 / 排名:生师比 — 评估教学投入。
CPF 分数 / 排名:每教师引用次数 —— 衡量研究产出和质量。
国际教师比率得分/排名:国际教师比率 — 国际教师所占的比例。
ISR 分数 / 排名:国际学生比例 — 国际学生百分比。
ISD 得分 / 排名:国际学生多样性 — 国际学生之间的多样性。
IRN SCORE / RANK:国际研究网络——全球合作强度。
EO 得分 / 排名:就业成果 — 毕业生在劳动力市场上的表现如何。
SUS SCORE / RANK:可持续性 — 评估环境和社会影响举措。
总分:用于确定最终大学排名的综合评分。
这个数据集非常适合:
探索性数据分析 (EDA)
区域和机构比较
高等教育研究与政策分析
机构的聚类和分割
预测建模(例如,预测排名或分数)
全球学术趋势可视化
电商用户行为分析数据集,旨在帮助研究人员、数据科学家和营销人员了解消费者在各种类别中的购买行为 通过分析此数据集,用户可以识别关键趋势、划分客户群体,并基于数据做出决策,以改进产品、营销策略和客户参与
数据量:1000
主要特点:
客户人口统计:了解年龄、收入、性别和教育水平,以便更好地进行细分和有针对性的营销。
购买行为:包括购买金额、频率、类别和渠道偏好,以评估消费模式。
客户忠诚度:品牌忠诚度、广告参与度和忠诚度计划会员资格等功能可深入了解长期客户保留率。
产品反馈:客户评级和满意度水平可用于分析产品质量和客户情绪。
决策:花在产品研究上的时间、决策时间和购买意向反映了客户如何做出购买决策。
对购买的影响:包括社交媒体影响、折扣敏感度和退货率等因素,以分析外部因素如何影响购买行为。
列概述:
Customer_ID:每个客户的唯一标识符。
Age:客户的年龄(整数)。
Gender:客户的性别(分类:男、女、非二元性别、其他)。
Income_Level:客户的收入水平(分类:低、中、高)。
Marital_Status:客户的婚姻状况(分类:单身、已婚、离异、丧偶)。
Education_Level:最高受教育程度(分类:高中、学士、硕士、博士)。
Occupation:客户的职业(分类:各种职位)。
Location:客户的位置(城市、地区或国家)。Purchase_Category:所购产品的类别(例如,电子产品、服装、杂货)。
Purchase_Amount:购买期间花费的金额(小数)。Frequency_of_Purchase:每月购买次数(整数)。
Purchase_Channel:购买方式(分类:在线、店内、混合)。
品牌忠诚度:对品牌的忠诚度(1-5 级)。
产品评级:客户对所购产品的评级(1-5 级)。
产品研究时间:研究产品所花费的时间(整数,小时或分钟)。
社交媒体影响:社交媒体对购买决策的影响(分类:高、中、低、无)。
折扣敏感度:对折扣的敏感度(分类:非常敏感、有点敏感、不敏感)。
退货率:退货产品百分比(小数)。
微软MSFT每日股价数据集,该数据集提供了微软公司(MSFT)从1986-3-13到2025-7-15的历史股票价格变动的全面记录 作为一家领先的科技巨头,微软的股票受到投资者、分析师和研究人员的跟踪
数据量:1986-3-13 —2025-7-15 (交易日数据)
该数据集提供了微软公司(MSFT)从1986-3-13到2025-7-15的历史股票价格变动的全面记录。作为一家领先的科技巨头,微软的股票受到投资者、分析师和研究人员的广泛跟踪。该数据涵盖了每日交易活动,可用于财务分析、机器学习项目和教育目的,对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用。
数据介绍:
日期: 交易日期 (YYYY-MM-DD)
开盘: 开盘价
最高: 交易日内达到的最高价格
最低: 交易日最低价
收盘: 收盘价
Adj Close: 调整收盘价(考虑了股息和股票拆分)
交易量: 某一天的总交易量
该数据集的价值在于:
时间序列分析: 分析亚马逊股票价格随时间变化的趋势和模式。
预测: 使用统计或机器学习技术建立预测模型,以预测未来的股票价格。
技术分析:应用传统的金融指标和策略(例如,移动平均线、RSI、MACD)来研究价格走势。
事件影响研究:研究外部事件(收益发布、产品发布、宏观经济新闻)对亚马逊股价的影响。
投资组合模拟: 使用历史数据对交易策略进行回测或模拟投资组合。
教育目的: 教授或学习有关金融市场、数据处理和数据可视化。
示例分析
可视化微软几十年来的股价增长。
比较MSFT在重大市场事件(崩盘、繁荣等)中的股票表现。
分析财报或产品发布对价格走势的影响。
将交易量与价格波动相关联。
亚马逊每日股价数据集(1997-2025年),数据集包含从1997-5-15到2025-7-16的亚马逊AMZN历史每日价格数据
数据集概述
该数据集包含从1997-5-15到2025-7-16的亚马逊AMZN历史每日价格数据。对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用。
数据介绍:
日期: 交易会的日期(格式为 YYYY-MM-DD)。
开盘价: 亚马逊股票在该日交易的开盘价。
最高: 在交易期间达到的最高价格。
最低: 一天中的最低价格。
收盘价: 该日亚马逊股票的收盘价。
调整收盘价: 调整后的收盘价,考虑了任何可能影响价格的公司行为(例如,股息、股票拆分)。
交易量: 该日交易的股票总数。
该数据集的价值在于:
时间序列分析: 分析亚马逊股票价格随时间变化的趋势和模式。
预测: 使用统计或机器学习技术建立预测模型,以预测未来的股票价格。
技术分析:应用传统的金融指标和策略(例如,移动平均线、RSI、MACD)来研究价格走势。
事件影响研究:研究外部事件(收益发布、产品发布、宏观经济新闻)对亚马逊股价的影响。
投资组合模拟: 使用历史数据对交易策略进行回测或模拟投资组合。
教育目的: 教授或学习有关金融市场、数据处理和数据可视化。
全球地震事件数据集(2000-2025),数据集包含175000+条记录,该数据集包含2000年至2025年间的详细全球地震记录,数据来源于美国地质调查局(USGS) 它非常适合用于机器学习项目
概述
数据集包含175000+条记录,该数据集包含2000年至2025年间的详细全球地震记录,数据来源于美国地质调查局(USGS)。它非常适合用于机器学习项目、时空分析和地震模拟——特别是那些专注于地震震级预测和基于位置的地震模式建模的项目。
数据来源:美国地质调查局(USGS)
原始数据由美国地质调查局(USGS)通过全球地震台网收集和维护。每个地震事件由传感器检测,其属性(包括震级、深度、位置和时间)由地震学家计算和审核。然后通过USGS地震目录发布这些事件,并附带错误估计、站覆盖和审核状态等元数据。
列名描述
time 地震的日期和时间(协调世界时)
latitude 震中纬度
longitude 震中经度
depth 地震深度(公里)
mag 报道的震级
magType 震级类型(例如,mb、ml、mw)
nst 报告该事件的地震台数量
gap 地震台之间的方位间隙(度)
dmin 到最近地震台的最小距离(度)
rms 幅度残差的均方根
net 报告该事件的地震网络
id 唯一事件ID
updated 记录的最后更新时间戳
place 事件的人类可读位置
type 事件类型(例如,地震,采石场爆炸 水平误差:震中位置的不确定性(公里)
horizontalError 水平误差:水平位置的不确定性 (公里)
depthError 深度误差:深度的不确定性(公里)
magError 震级误差:震级的不确定性
magNst 震级台站数:用于震级计算的台站数
status 状态:事件的审核状态(例如,已审核,自动)
locationSource 位置来源:位置数据的来源
magSource 震级来源:震级数据的来源
潜在用例
利用机器学习/人工智能进行地震震级预测
时空地震趋势分析
灾害风险模拟工具
学术和黑客松地质科学、人工智能和灾害管理研究项目
全国地貌数据WGS1984
全国地貌数据是一个包含中国地貌信息的压缩文件,它使用了全球广泛接受的WGS1984坐标系统。
WGS1984(World Geodetic System 1984)是地球定位系统的基础,主要用于GPS导航、地理信息系统(GIS)以及航空和海洋定位等应用。这个坐标系统提供了一个统一的标准,使得不同位置的数据可以在全球范围内进行准确的比较和集成。
该压缩包内的数据主要涉及中国各地的地貌特征,包括山脉、河流、平原、盆地、丘陵、峡谷等各种地形类型。这些地貌数据是通过测绘和遥感技术获取的,它们以数字形式存储,可以方便地进行数据分析、制图和空间规划。数据的属性表包含了地貌代码,这是对各种地貌类型的一种标准化编码方式,使得数据的管理和分析更为高效。
地貌代码的设计基于1:400万比例尺的地貌图,这是一个较大的比例尺,通常用于国家或区域级别的地理研究。1:400万意味着地图上的1单位长度代表实际地面上的400万相同单位长度。这种比例尺虽然不能展示非常精细的地貌细节,但足以覆盖广阔的地理区域,且能清晰展现地形的大致特征。
地貌代码采用6位数字码,这是一种简明且易于理解的编码方法。每个代码由六个数字组成,可能的组合范围从000000到999999,提供了足够的空间来区分多种不同的地貌类型。具体的编码规则可能涉及到地貌类型、地形特征、海拔高度等因素,每一段数字可能对应着特定的分类标准,如前两位可能表示大类,中间两位表示亚类,后两位可能表示更具体的特征。
在使用这个压缩包时,你需要先将其解压,然后可能需要用到GIS软件(如ArcGIS、QGIS等)来打开和查看这些数据。这些软件能够读取和处理这些地貌数据,并将其以地图的形式呈现出来,用户可以通过颜色、符号等视觉元素直观地了解中国的地貌分布。
通过分析这些数据,科研人员、政策制定者和规划师可以更好地理解中国的地形特征,从而进行环境评估、灾害
肺癌数据集,该数据集包含3000例真实数据,与各种可能影响肺癌风险的因素相关的信息
数据量:3000
该数据集包含与各种可能影响肺癌风险的因素相关的信息。数据包括人口统计信息、生活方式习惯和与肺癌常见的症状。该数据集可用于探索相关性、建立预测模型和识别潜在的肺癌风险因素。
数据来源:胡迈尔·穆尼尔,计算机科学系,伊斯兰堡COMSATS大学。
数据列介绍:
列: 性别: 个人的性别(例如,M表示男性,F表示女性)。
年龄: 个人的年龄(以年为单位)。
吸烟: 表示个人是否吸烟(是/否)。
手指发黄: 表示个人是否手指发黄(是/否)。
焦虑: 表示个人是否患有焦虑症(是/否)。
同伴压力: 表示个人是否受到同伴压力的影响(是/否)。
慢性病: 表示个人是否患有任何慢性病(是/否)。
疲劳: 表示个人是否感到疲劳(是/否)。
过敏: 表示该个人是否有过敏反应(是/否)。
喘息: 表示该个人是否有关喘症状(是/否)。
饮酒: 表示该个人是否饮酒(是/否)。
咳嗽: 表示该个人是否有关咳嗽症状(是/否)。
呼吸困难: 表示该个人是否感到呼吸困难(是/否)。
***吞咽困难:***表示该个人是否感到吞咽困难(是/否)。
胸痛: 表示该个人是否经历胸痛(是/否)。
肺癌: 表示该个人是否被诊断为肺癌(是/否)。
示例记录
性别:男 年龄:65 吸烟:是 手指发黄:是 焦虑:是 同伴压力:否 慢性病:否 疲劳:是 过敏:否 哮喘:否 饮酒:否 咳嗽:否 呼吸困难:否 吞咽困难:否 胸痛:是 肺癌:否
用法
该数据集对旨在了解肺癌风险因素和预测因子的研究人员和数据科学家有价值。
它可以用于:
统计分析以找出不同因素与肺癌之间的相关性。
建立机器学习模型,根据给定的特征预测肺癌风险。
识别高风险群体和潜在的预防措施。
乳腺癌数据集,数据集包含569个实例(行)和32个列,包括一个ID列、一个诊断标签和30个描述细胞核特征的数值特征 每个实例代表一个单独的乳腺肿块样本,特征是从数字化的FNA图像中计算得出的
数据量:569
数据集包含569个实例(行)和32个列,包括一个ID列、一个诊断标签和30个描述细胞核特征的数值特征。每个实例代表一个单独的乳腺肿块样本,特征是从数字化的FNA图像中计算得出的。
这个数据集源自广泛用于医学诊断机器学习基准的威斯康星乳腺癌诊断数据,包括357例良性病例和212例恶性病例。它包含来自乳腺组织样本的细胞核的详细测量数据,能够将肿瘤分类为良性(非癌性)或恶性(癌性)。该数据集特别适用于开发和测试机器学习模型,如逻辑回归、支持向量机或深度神经网络,以帮助早期和准确地检测乳腺癌。
数据来源:W. Nick Street,计算机科学系,威斯康星大学。
数据列介绍:
30个特征根据细胞核的特征分为三个主要类别:
平均值:测量值的平均值(例如,平均半径,平均纹理)。
标准误差(SE):测量值的变异(例如,半径的标准误差,面积的标准误差)。
最差:测量值中最大的(最差)值(例如,最差半径,最差平滑度)。
每个类别包括10个具体的测量指标:
半径(从中心到周线上点的距离的平均值)
纹理(灰度值标准差)
周长
区域
光滑度(半径长度的局部变化)
紧凑度 (周长² / 面积 - 1.0)
凹度(轮廓凹部的严重程度)
凹点(轮廓的凹部数量)
对称
分维(“海岸线近似” - 1)
潜在用例
机器学习:训练分类模型(例如,随机森林、支持向量机或神经网络)以预测肿瘤恶性。
特征工程:探索特征之间的相关性(例如,半径和面积),以识别恶性肿瘤的关键预测因子。
数据可视化:创建可视化(例如,散点图、热图)以理解特征分布和关系。
医学研究:通过分析细胞核特征以获得诊断见解,支持计算病理学研究。
教育工具:非常适合教授数据科学概念,例如预处理、模型评估和交叉验证。
肝病患者记录数据集,数据集包含414名肝病患者记录和165名非肝病患者真实记录
数据量:579
由于过度饮酒、吸入有害气体、摄入受污染食物、泡菜和药物,肝病患者一直在不断增加。这个数据集被用来评估预测算法,以减轻医生的负担。
这个数据集包含414名肝病患者记录和165名非肝病患者记录。"Dataset"列是一个用于将组分为肝病患者(肝病)或非患者(无病)的类别标签。这个数据集包含439名男性患者记录和140名女性患者记录。
年龄超过89岁的患者都归为90岁。
数据收集:印度安得拉邦东北部。
数据来源:Lichman, M. (2013). 伊里湾, 加利福尼亚: 加利福尼亚大学欧文分校, 信息与计算机科学学院.
数据列介绍:
患者的年龄
患者的性别
总胆红素
直接胆红素
碱性磷酸酶
丙氨酸氨基转移酶
天冬氨酸氨基转移酶
总蛋白质
白蛋白
白蛋白与球蛋白比率
Dataset:用于将数据分为两部分的字段(肝病患者,或无病患者)
DevExpress24.2.5全套
DevExpress24.2.5全套
亚马逊销售数据集,该数据集包含1千多个亚马逊产品的评分和评论数据,这些数据根据亚马逊官方网站上的详细信息列出
数据量:1351
功能
product_id - 产品ID
产品名称 - 产品的名称
类别 - 产品类别
折扣价 - 产品的折扣价
实际价格 - 产品的实际价格
折扣百分比 - 该产品的折扣百分比
评分 - 产品评分
评分人数 - 投票给亚马逊评分的人数
关于产品 - 产品描述
用户ID - 为该产品撰写评论的用户的ID
用户名 - 对该产品撰写评论的用户姓名
评论ID - 用户评论的ID
评论标题 - 简短评论
评论内容 - 长评论
img_link - 产品图片链接
product_link - 产品官方网站链接
灵感
亚马逊是一家美国科技跨国公司,其业务兴趣包括电子商务,他们在那里购买和存储库存,并负责从发货和定价到客户服务和退货的一切事情。我创建这个数据集是为了让人们可以玩弄这个数据集,并如下面所述进行许多事情。
数据集操作指南
理解数据集层次结构
数据预处理
探索性数据分析
数据可视化
构建推荐系统
这是一个关于在这个数据集上可以执行的一些操作的列表。
不仅限于所提到的那些内容,还可以做更多的事情。