鸭梨山大。-CSDN博客

原创 linux命令-whereis与which命令详解

whereis 和 which 都是 Linux 中用于定位命令的工具。whereis 是“全能档案员”，专门查找命令的二进制文件、手册页和源码；which 是“路径追踪器”，只回答一个问题。

2025-03-18 09:00:00 1077

cp 是 Linux 中基础的本地文件复制工具，主要用于简单、一次性任务，如复制文件/目录、创建硬链接或软链接，支持递归复制和保留部分文件属性（如权限、时间戳），但无法高效处理增量更新或远程传输。而 rsync 是高级同步工具，专为高效数据传输设计，支持增量同步（仅传输变化部分）、本地与远程路径（如 SSH）、带宽控制、断点续传、文件排除规则及完整元数据保留（包括 ACL 和扩展属性）。rsync 在频繁更新、跨网络备份或大规模数据迁移中效率显著，而 cp 更适合快速完成无需复杂逻辑的本地复制任务。

2025-03-17 09:00:00 923

原创 linux命令-wget与curl命令详解

wget：专注于批量下载和离线使用（如镜像网站）。 curl：专注于协议交互和 API 测试（支持更多协议和方法）

2025-03-16 21:59:16 1626

原创 linux命令-more与less命令详解

在Linux命令行环境下，less与more虽同为分页工具，但定位与能力存在显著差异。**more作为早期文本查看器，仅支持逐屏向下浏览和简单搜索，适合快速查看小型文件，但因其单向操作特性和全文件加载机制，存在无法回溯内容、内存占用过高的局限。less**则通过双向滚动（支持上下翻页/跳转）、正则表达式搜索、动态日志追踪（类似tail -f）等交互功能，配合流式加载技术（仅缓存可视内容），彻底解决了内存瓶颈，可安全处理TB级文件。此外，less集成终端高亮、鼠标滚轮支持等现代化特性，逐步取代more成为主流

2025-03-15 09:00:00 1404

原创 linux命令-tar、gzip、bzip2、xz、zip命令详解

tar 是归档工具，用于将多个文件/目录打包为单一文件（不压缩），常结合压缩命令（如 gzip、bzip2、xz）生成 .tar.gz、.tar.bz2、.tar.xz 等压缩包，保留文件权限；gzip 压缩速度快但压缩率低，bzip2 压缩率更高但速度较慢，xz 压缩率最高但耗时最长；zip 则是独立归档压缩工具，跨平台兼容性好（生成 .zip），支持加密和分卷压缩，但压缩率通常低于 xz/bzip2，适合多系统共享文件。

2025-03-14 09:00:00 1088

原创 linux命令-ps与top详解

ps 和 top 的核心区别在于数据时效性与使用场景：ps 提供静态快照，通过命令参数灵活抓取瞬间的进程状态（如 ps aux 显示所有进程），适合脚本调用或一次性分析；top 则是动态实时监控工具，持续刷新系统资源（CPU、内存）和进程状态，支持交互操作（如按 P 排序、k 终止进程），适用于实时性能观察与故障排查。简而言之，ps 是精准的“快照相机”，top 是实时“监控仪表盘”，两者互补覆盖进程管理的不同需求。

2025-03-13 09:00:00 1159

原创 linux命令-findmnt、lsblk、mount使用指南

findmnt、lsblk、mount命令使用指南

2025-03-12 09:00:00 1156

原创 linux命令-netstat与ss 命令详解

netstat 全称是：network statistics，是一个用于监控、排除网络连接故障、路由表的命令行工具，它提供关于网络统计和 socket 连接的详细信息。ss 全称 Socket Statistics，是一个用于探究 Linux 上的套接字和网络连接的强大实用程序，它被用来替代老版的 netstat ，提供更快、更详细的信息输出。netstat属于 net-tools 工具包，通过读取 /proc/net 下的文件（如 /proc/net/tcp）来获取信息。在连接数较多时性能较差。

2025-03-11 09:00:00 1880

原创 linux命令-lsof与fuser 命令详解

lsof是一个功能强大的实用程序，可用于基于Linux和unix的系统，字面意思是“打开文件列表“。其主要功能是检索由不同运行进程打开的各种类型文件的详细信息。这些文件可以是普通文件、目录、块文件、网络套接字、命名管道等。

2025-03-10 14:34:21 1251

原创 linux命令-iptables与firewalld 命令详解

iptables是一个在 Linux 中的管理防火墙规则的命令行工具，它作为 Linux 内核的 netfilter 框架的一部分运行，以控制传入和传出的网络流量。与firewalld相比iptables是基于规则的，每个规则必须独立定义，firewalld是基于区域的，规则适用于预定义或自定义区域。iptables适合高度精细和手动的配置，firewalld动态规则更简单且更加用户友好。iptables需要刷新或重新启动才能应用更改，firewalld支持不间断的即时更改。iptables。

2025-03-08 09:00:00 2589

原创 linux命令-chage与find 命令详解

chage 修改用户密码过期信息。chage 可以更改密码修改之间的天数和上次更改密码的日期。系统使用此信息来确定用户何时必须修改其密码。chage 也可以设置帐户的过期时间。find是linux下最棒的命令之一，其查询功能非常强大。以下将详细介绍find的大多数用法：工作方式：其沿着文件层次结构向下遍历，匹配符合条件的文件，并执行相应的操作。

2025-03-07 09:00:00 1158

原创 linux命令-ulimit 命令详解

ulimit 是一个计算机命令，用于shell启动进程所占用的资源，参数形式有-H设置硬资源限制；-S 设置软资源限制；-a 显示当前所有的资源限制等

2025-03-06 14:07:58 2140

原创使用DiskGenius工具来实现物理机多硬盘虚拟化迁移

本文介绍使用DiskGenius工具来实现物理机迁移虚拟机，实现虚拟化。本次测试使用WIN7系统虚拟机进行模拟物理机多硬盘虚拟化迁移至另一台笔记本的vmware workstation上。

2025-03-03 15:18:40 1585

原创 spring boot 安全配置基线

SpringBoot是由Pivotal团队提供的基于Spring的全新框架。Spring Boot是一个用于快速构建基于Spring框架的Java应用程序的开源框架。它旨在简化Spring应用程序的开发过程，通过提供一种约定优于配置的方式，减少开发者对配置的需求，从而提高开发效率。SpringBoot并不是对Spring功能上的增强，而是提供了一种快速使用Spring的方式，简省了繁重的配置，并提供了各种启动器，使开发者能快速上手。

2025-02-27 09:00:00 1229

原创 chrome浏览器解决“您的浏览器受托管”“由贵单位管理”“由所属组织管理”问题

对于公司电脑来说，如果你们公司部署了策略，比如添加了一些重要的内网站点到书签里。那么不要试图取消，应该公私分明。对于家庭或个人电脑，第三方软件却将这个功能乱用，设置企业策略应用到了个人的电脑，导致浏览器显示：“浏览器有所属组织管理”。绝大多数情况下，这些策略是安全的，比如一个第三方软件是不需要使用企业策略的，但是有些第三方软件可能有特殊目的所以会添加企业策略。例如诸如LastPass这类密码管理器可能就会触发这类策略，导致用户在浏览器里看到由贵单位管理相关字样。

2025-02-26 15:21:11 6816 2

原创 centos 安全配置基线

CentOS 是一个广泛使用的操作系统，为了确保系统的安全性，需要遵循一系列的安全基线。

2025-01-17 15:02:55 1555

原创 ubuntu安全配置基线

Ubuntu安全基线是一系列系统最低安全要求的配置，旨在确保Ubuntu操作系统的安全性。

2025-01-16 16:43:42 1643

原创 windows 2012安全加固基线

Windows安全加固基线涉及多个方面，旨在提高系统的安全性，防止未经授权的访问和数据泄露。

2025-01-14 09:00:00 1183

原创 IIS安全配置基线

IIS（Internet Information Services）安全部署与安全配置基线是确保IIS服务器稳定运行、保护网站数据安全以及防范潜在安全风险的重要措施。以下是对IIS安全基线配置的详细扩展，涵盖了多个关键的安全实践

2025-01-13 11:21:45 871

原创 wireshark抓包工具新手使用教程

Wireshark是一款开源的网络协议分析工具，可用于捕获和分析网络数据包，帮助用户深入了解网络通信的情况，排查网络故障和安全问题。

2025-01-08 22:52:44 1561

原创 WebLogic安全基线

WebLogic是一个Java Enterprise Edition应用服务器，提供了强大的安全功能。本文介绍了WebLogic的安全基线规范

2025-01-07 15:17:55 1367

原创 Nacos版本升级，从版本1.3.0升级至2.4.1（修复多个版本漏洞）

Nacos版本过低，存在多个Nday漏洞，本文记录了Nacos从1.3.0到2.4.1的升级过程与需注意的踩坑要点。

2025-01-03 16:45:29 2455 1

原创 Apache MINA 反序列化漏洞CVE-2024-52046

攻击者通过向受信任的数据序列化过程中添加恶意数据，从而在序列化和反序列化过程中执行恶意代码的攻击漏洞。这种漏洞通常存在于使用序列化 (serialization) 机制存储和传输数据的程序中。

2025-01-02 15:51:52 867

原创 windows远程桌面无法连接，报错：“由于没有远程桌面授权服务器可以提供许可证，远程会话被中断。请跟服务器管理员联系”

windows远程桌面无法连接，报错：“由于没有远程桌面授权服务器可以提供许可证，远程会话被中断。请跟服务器管理员联系”

2024-12-31 09:00:00 4415 2

原创 windows remote desktop service 远程桌面RDS授权激活

本文以 windows Server 2016为例，系统默认远程桌面连接数是2个用户，如果多余两个用户进行远程桌面连接时，系统就会提示超过连接数，可以通过添加远程桌面授权解决。

2024-12-30 16:49:52 3689 1

原创 NPM组件包 Rspack部分版本内嵌恶意代码

Rspack是一个基于 Rust 编写的高性能 JavaScript 打包工具，它提供对 webpack 生态良好的兼容性，能够无缝替换 webpack，并提供闪电般的构建速度。

2024-12-27 08:30:00 260

原创 NPM组件包 vant部分版本内嵌挖矿代码

Vant 是一个轻量、可定制的移动端组件库，于 2017 年开源。目前 Vant 官方提供了 Vue 2 版本、Vue 3 版本和微信小程序版本，并由社区团队维护 React 版本和支付宝小程序版本。

2024-12-26 20:53:57 990

原创 MongoDB安全基线

MongoDB安全基线

2024-12-26 16:52:11 1185

原创 Jenkins安全部署规范及安全基线

Jenkins安全部署规范及安全基线

2024-12-24 16:42:51 1610

原创 Jenkins 任意文件读取(CVE-2024-23897)修复及复现

Jenkins是一个开源软件项目，是基于Java开发的一种持续集成工具，用于监控持续重复的工作，旨在提供一个开放易用的软件平台，使软件项目可以进行持续集成。

2024-12-24 14:57:39 1390

原创 Apache Struts ＜ 6.4.0 路径穿越文件上传RCE漏洞【PoC已公开】

Apache Struts是美国阿帕奇（Apache）基金会的开源Web项目，是一套用于创建企业级Java Web应用的开源MVC框架。受影响的版本中，Apache Struts 中FileUploadInterceptor逻辑存在缺陷，由于上传参数绑定过程中存在OGNL解析，攻击者可利用OGNL表达式修改文件名实现参数绑定，控制文件上传参数导致路径遍历，从而上传恶意文件到服务器执行任意代码。

2024-12-17 15:19:30 997

原创 Redis安全部署规范与安全基线

Redis安全部署规范与安全基线

2024-12-17 10:47:16 282

原创 MySQL5.6部署规范及安全基线

MySQL5.6部署规范及安全基线

2024-12-16 17:17:34 1074

原创 Apache_httpd安全部署规范与安全基线

apache_httpd安装部署规范与安全基线

2024-12-10 15:07:24 466

原创 Tomcat安全部署规范与安全基线

tomcat安全部署规范与安全基线

2024-12-04 14:41:22 429

原创 Nginx中间件部署规范与安全基线

nginx中间件安全基线

2024-12-02 13:44:57 1179 1

原创服务器windows server 2019 系统图解安装

1、下载windows server 2019 ISO镜像文件；2、下载对应服务器的raid阵列卡驱动和服务器的其他硬件驱动；3、使用系统启动盘制作工具将下载好的windows server 2019 ISO镜像文件刻录到光盘或U盘当中；

2023-03-06 20:54:28 19620 2

原创 jQuery 资源管理错误漏洞CVE-2021-21252附修复方案

jQuery是美国John Resig个人开发者的一套开源、跨浏览器的JavaScript库。该库简化了HTML与JavaScript之间的操作，并具有模块化、插件扩展等特点。jQuery 1.19.3版本之前存在资源管理错误漏洞，该漏洞源于jquery验证包含一个或多个正则表达式，这些正则表达式容易受到ReDoS(正则表达式拒绝服务)的攻击。1.在包含 jQuery和插件的页面上选择一个表单来验证并调用该validate方法。2.通过 requirejs 在你的模块中包含 jQuery 和插件。

2023-03-05 01:24:06 2362

原创 VMware vSphere Hypervisor (ESXi) 7.0U3g安装

按空格键(o)可进行dhcp或static选择，选择“set static IPV4 address and network conf iguration:”，设置静态IPV4地址和网络配置，配置完成后按“Enter”（1、选择U盘启动后会进入加载ESXi安装程序（正在加载ESXI安装程序，不需要进行操作，等待加载完成）；5、配置完成后，按“ESC”退出网络配置，此时会询问你是否保存，按Y确认保存更改；4、选择安装位置，选择一个安装ESXi的磁盘，按回车“Continue”；

2023-02-24 02:37:44 14762 4

原创 VMware ESXi OpenSLP堆溢出漏洞，附本次勒索软件ESXiArgs恶意文件分析（CNVD-2021-12321对标CVE-2021-21974）

近日以VMware ESXi服务器为目标的大规模勒索软件攻击正在席卷全球，包括法国、芬兰、加拿大、美国、意大利等多个国家数千台服务器遭到入侵。攻击者利用了2021年2月公开的高危漏洞（CNVD-2021-12321，），可以向WMware ESXi软件目标服务器427端口发送恶意构造的数据包，从而触发其OpenSLP服务堆缓冲区溢出，并执行任意代码，借以部署新的 ESXiArgs 勒索软件。一、漏洞详情VMware vSphere是美国威睿公司推出一套服务器虚拟化解决方案，包括虚拟化、管理和界面层。

2023-02-14 16:06:27 4397

中国癌症患者数据集，用于医学研究、生存预测建模和医疗差距分析数据包括肿瘤特征、治疗类型、生存状态和生活方式因素（如吸烟和饮酒）

数据量：10000 中国癌症患者数据，用于医学研究、生存预测建模和医疗差距分析。数据包括肿瘤特征、治疗类型、生存状态和生活方式因素（如吸烟和饮酒）。它反映了现实的癌症流行病学，具有较高的肺癌、胃癌和肝癌频率，并考虑了治疗和结果的地区差异。主要特点包括：覆盖中国主要省份的地理分布，按比例代表性。癌症类型、阶段和肿瘤大小与中国的流行病趋势一致。治疗方法（如手术、化疗、免疫治疗）和治疗次数。共病、基因突变数据（有意缺失5-10%的值）。生存结果和最长60个月的随访时间。数据描述：病人ID 性别年龄省种族肿瘤类型癌症分期诊断日期肿瘤大小转移治疗类型手术日期化疗疗程放射治疗会议生存状态后续月份吸烟状况饮酒基因突变合并症此数据集适用于机器学习模型、公共卫生研究、预测分析和学术研究——特别是在癌症结果预测、治疗效果评估和高级护理可及性公平性方面的研究。

2025-06-15

糖尿病预测数据集，该数据集是从患者那里收集的医疗和人口统计数据，以及他们的糖尿病状态（阳性或阴性）数据包括年龄、性别、身体质量指数（BMI）、高血压、心脏病、吸烟史、HbA1c水平和血糖水平等特征

数据量：100000 该数据集是从患者那里收集的医疗和人口统计数据，以及他们的糖尿病状态（阳性或阴性）。数据包括年龄、性别、身体质量指数（BMI）、高血压、心脏病、吸烟史、HbA1c水平和血糖水平等特征。该数据集可用于基于患者的医疗历史和人口信息建立机器学习模型，以预测患者是否患有糖尿病。这对于医疗专业人员在识别可能发展成糖尿病的患者以及制定个性化治疗计划方面非常有用。此外，该数据集还可供研究人员用于探索各种医疗和人口因素与发展成糖尿病的可能性之间的关系。数据介绍：性别年龄高血压心脏病吸烟史身体质量指数糖化血红蛋白水平血糖水平糖尿病

2025-06-19

学生表现因素数据集，该数据集全面概述了影响学生考试成绩的各种因素它包括学习习惯、出勤情况、家长参与以及其他影响学术成功方面的信息

数据量：6607 关于数据集描述该数据集全面概述了影响学生考试成绩的各种因素。它包括学习习惯、出勤情况、家长参与以及其他影响学术成功方面的信息。列描述属性描述学习时长每周学习的小时数。出勤出席课程的百分比。家长参与家长参与学生教育的程度（低、中、高）。资源访问教育资源的可用性（低、中、高）。课外活动参加课外活动（是，否）。睡眠小时数每晚平均睡眠时间（小时）。之前的成绩之前考试的分数。动机水平学生的学习动机水平（低，中，高）。互联网接入互联网接入的可用性（是，否）。辅导课程每月参加辅导课程的次数。家庭收入家庭收入水平（低，中，高）。教师质量教师质量（低、中、高）。学校类型上学类型（公立，私立）。同伴影响同伴对学业成绩的影响（正面、中性、负面）。体育活动每周平均体育活动小时数。学习障碍学习障碍的存在（是，否）。父母的教育水平父母的最高教育水平（高中，大学，研究生）。离家距离从家到学校的距离（近、适中、远）。性别学生性别（男，女）。考试成绩期末考试成绩。

2025-06-11

糖尿病指标数据集，这个原始数据集包含441,455个个体的回应，共有330个特征这些特征要么是直接向参与者提问的问题，要么是基于个人参与者回应的计算变量

数据介绍：数据集一：糖尿病_012 0 = 无糖尿病 1 = 糖尿病前期 2 = 糖尿病高血压 0 = 无高血压 1 = 高血压高胆固醇 0 = 无高胆固醇 1 = 高胆固醇胆固醇检查 0 = 5 年内未进行胆固醇检查 1 = 5 年内进行胆固醇检查体重指数身体质量指数吸烟者您一生中至少吸过 100 支香烟吗？[注：5 包 = 100 支香烟] 0 = 否 1 = 是中风（曾经被告知）你中风了。0 = 没有 1 = 有心脏病或心脏病发作冠心病 (CHD) 或心肌梗塞 (MI) 0 = 否 1 = 是身体活动过去 30 天内的体力活动 - 不包括工作 0 = 否 1 = 是水果每天吃水果 1 次或多次 0 = 否 1 = 是蔬菜每天食用蔬菜 1 次或多次 0 = 否 1 = 是酗酒重度饮酒者（成年男性每周饮酒超过 14 杯，成年女性每周饮酒超过 7 杯） 0 = 否 1 = 是任何医疗保健有任何形式的医疗保险，包括健康保险、HMO 等预付费计划等。0 = 没有 1 = 有医疗成本过去12个月里，您是否曾需要去看医生，但因为费用问题而无法就医？0 = 没有 1 = 有 GenHlth 您认为您的总体健康状况是：等级 1-5 1 = 优秀 2 = 非常好 3 = 好 4 = 一般 5 = 差心理健康现在想想你的心理健康状况，包括压力、抑郁和情绪问题。过去30天里，你的心理健康状况有多少天不太好？量表1-30天物理健康现在想想你的身体健康状况，包括身体疾病和受伤，过去30天里，你的身体健康状况有多少天不太好？量表1-30天差异行走您走路或爬楼梯有严重困难吗？0 = 没有 1 = 有其他详见PDF数据集说明

2025-06-19

电子商务交易数据集，包含50,000个电子商务交易记录，使其非常适合数据分析、可视化和机器学习实验它包括用户人口统计信息、产品类别、购买金额、支付方式和交易日期，以帮助理解消费者行为和销售趋势

数据量：50000 概述该数据集包含50,000个电子商务交易记录，使其非常适合数据分析、可视化和机器学习实验。它包括用户人口统计信息、产品类别、购买金额、支付方式和交易日期，以帮助理解消费者行为和销售趋势。数据集详情列 Transaction_ID – 每笔交易的唯一标识符 User_Name – 随机生成的用户名 Age – 用户年龄（18到70岁） Country – 交易发生的国家（从10个国家中随机选择） Product_Category – 购买商品的类别（例如，电子产品、服装、书籍） Purchase_Amount – 交易总金额（在$5到$1000之间随机生成） Payment_Method – 付款使用的支付方式（例如，信用卡、PayPal、UPI） Transaction_Date – 购买日期（在过去的两年内随机选择）使用案例销售和趋势分析 – 识别最受欢迎的产品类别客户分段 – 根据年龄和国家分析消费行为欺诈检测 – 检测不寻常的购买模式机器学习 – 训练推荐系统或收入预测的模型

2025-06-18

中国工商银行每日股价数据集，该数据集包含中国工商银行 (ICBC) (1398.HK) 的历史股票市场数据，从 2006年10月27日到2025年2月28日

数据介绍： date：交易日期（YYYY-MM-DD格式） open：当日开盘价 high：当日最高价 low：当日最低价 close：当日收盘价 adj_close：调整后的收盘价（考虑拆股/股息） volume：当日交易股票总数这个数据集对以下方面有价值：股票市场分析：分析工行股票表现随时间的变化趋势。时间序列预测：建立机器学习模型以预测未来的股票价格。技术分析：使用OHLC数据识别模式以制定交易策略。金融研究：研究宏观经济因素对股票价格的影响。

2025-06-18

青少年心理健康数据集，数据集旨在通过匿名化社交媒体活动、调查和可穿戴设备数据来分析青少年的心理健康模式，重点关注压力水平它包含5000条记录和11个字段，每个字段捕捉用户日常行为和健康的不同方面

数据集旨在通过匿名化社交媒体活动、调查和可穿戴设备数据来分析青少年的心理健康模式，重点关注压力水平。它包含5000条记录和11个字段，每个字段捕捉用户日常行为和健康的不同方面。目标是检测社交媒体使用、身体活动、睡眠模式和压力水平等因素之间的相关性。该数据集对青少年心理健康研究、早期压力检测和预防性护理都有助益。数据介绍：用户身份:每个参与者的唯一标识符。年龄:参与者的年龄（13-19岁）。性别:参与者的性别（“M”代表男性，“F”代表女性）。社交媒体时间:每天在社交媒体上花费的时间。锻炼时间:每天锻炼的时间。睡眠时间:每天的总睡眠时间。屏幕使用时间:每天的总屏幕时间（包括社交媒体、游戏等）。调查压力分数:自我报告的压力分数（1 到 5 的等级，其中 1 表示低压力，5 表示高压力）。可穿戴设备压力评分:通过可穿戴设备测量的压力分数（范围0到1）。支持系统学业成绩

2025-06-18

电商个性化推荐数据集，旨在支持多智能体 AI 系统的开发，该系统通过提供超个性化的产品推荐来增强电子商务平台它捕获客户互动、产品属性和推荐模式，从而实现 AI 驱动的洞察，以提高参与度、转化率和

客户数据集：10000条产品数据集：10000条数据集组成客户数据：浏览行为、购买历史、人口统计和参与度指标。产品信息：产品描述、类别、定价、可用性和用户评级。推荐日志：历史推荐、客户回应和点击率。用户细分：根据购买行为、频率、偏好和兴趣进行聚类。客户数据集包含: 客户 ID 年龄性别地点浏览历史购买历史客户细分平均订单价值假期季节产品数据集包含：产品 ID 类别子類別价格品牌类似产品的平均评分产品评级客户评论情绪评分假期季节该数据集旨在支持多智能体 AI 系统的开发，该系统通过提供超个性化的产品推荐来增强电子商务平台。它捕获客户互动、产品属性和推荐模式，从而实现 AI 驱动的洞察，以提高参与度、转化率和客户保留率。

2025-06-18

苹果每日股价数据集，该数据集包含从1980 年 12 月12日到2025 年 6 月 10 日的AAPL历史每日价格数据对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用

数据集概述该数据集包含从1980 年 12 月12日到2025 年 6 月 10 日的AAPL历史每日价格数据。对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用。此数据集包括以下字段： Date: 记录的日期 Open: 开盘价 High: 今日最高价 Low: 今日最低价 Close: 收盘价 Volume: 交易的股票数量潜在用途分析股票价格随时间变化的趋势和波动性。创建和测试用于股票变动的预测模型。金融、统计或数据科学的教育演示。可视化市场模式和进行投资研究。

2025-06-18

XAUUSD黄金股价数据集，该数据集包含从2004-06-11到最近可用日期的XAU/USD历史每日黄金价格数据对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用

数据集概述该数据集包含从2004-06-11到 2025 年 6 月 6 日的XAU/USD历史每日黄金价格数据。对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用。提供2个粒度的数据 1小时 (1H) 1天 (1D) 此数据集包括每个时间范围内的以下字段：开放时间：间隔开始的时间戳。开盘价：在该时间段开始时的比特币价格。最高：该区间内的最高价格。低: 该区间内的最低价格。收盘价：在该区间结束时的比特币价格。交易量：该时间段内的交易量。文件内容 XAU_1d_data.csv: 2004-06-11到 2025 年 6 月 6 日的15分钟间隔数据。 XAU_1h_data.csv: 2004-06-11到 2025 年 6 月 6 日的1小时间隔数据。

2025-06-18

比特币每日股价数据集，包含（2018-2025）- 15分钟、1小时、4小时和1天，四个时间周期的粒度数据

数据集概述该数据集包含自2018年1月1日至现在的比特币（BTC/USDT）历史价格数据。提供四个时间周期的粒度蜡烛图数据： 15分钟 (15M) 1小时 (1H) 4小时 (4H) 1天 (1D) 此数据集包括每个时间范围内的以下字段：开放时间：间隔开始的时间戳。开盘价：在该时间段开始时的比特币价格。最高：该区间内的最高价格。低: 该区间内的最低价格。收盘价：在该区间结束时的比特币价格。交易量：该时间段内的交易量。关闭时间：该间隔关闭的时间戳。报价资产交易量：在该时间段内交易的总报价资产量。交易次数：在该区间内执行的交易数量。买家购买基础资产量：买家购买的基础资产量。买家报价资产交易量：买家花费的报价资产交易量。忽略：来自币安API的占位符列，分析中未使用。文件内容 btc_15m_data_2018_to_present.csv: 2018年至现在的15分钟间隔数据。 btc_1h_data_2018_to_present.csv: 2018年至今的1小时间隔数据。 btc_4h_data_2018_to_present.csv: 从2018年到现在的4小时间隔数据。 btc_1d_data_2018_to_present.csv: 从2018年到现在的1天间隔数据。

2025-06-15

纽约证券交易所个股每日股价数据集，时间从1962 年 1 月 2 日- 2025 年 6 月 13 日（交易日数据）

共1920个文件（文件大小：450M左右）数据纬度： Ticker：股票代码 Date：数据点的日期 Open：开盘价 High：当日达到的最高值 Low：当日达到的最低值 Close：收盘价纽约证券交易所 1920 只股票，每日信息范围从 1962 年 1 月 2 日至 2025 年 6 月 13 日，数据为交易日数据，且不是每个股都从1962 年 1 月 2 日起。潜在用例使用 LSTM、ARIMA 或 Prophet 进行时间序列预测回测交易策略分析长期金融趋势和波动性可视化重大事件（例如互联网泡沫）周围的市场行为比较实际股价与调整后股价项目构想使用深度学习预测次日价格使用 Plotly 创建交互式可视化训练 ML 模型来检测看涨/看跌模式计算 RSI、MACD、布林带等技术指标

2025-06-15

比亚迪股价数据集，该数据集包含历史股票价格数据，涵盖比亚迪股份有限公司 (BYDDF)，时间线为2009-02-13 -2025-03-14

数据介绍日期– 交易日期开盘价——股票开盘价最高价– 交易日内达到的最高价格最低价– 交易日内最低价格收盘价——交易时段结束时的收盘价调整收盘价– 考虑股息/拆股后调整后的收盘价成交量——当天交易的股票总数潜在用例股价可视化– 绘制 BYDDF 股票多年来的走势图移动平均线分析– 识别支撑位和阻力位市场情绪研究– 分析新闻/事件如何影响股价股市分析– 研究比亚迪的历史价格趋势时间序列预测– 构建 ML 模型来预测未来股价电动汽车行业洞察– 分析市场事件如何影响比亚迪的股票比较分析– 与特斯拉 (TSLA)、蔚来汽车和其他电动汽车股票进行比较

2025-06-15

特斯拉股价数据集，数据量为2010-6-29到2025-3-3

数据指标：数据包括每日开盘价、最高价、最低价、收盘价和交易量。它是股票市场分析、时间序列预测和金融研究的理想选择。

2025-06-15

NVIDIA股票价格数据集，该数据集提供了NVIDIA Corporation股票市场表现的详细历史概述，包括每日交易记录，使其适用于时间序列分析、金融预测、算法交易模拟和教育目的

数据：1999.1.22-2025.06.10 该数据集提供了NVIDIA Corporation股票市场表现的详细历史概述，涵盖了多年的关键交易数据。NVIDIA是一家领先的科技公司，以图形处理单元（GPU）和人工智能的创新而闻名。了解其股票行为可以为对金融建模和市场趋势感兴趣的投资者、分析师、学生和研究人员提供宝贵的见解。该数据集包括每日交易记录，使其适用于时间序列分析、金融预测、算法交易模拟和教育目的。用户可以探索英伟达（NVIDIA）的股票价格如何随时间演变，识别模式或异常，并构建或基准测试预测模型。列描述日期：具体的交易日期，格式为 YYYY-MM-DD。关闭：交易日结束时英伟达股票的收盘价。高：在交易时段内，NVIDIA股票达到的最高价格。低：在交易时段内记录的最低价格。开盘：英伟达股票当天开始交易的价格。交易量：该日期交换的NVIDIA股票总数。潜在用途分析NVIDIA股票价格随时间变化的趋势和波动性。创建和测试用于股票变动的预测模型。金融、统计或数据科学的教育演示。可视化市场模式和进行投资研究。

2025-06-15

标普500指数每日股价数据集，数据量：2010 年 1 月 4 日- 2025 年 6 月 13 日（交易日数据）

文件大小：143M左右数据介绍： Ticker：股票代码 Date：数据点的日期 Open：开盘价 High：当日达到的最高值 Low：当日达到的最低值 Close：收盘价 Volume：股票交易量潜在用例使用 LSTM、ARIMA 或 Prophet 进行时间序列预测回测交易策略分析长期金融趋势和波动性可视化重大事件（例如互联网泡沫）周围的市场行为比较实际股价与调整后股价项目构想使用深度学习预测次日价格使用 Plotly 创建交互式可视化训练 ML 模型来检测看涨/看跌模式计算 RSI、MACD、布林带等技术指标

2025-06-15

纳斯达克股票市场个股每日股价数据集，纳斯达克上的3298只股票，每日股价信息从1962年1月2日到2025年6月13日

数据量：1962 年 1 月 2 日— 2025 年 6 月 13 日（交易日数据）共3298个文件（文件大小：450M左右）数据介绍： Ticker：股票代码 Date：数据点的日期 Open：开盘价 High：当日达到的最高值 Low：当日达到的最低值 Close：收盘价纳斯达克 3298 只股票，每日信息范围从 1962 年 1 月 2 日至 2025 年 6 月 13 日，数据为交易日数据，且不是每个股都从1962 年 1 月 2 日起。潜在用例使用 LSTM、ARIMA 或 Prophet 进行时间序列预测回测交易策略分析长期金融趋势和波动性可视化重大事件（例如互联网泡沫）周围的市场行为比较实际股价与调整后股价项目构想使用深度学习预测次日价格使用 Plotly 创建交互式可视化训练 ML 模型来检测看涨/看跌模式计算 RSI、MACD、布林带等技术指标

2025-06-15

学生表现与行为数据集，这个数据集是来自一个私人学习提供商的5000条真实记录数据数据集包括探索与学业表现相关的模式、相关性和见解所需的关键属性

列: Student_ID: 每个学生的唯一标识符。名字: 学生的名字。姓氏: 学生的姓氏。电子邮件：联系电子邮件（可以匿名化）。性别：男，女，其他。年龄：学生的年龄。部门：学生的部门（例如，计算机科学，工程，商业）。出勤率 (%): 出勤率百分比 (0-100%). Midterm_Score: 期中考试成绩（满分100分）。 Final_Score: 最终考试成绩（满分100分）。 Assignments_Avg: 所有作业的平均分（满分100分）。 Quizzes_Avg: 平均测验分数（满分100分）。参与评分：根据课堂参与情况的评分（0-10）。项目评分: 项目评估得分（满分100分）。总分：所有成绩的加权总和。成绩：字母等级（A, B, C, D, F）。每周学习小时数：每周平均学习小时数。课外活动：学生是否参加课外活动（是/否）。家庭互联网接入：学生是否在家有互联网接入？（是/否）。父母教育水平：父母的最高教育水平（无，高中，学士，硕士，博士）。部分省略出勤情况不计入总分或权重非常小。总分=(期中考试0.15)+(期末考试0.25)+(作业平均分0.15)+(测验平均分0.1)+(参与度0.05)+(项目得分0.3) 数据集包含: 缺失值（空值）：在某些记录中（例如，出勤、作业或家长教育水平）。某些数据中的偏见（例如：评分偏见，例如，出勤率高的学生会获得稍微更好的成绩）。分布不均衡（例如，某些部门的学生更多）。注意：数据集是真实的，但作者故意加入了一些偏见，以增加挑战。某些列已被掩码化，因为数据所有者要求如此。 "Students_Grading_Dataset_Biased.csv" 包含了有偏见的数据集 "Students Performance Dataset" 包含了掩码化数据集

2025-06-11

学生抑郁数据集，数据集编译了旨在理解，分析和预测学生抑郁水平的广泛信息它是为心理学，数据科学和教育研究的研究而设计的，提供了对有助于学生心理健康挑战并有助于设计早期干预策略的因素的见解

概述该数据集编译了旨在理解，分析和预测学生抑郁水平的广泛信息。它是为心理学，数据科学和教育研究的研究而设计的，提供了对有助于学生心理健康挑战并有助于设计早期干预策略的因素的见解。数据描述格式： CSV（每行代表个人学生）特征： ID：每个学生的唯一标识符人口统计：年龄，性别，城市学术指标： CGPA，学术压力，学习满意度生活方式与福祉：睡眠时间，饮食习惯，工作压力，工作满意度，工作/学习时间其他因素：职业，学位，财务压力，精神疾病家族史以及学生是否有自杀念头目标变量：抑郁状态：二进制指标（0/1或是/否）表示学生是否正在经历抑郁症关键亮点多方面数据：整合人口，学术和生活方式因素，以提供对学生健康的全面视图。道德考虑：数据收集遵守严格的道德标准，重点是隐私，知情同意和匿名化。研究与实践应用：理想的理想选择预测模型，进行统计分析并为教育环境中的心理健康干预策略提供信息。用法和潜在应用学术研究：探索学术压力与心理健康趋势之间的相关性。数据科学项目：建立预测模型，以根据各种指标识别高危学生。政策制定：告知学术机构内有针对性的心理健康支持计划的制定。道德考虑：由于数据的敏感性，请确保任何分析或已发表的结果尊重隐私和道德准则。该数据集的用户在解释和共享见解时应注意道德含义。

2025-06-11

AI开发者生产力数据集，通过跟踪行为、咖啡因、睡眠和人工智能使用情况来量化开发人员的生产力

数据集模拟了AI开发人员在500天内的生产力，捕捉了深度工作、干扰、咖啡摄入量和代码质量之间的微妙互动。为了测试机器学习的极限，这个数据融合了行为、生理和生产力指标，以允许高级预测建模、回归、聚类和时间序列分析。数据指标： hours_coding 总共花费在软件开发工作上的专注时间（0-12小时）。 coffee_intake_mg 每日咖啡因摄入量（毫克，0-600毫克）。 distractions 干扰源的数量（例如，会议，Slack通知）（0-10）。 sleep_hours 前一晚的睡眠时间（3-10小时）。 commits 一天中推送的代码提交次数（0-20）。 bugs_reported 当天编写代码中报告的错误数量（0-10）。 ai_usage_hours 使用AI工具（例如，ChatGPT，Copilot）的时间（0-12）。 cognitive_load 自我报告的精神压力，用1到10的 scale 来表示。 task_success 目标列 — 每日生产力目标是否达成（0/1）。建议的机器学习任务二元分类 (task_success) 回归（例如，预测cognitive_load）工作模式的聚类相关性分析与特征重要性时间序列模拟 & 移动平均值（适用于合成日期列）探索性数据分析 (EDA) 灵感咖啡因如何影响代码中的错误？你能否根据干扰和AI工具的使用来预测一个开发人员今天是否能成功？在AI使用和原始编码时间之间，最佳的平衡是什么？这个数据集是使用Python和NumPy基于观察到的软件开发人员行为模式合成生成的。尽管是虚构的，但数据分布被设计成模拟合理的开发人员活动，融合了生产力指标和行为科学。

2025-06-10

美国加州Boore（2003）钻孔VS30数据集

VS30指地表以下30米深度内时间平均的剪切波速，是地震学和地震工程学领域国际通用的进行场地条件分类进而表征地震动场地效应的主要参数。上世纪90年代被提出以来，VS30广泛地应用于地震动衰减关系、地震危险性分析、地震风险评估等诸多领域。数据内容未进行更改。数据范围：美国加州地区数据格式：Microsoft Excel 共享协议：CC BY https://creativecommons.org/licenses/by/4.0/ 引用：Boore, D. M. (2003). A compendium of P- and S-wave velocities from surface-to-borehole logging: Summary and reanalysis of previously published data and analysis of unpublished data, U.S. Geol. Surv. Open-File Rept. 03-191, 13 pp.

2025-08-07

土耳其AFAD强震动台网台站VS30数据及土耳其及周边地区VS30地图数据集

数据量：1680+ VS30指地表以下30米深度内时间平均的剪切波速，是地震学和地震工程学领域国际通用的进行场地条件分类进而表征地震动场地效应的主要参数。上世纪90年代被提出以来，VS30广泛地应用于地震动衰减关系、地震危险性分析、地震风险评估等诸多领域。数据内容未进行更改。数据范围：土耳其及受地震影响的周边区域数据格式：Microsoft Excel 共享协议：CC BY-SA https://creativecommons.org/licenses/by-sa/4.0/ 引用： Zhou J. (2023). VS30 Data of Turkey AFAD Strong-Motion Network Stations and VS30 Map of Turkey and Adjacent Area Related to the Feb. 2023 Turkey Earthquake Sequence, Technical Report, DOI: 10.13140/RG.2.2.24389.12007

2025-08-07

中国大陆工程场地VS30地图2024新版数据集

数据量：1040000+ 该地图数据基于中国大陆的7939个工程钻孔和SRTM1km精度的DEM产出的地形坡度数据，应用2024年更新的地形坡度协同克里金VS30拟合模型（SCK模型）拟合产出。地图VS30在有实测钻孔数据的位置收敛于实测数据；地图给出了VS30估计误差的分布，误差随着与实测钻孔距离的缩小趋近为零；地图合理地区分了山谷、山前、平原等不同地貌的VS30差异特征；地图覆盖中国大陆全境，空间分辨率为30弧秒（约900米） VS30指地表以下30米深度内时间平均的剪切波速，是地震学和地震工程学领域国际通用的进行场地条件分类进而表征地震动场地效应的主要参数。上世纪90年代被提出以来，VS30广泛地应用于地震动衰减关系、地震危险性分析、地震风险评估等诸多领域。数据内容未进行修改。文件包含2022旧版地图数据。数据范围：中国大陆地区数据格式：DBF 数据精度：30 弧秒共享协议：CC BY https://creativecommons.org/licenses/by/4.0/ 引用：Zhou, J., L. Li, X. Li, N. Xi, and X. Tian (2024). A 30 Arcsec Resolution VS30 Map for Mainland China Using Refined Topographic Slope-Based Cokriging (SCK) Model, Bull. Seismol. Soc. Am. XX,1–17, doi: 10.1785/0120240104

2025-08-07

腾讯TCEHY每日股价数据集(2010-2025年)

数据量：2010-1-5 —2025-7-23 （交易日数据）数据集概述该数据集提供了腾讯公司（TCEHY）从2010-1-5 到2025-7-23的历史股票价格变动的全面记录。作为一家领先的科技巨头，腾讯的股票受到投资者、分析师和研究人员的广泛跟踪。该数据涵盖了每日交易活动，可用于财务分析、机器学习项目和教育目的，对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用。数据介绍：日期：交易日期 (YYYY-MM-DD) 开盘：开盘价最高：交易日内达到的最高价格最低：交易日最低价收盘：收盘价 Adj Close: 调整收盘价（考虑了股息和股票拆分）交易量：某一天的总交易量该数据集的价值在于：时间序列分析：分析股票价格随时间变化的趋势和模式。预测：使用统计或机器学习技术建立预测模型，以预测未来的股票价格。技术分析：应用传统的金融指标和策略（例如，移动平均线、RSI、MACD）来研究价格走势。事件影响研究：研究外部事件（收益发布、产品发布、宏观经济新闻）对股价的影响。投资组合模拟：使用历史数据对交易策略进行回测或模拟投资组合。教育目的：教授或学习有关金融市场、数据处理和数据可视化。示例分析可视化几十年来的股价增长。比较在重大市场事件（崩盘、繁荣等）中的股票表现。分析财报或产品发布对价格走势的影响。将交易量与价格波动相关联。

2025-07-29

目标检测-番茄叶病数据集YOLOv8格式

该数据集是为番茄叶片病害检测而设计的，使用YOLOv8。它包含10,853张标注图像，涵盖了10个不同类别的番茄叶片状态，包括病毒性、细菌性和真菌性感染，以及健康的叶片。数据集详情总图像数：10,853 训练集：7,842张图像（72%）验证集：1,960张图像（18%）测试集：1,051张图像（10%）图像分辨率：调整为640x640（拉伸）标注格式：YOLOv8 10个类别 Bacterial Spot 番茄细菌性斑点病 Early Blight 番茄早疫病 Late Blight番茄晚疫病 Leaf Mold番茄叶霉病 Septoria Leaf Spot番茄叶斑病 Tomato Spider Mites (Two-Spotted Spider Mite)番茄红蜘蛛（双斑红蜘蛛） Target Spot番茄靶斑病 Yellow Leaf Curl Virus番茄黄化曲叶病毒 Healthy番茄健康 Mosaic Virus番茄花叶病毒预处理已应用像素数据的自动方向（EXIF元数据已去除）图像调整为640x640（拉伸）未进行任何增强处理

2025-08-05

大学生就业因素数据集，这个数据集包含了10,000名大学生的学术和职业档案，重点是影响安置结果的因素它包括智商、学术成绩、CGPA、实习、沟通技巧等特征

数据量：10000 这个数据集包含了10,000名大学生的学术和职业档案，重点是影响安置结果的因素。它包括智商、学术成绩、CGPA、实习、沟通技巧等特征。列名描述学院编号学院的独特编号（例如，CLG0001到CLG0100）智商学生的智商得分（通常围绕100正态分布）上学期成绩上学期的平均绩点（范围：5.0到10.0）累积平均绩点累积平均绩点（范围：~5.0至10.0）学业成绩年度学术评分（满分：10分）实习经验学生是否完成过任何实习（是/否）课外活动评分参与课外活动（0到10分）沟通技巧软技能评分（1到10的评分标准）项目完成完成的学术/技术项目数量（0到5）安置最终安置结果（是=已安置，否=未安置）该数据集适用于：预测性安置结果建模分类教育练习特征重要性分析端到端机器学习项目使用案例分类建模（逻辑回归、决策树、随机森林等）探索性数据分析 (EDA) 特征工程与选择模型评估实践

2025-07-23

电动汽车规格数据集（2025），该数据集提供了现代电动汽车（EV）的规格和性能指标的全面集合它旨在支持从事数据科学、机器学习、汽车市场研究、可持续性研究或电动汽车采用分析的研究人员、分析师、学生和开

数据量：478 该数据集提供了现代电动汽车（EV）的规格和性能指标的全面集合。它旨在支持从事数据科学、机器学习、汽车市场研究、可持续性研究或电动汽车采用分析的研究人员、分析师、学生和开发人员。数据集中的每一行代表一个特定的电动汽车型号，并包含丰富的属性，涵盖：核心属性：品牌和型号：电动汽车的制造商和具体铭牌。车身类型：分类如掀背车、SUV、轿车等。细分市场：车辆细分市场（例如，紧凑型、中型、豪华型）。电池和续航：电池容量 (千瓦时): 电池的总能量容量。电池单元数量和电池类型：技术电池信息，如有。效率 (Wh/km): 车辆的能耗率。续航里程 (公里): 预估满电续航里程。收费详情：快速充电功率 (千瓦): 最大支持的直流快速充电功率。快速充电端口类型：连接器标准（例如，CCS，CHAdeMO）。性能：最高时速 (公里/小时): 车辆的最大速度。 0–100 公里/小时加速时间 (秒): 静止状态下加速到 100 公里/小时所需时间。扭矩 (Nm): 最大扭矩输出，如适用。实用规格：牵引能力（千克）：牵引能力，如适用。货物体积 (L): 行李空间，有时是近似值或以其他单位表示。座位：总座位容量。尺寸：长、宽、高（毫米）：车辆的实际占用空间。技术信息：动力系统：动力传动配置（例如，全轮驱动，后轮驱动，前轮驱动）。来源网址：每辆车的参考链接（用于抓取）。数据质量与清理说明：所有数值字段已清理并转换为适当的数据类型（浮点数、整数）。对于一些技术属性，如牵引能力以及电池单元数量，由于数据无法可靠提取，缺失值仍然存在。用例：电动汽车趋势分析与可视化市场比较工具机器学习模型的特征工程车辆性能预测清洁能源采用见解

2025-07-23

2025年数据科学、人工智能和机器学习职位的薪资数据集，该数据集提供了对数据科学、机器学习和人工智能角色全球薪资趋势的全面了解通过结合市场研究和公开数据来源精心整理，包括AIJobs薪酬调查（

数据量：145000+ 该数据集提供了对数据科学、机器学习和人工智能角色全球薪资趋势的全面了解。通过结合市场研究和公开数据来源精心整理，包括AIJobs薪酬调查（CC0许可）、365DataScience、Payscale、KDnuggets、ZipRecruiter等，该数据集反映了全球各地的真实薪酬模式。数据来源： aijobs.net Salary Dataset (CC0) 365datascience.com Payscale KDnuggets ZipRecruiter Wellfound (AngelList) 无论你是数据科学家、人工智能从业者、学生、招聘人员还是行业研究员，这个数据集都旨在支持：工资预测和机器学习建模全球市场基准测试职业决策与谈判远程工作趋势分析商业智能仪表板和可视化

2025-07-23

2026年QS世界大学排名，包含官方的2026年QS世界大学排名，覆盖1,501所机构遍布全球它包括用于评估大学相对地位的全面表现数据和排名指标

数据量：1500+ 该数据集包含官方的2026年QS世界大学排名，覆盖1,501所机构遍布全球。它包括用于评估大学相对地位的全面表现数据和排名指标。每一行代表一所大学，并包括其当前和之前的排名、综合评分以及QS用来计算最终排名的多个个人表现指标。特征层面的解释一般信息 2026年排名：该大学在2026年QS排名中的排名。上一年排名：该大学在上一年（2025年）的排名。机构名称：大学或机构的全称。国家/地区：机构所在的国家。地区：地理区域（例如，欧洲、美洲、亚洲）。规模：根据学生人数估算的大学规模（例如，S，M，L，XL）。重点：该机构的学术重点（例如，CO = 综合性，FC = 专注性）。研究：研究强度水平（例如，VH = 非常高）。状态：机构类型（例如，公立，私立非营利）。绩效指标（得分和排名） AR 分数 / 排名：学术声誉 — 基于全球学术调查。 ER SCORE / RANK：雇主声誉 — 基于雇主反馈。 FSR 分数 / 排名：生师比 — 评估教学投入。 CPF 分数 / 排名：每教师引用次数 —— 衡量研究产出和质量。国际教师比率得分/排名：国际教师比率 — 国际教师所占的比例。 ISR 分数 / 排名：国际学生比例 — 国际学生百分比。 ISD 得分 / 排名：国际学生多样性 — 国际学生之间的多样性。 IRN SCORE / RANK：国际研究网络——全球合作强度。 EO 得分 / 排名：就业成果 — 毕业生在劳动力市场上的表现如何。 SUS SCORE / RANK：可持续性 — 评估环境和社会影响举措。总分：用于确定最终大学排名的综合评分。这个数据集非常适合：探索性数据分析 (EDA) 区域和机构比较高等教育研究与政策分析机构的聚类和分割预测建模（例如，预测排名或分数）全球学术趋势可视化

2025-07-23

电商用户行为分析数据集，旨在帮助研究人员、数据科学家和营销人员了解消费者在各种类别中的购买行为通过分析此数据集，用户可以识别关键趋势、划分客户群体，并基于数据做出决策，以改进产品、营销策略和客户参与

数据量：1000 主要特点：客户人口统计：了解年龄、收入、性别和教育水平，以便更好地进行细分和有针对性的营销。购买行为：包括购买金额、频率、类别和渠道偏好，以评估消费模式。客户忠诚度：品牌忠诚度、广告参与度和忠诚度计划会员资格等功能可深入了解长期客户保留率。产品反馈：客户评级和满意度水平可用于分析产品质量和客户情绪。决策：花在产品研究上的时间、决策时间和购买意向反映了客户如何做出购买决策。对购买的影响：包括社交媒体影响、折扣敏感度和退货率等因素，以分析外部因素如何影响购买行为。列概述： Customer_ID：每个客户的唯一标识符。 Age：客户的年龄（整数）。 Gender：客户的性别（分类：男、女、非二元性别、其他）。 Income_Level：客户的收入水平（分类：低、中、高）。 Marital_Status：客户的婚姻状况（分类：单身、已婚、离异、丧偶）。 Education_Level：最高受教育程度（分类：高中、学士、硕士、博士）。 Occupation：客户的职业（分类：各种职位）。 Location：客户的位置（城市、地区或国家）。Purchase_Category：所购产品的类别（例如，电子产品、服装、杂货）。 Purchase_Amount：购买期间花费的金额（小数）。Frequency_of_Purchase：每月购买次数（整数）。 Purchase_Channel：购买方式（分类：在线、店内、混合）。品牌忠诚度：对品牌的忠诚度（1-5 级）。产品评级：客户对所购产品的评级（1-5 级）。产品研究时间：研究产品所花费的时间（整数，小时或分钟）。社交媒体影响：社交媒体对购买决策的影响（分类：高、中、低、无）。折扣敏感度：对折扣的敏感度（分类：非常敏感、有点敏感、不敏感）。退货率：退货产品百分比（小数）。

2025-07-25

微软MSFT每日股价数据集，该数据集提供了微软公司（MSFT）从1986-3-13到2025-7-15的历史股票价格变动的全面记录作为一家领先的科技巨头，微软的股票受到投资者、分析师和研究人员的跟踪

数据量：1986-3-13 —2025-7-15 （交易日数据）该数据集提供了微软公司（MSFT）从1986-3-13到2025-7-15的历史股票价格变动的全面记录。作为一家领先的科技巨头，微软的股票受到投资者、分析师和研究人员的广泛跟踪。该数据涵盖了每日交易活动，可用于财务分析、机器学习项目和教育目的，对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用。数据介绍：日期：交易日期 (YYYY-MM-DD) 开盘：开盘价最高：交易日内达到的最高价格最低：交易日最低价收盘：收盘价 Adj Close: 调整收盘价（考虑了股息和股票拆分）交易量：某一天的总交易量该数据集的价值在于：时间序列分析：分析亚马逊股票价格随时间变化的趋势和模式。预测：使用统计或机器学习技术建立预测模型，以预测未来的股票价格。技术分析：应用传统的金融指标和策略（例如，移动平均线、RSI、MACD）来研究价格走势。事件影响研究：研究外部事件（收益发布、产品发布、宏观经济新闻）对亚马逊股价的影响。投资组合模拟：使用历史数据对交易策略进行回测或模拟投资组合。教育目的：教授或学习有关金融市场、数据处理和数据可视化。示例分析可视化微软几十年来的股价增长。比较MSFT在重大市场事件（崩盘、繁荣等）中的股票表现。分析财报或产品发布对价格走势的影响。将交易量与价格波动相关联。

2025-07-23

亚马逊每日股价数据集（1997-2025年），数据集包含从1997-5-15到2025-7-16的亚马逊AMZN历史每日价格数据

数据集概述该数据集包含从1997-5-15到2025-7-16的亚马逊AMZN历史每日价格数据。对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用。数据介绍：日期：交易会的日期（格式为 YYYY-MM-DD）。开盘价：亚马逊股票在该日交易的开盘价。最高：在交易期间达到的最高价格。最低：一天中的最低价格。收盘价：该日亚马逊股票的收盘价。调整收盘价：调整后的收盘价，考虑了任何可能影响价格的公司行为（例如，股息、股票拆分）。交易量：该日交易的股票总数。该数据集的价值在于：时间序列分析：分析亚马逊股票价格随时间变化的趋势和模式。预测：使用统计或机器学习技术建立预测模型，以预测未来的股票价格。技术分析：应用传统的金融指标和策略（例如，移动平均线、RSI、MACD）来研究价格走势。事件影响研究：研究外部事件（收益发布、产品发布、宏观经济新闻）对亚马逊股价的影响。投资组合模拟：使用历史数据对交易策略进行回测或模拟投资组合。教育目的：教授或学习有关金融市场、数据处理和数据可视化。

2025-07-22

全球地震事件数据集（2000-2025），数据集包含175000+条记录，该数据集包含2000年至2025年间的详细全球地震记录，数据来源于美国地质调查局（USGS）它非常适合用于机器学习项目

概述数据集包含175000+条记录，该数据集包含2000年至2025年间的详细全球地震记录，数据来源于美国地质调查局（USGS）。它非常适合用于机器学习项目、时空分析和地震模拟——特别是那些专注于地震震级预测和基于位置的地震模式建模的项目。数据来源：美国地质调查局（USGS）原始数据由美国地质调查局（USGS）通过全球地震台网收集和维护。每个地震事件由传感器检测，其属性（包括震级、深度、位置和时间）由地震学家计算和审核。然后通过USGS地震目录发布这些事件，并附带错误估计、站覆盖和审核状态等元数据。列名描述 time 地震的日期和时间（协调世界时） latitude 震中纬度 longitude 震中经度 depth 地震深度（公里） mag 报道的震级 magType 震级类型（例如，mb、ml、mw） nst 报告该事件的地震台数量 gap 地震台之间的方位间隙（度） dmin 到最近地震台的最小距离（度） rms 幅度残差的均方根 net 报告该事件的地震网络 id 唯一事件ID updated 记录的最后更新时间戳 place 事件的人类可读位置 type 事件类型（例如，地震，采石场爆炸水平误差：震中位置的不确定性（公里） horizontalError 水平误差：水平位置的不确定性 (公里) depthError 深度误差：深度的不确定性（公里） magError 震级误差：震级的不确定性 magNst 震级台站数：用于震级计算的台站数 status 状态：事件的审核状态（例如，已审核，自动） locationSource 位置来源：位置数据的来源 magSource 震级来源：震级数据的来源潜在用例利用机器学习/人工智能进行地震震级预测时空地震趋势分析灾害风险模拟工具学术和黑客松地质科学、人工智能和灾害管理研究项目

2025-07-22

全国地貌数据WGS1984

全国地貌数据是一个包含中国地貌信息的压缩文件，它使用了全球广泛接受的WGS1984坐标系统。 WGS1984（World Geodetic System 1984）是地球定位系统的基础，主要用于GPS导航、地理信息系统（GIS）以及航空和海洋定位等应用。这个坐标系统提供了一个统一的标准，使得不同位置的数据可以在全球范围内进行准确的比较和集成。该压缩包内的数据主要涉及中国各地的地貌特征，包括山脉、河流、平原、盆地、丘陵、峡谷等各种地形类型。这些地貌数据是通过测绘和遥感技术获取的，它们以数字形式存储，可以方便地进行数据分析、制图和空间规划。数据的属性表包含了地貌代码，这是对各种地貌类型的一种标准化编码方式，使得数据的管理和分析更为高效。地貌代码的设计基于1:400万比例尺的地貌图，这是一个较大的比例尺，通常用于国家或区域级别的地理研究。1:400万意味着地图上的1单位长度代表实际地面上的400万相同单位长度。这种比例尺虽然不能展示非常精细的地貌细节，但足以覆盖广阔的地理区域，且能清晰展现地形的大致特征。地貌代码采用6位数字码，这是一种简明且易于理解的编码方法。每个代码由六个数字组成，可能的组合范围从000000到999999，提供了足够的空间来区分多种不同的地貌类型。具体的编码规则可能涉及到地貌类型、地形特征、海拔高度等因素，每一段数字可能对应着特定的分类标准，如前两位可能表示大类，中间两位表示亚类，后两位可能表示更具体的特征。在使用这个压缩包时，你需要先将其解压，然后可能需要用到GIS软件（如ArcGIS、QGIS等）来打开和查看这些数据。这些软件能够读取和处理这些地貌数据，并将其以地图的形式呈现出来，用户可以通过颜色、符号等视觉元素直观地了解中国的地貌分布。通过分析这些数据，科研人员、政策制定者和规划师可以更好地理解中国的地形特征，从而进行环境评估、灾害

2025-08-02

肺癌数据集，该数据集包含3000例真实数据，与各种可能影响肺癌风险的因素相关的信息

数据量：3000 该数据集包含与各种可能影响肺癌风险的因素相关的信息。数据包括人口统计信息、生活方式习惯和与肺癌常见的症状。该数据集可用于探索相关性、建立预测模型和识别潜在的肺癌风险因素。数据来源：胡迈尔·穆尼尔，计算机科学系，伊斯兰堡COMSATS大学。数据列介绍：列: 性别: 个人的性别（例如，M表示男性，F表示女性）。年龄: 个人的年龄（以年为单位）。吸烟: 表示个人是否吸烟（是/否）。手指发黄: 表示个人是否手指发黄（是/否）。焦虑: 表示个人是否患有焦虑症（是/否）。同伴压力: 表示个人是否受到同伴压力的影响（是/否）。慢性病: 表示个人是否患有任何慢性病（是/否）。疲劳: 表示个人是否感到疲劳（是/否）。过敏: 表示该个人是否有过敏反应（是/否）。喘息：表示该个人是否有关喘症状（是/否）。饮酒：表示该个人是否饮酒（是/否）。咳嗽：表示该个人是否有关咳嗽症状（是/否）。呼吸困难：表示该个人是否感到呼吸困难（是/否）。 ***吞咽困难：***表示该个人是否感到吞咽困难（是/否）。胸痛：表示该个人是否经历胸痛（是/否）。肺癌：表示该个人是否被诊断为肺癌（是/否）。示例记录性别：男年龄：65 吸烟：是手指发黄：是焦虑：是同伴压力：否慢性病：否疲劳：是过敏：否哮喘：否饮酒：否咳嗽：否呼吸困难：否吞咽困难：否胸痛：是肺癌：否用法该数据集对旨在了解肺癌风险因素和预测因子的研究人员和数据科学家有价值。它可以用于：统计分析以找出不同因素与肺癌之间的相关性。建立机器学习模型，根据给定的特征预测肺癌风险。识别高风险群体和潜在的预防措施。

2025-08-02

乳腺癌数据集，数据集包含569个实例（行）和32个列，包括一个ID列、一个诊断标签和30个描述细胞核特征的数值特征每个实例代表一个单独的乳腺肿块样本，特征是从数字化的FNA图像中计算得出的

数据量：569 数据集包含569个实例（行）和32个列，包括一个ID列、一个诊断标签和30个描述细胞核特征的数值特征。每个实例代表一个单独的乳腺肿块样本，特征是从数字化的FNA图像中计算得出的。这个数据集源自广泛用于医学诊断机器学习基准的威斯康星乳腺癌诊断数据，包括357例良性病例和212例恶性病例。它包含来自乳腺组织样本的细胞核的详细测量数据，能够将肿瘤分类为良性（非癌性）或恶性（癌性）。该数据集特别适用于开发和测试机器学习模型，如逻辑回归、支持向量机或深度神经网络，以帮助早期和准确地检测乳腺癌。数据来源：W. Nick Street，计算机科学系，威斯康星大学。数据列介绍： 30个特征根据细胞核的特征分为三个主要类别：平均值：测量值的平均值（例如，平均半径，平均纹理）。标准误差（SE）：测量值的变异（例如，半径的标准误差，面积的标准误差）。最差：测量值中最大的（最差）值（例如，最差半径，最差平滑度）。每个类别包括10个具体的测量指标：半径（从中心到周线上点的距离的平均值）纹理（灰度值标准差）周长区域光滑度（半径长度的局部变化）紧凑度 (周长² / 面积 - 1.0) 凹度（轮廓凹部的严重程度）凹点（轮廓的凹部数量）对称分维（“海岸线近似” - 1）潜在用例机器学习：训练分类模型（例如，随机森林、支持向量机或神经网络）以预测肿瘤恶性。特征工程：探索特征之间的相关性（例如，半径和面积），以识别恶性肿瘤的关键预测因子。数据可视化：创建可视化（例如，散点图、热图）以理解特征分布和关系。医学研究：通过分析细胞核特征以获得诊断见解，支持计算病理学研究。教育工具：非常适合教授数据科学概念，例如预处理、模型评估和交叉验证。

2025-08-02

肝病患者记录数据集，数据集包含414名肝病患者记录和165名非肝病患者真实记录

数据量：579 由于过度饮酒、吸入有害气体、摄入受污染食物、泡菜和药物，肝病患者一直在不断增加。这个数据集被用来评估预测算法，以减轻医生的负担。这个数据集包含414名肝病患者记录和165名非肝病患者记录。"Dataset"列是一个用于将组分为肝病患者（肝病）或非患者（无病）的类别标签。这个数据集包含439名男性患者记录和140名女性患者记录。年龄超过89岁的患者都归为90岁。数据收集：印度安得拉邦东北部。数据来源：Lichman, M. (2013). 伊里湾, 加利福尼亚: 加利福尼亚大学欧文分校, 信息与计算机科学学院. 数据列介绍：患者的年龄患者的性别总胆红素直接胆红素碱性磷酸酶丙氨酸氨基转移酶天冬氨酸氨基转移酶总蛋白质白蛋白白蛋白与球蛋白比率 Dataset：用于将数据分为两部分的字段（肝病患者，或无病患者）

2025-08-01

MSPM0G3507硬件设计文件

mspm0g3507

2025-07-31

DevExpress24.2.5全套

2025-07-29

亚马逊销售数据集，该数据集包含1千多个亚马逊产品的评分和评论数据，这些数据根据亚马逊官方网站上的详细信息列出

数据量：1351 功能 product_id - 产品ID 产品名称 - 产品的名称类别 - 产品类别折扣价 - 产品的折扣价实际价格 - 产品的实际价格折扣百分比 - 该产品的折扣百分比评分 - 产品评分评分人数 - 投票给亚马逊评分的人数关于产品 - 产品描述用户ID - 为该产品撰写评论的用户的ID 用户名 - 对该产品撰写评论的用户姓名评论ID - 用户评论的ID 评论标题 - 简短评论评论内容 - 长评论 img_link - 产品图片链接 product_link - 产品官方网站链接灵感亚马逊是一家美国科技跨国公司，其业务兴趣包括电子商务，他们在那里购买和存储库存，并负责从发货和定价到客户服务和退货的一切事情。我创建这个数据集是为了让人们可以玩弄这个数据集，并如下面所述进行许多事情。数据集操作指南理解数据集层次结构数据预处理探索性数据分析数据可视化构建推荐系统这是一个关于在这个数据集上可以执行的一些操作的列表。不仅限于所提到的那些内容，还可以做更多的事情。

2025-07-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

中国癌症患者数据集，用于医学研究、生存预测建模和医疗差距分析 数据包括肿瘤特征、治疗类型、生存状态和生活方式因素（如吸烟和饮酒）

糖尿病预测数据集，该数据集是从患者那里收集的医疗和人口统计数据，以及他们的糖尿病状态（阳性或阴性） 数据包括年龄、性别、身体质量指数（BMI）、高血压、心脏病、吸烟史、HbA1c水平和血糖水平等特征

学生表现因素数据集，该数据集全面概述了影响学生考试成绩的各种因素 它包括学习习惯、出勤情况、家长参与以及其他影响学术成功方面的信息

糖尿病指标数据集，这个原始数据集包含441,455个个体的回应，共有330个特征 这些特征要么是直接向参与者提问的问题，要么是基于个人参与者回应的计算变量

电子商务交易数据集，包含50,000个电子商务交易记录，使其非常适合数据分析、可视化和机器学习实验 它包括用户人口统计信息、产品类别、购买金额、支付方式和交易日期，以帮助理解消费者行为和销售趋势

中国工商银行每日股价数据集，该数据集包含 中国工商银行 (ICBC) (1398.HK) 的历史股票市场数据，从 2006年10月27日到2025年2月28日

青少年心理健康数据集，数据集旨在通过匿名化社交媒体活动、调查和可穿戴设备数据来分析青少年的心理健康模式，重点关注压力水平 它包含5000条记录和11个字段，每个字段捕捉用户日常行为和健康的不同方面

电商个性化推荐​​数据集，旨在支持多智能体 AI 系统的开发，该系统通过提供超个性化的产品推荐来增强电子商务平台 它捕获客户互动、产品属性和推荐模式，从而实现 AI 驱动的洞察，以提高参与度、转化率和

苹果每日股价数据集，该数据集包含从1980 年 12 月12日到2025 年 6 月 10 日的AAPL历史每日价格数据 对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用

XAUUSD黄金股价数据集，该数据集包含从2004-06-11到最近可用日期的XAU/USD历史每日黄金价格数据 对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用

比特币每日股价数据集，包含（2018-2025）- 15分钟、1小时、4小时和1天，四个时间周期的粒度数据

纽约证券交易所个股每日股价数据集，时间从1962 年 1 月 2 日- 2025 年 6 月 13 日（交易日数据）

比亚迪股价数据集，该数据集包含历史股票价格数据，涵盖比亚迪股份有限公司 (BYDDF)，时间线为2009-02-13 -2025-03-14

特斯拉股价数据集，数据量为2010-6-29到2025-3-3

NVIDIA股票价格数据集，该数据集提供了NVIDIA Corporation股票市场表现的详细历史概述，包括每日交易记录，使其适用于时间序列分析、金融预测、算法交易模拟和教育目的

标普500指数每日股价数据集，数据量：2010 年 1 月 4 日- 2025 年 6 月 13 日（交易日数据）

纳斯达克股票市场个股每日股价数据集，纳斯达克上的3298只股票，每日股价信息从1962年1月2日到2025年6月13日

学生表现与行为数据集，这个数据集是来自一个私人学习提供商的5000条真实记录数据 数据集包括探索与学业表现相关的模式、相关性和见解所需的关键属性

学生抑郁数据集，数据集编译了旨在理解，分析和预测学生抑郁水平的广泛信息 它是为心理学，数据科学和教育研究的研究而设计的，提供了对有助于学生心理健康挑战并有助于设计早期干预策略的因素的见解

AI开发者生产力数据集，通过跟踪行为、咖啡因、睡眠和人工智能使用情况来量化开发人员的生产力

美国加州Boore（2003）钻孔VS30数据集

土耳其AFAD强震动台网台站VS30数据及土耳其及周边地区VS30地图数据集

中国大陆工程场地VS30地图2024新版数据集

腾讯TCEHY每日股价数据集(2010-2025年)

目标检测-番茄叶病数据集YOLOv8格式

大学生就业因素数据集，这个数据集包含了10,000名大学生的学术和职业档案，重点是影响安置结果的因素 它包括智商、学术成绩、CGPA、实习、沟通技巧等特征

电动汽车规格数据集（2025），该数据集提供了现代电动汽车（EV）的规格和性能指标的全面集合 它旨在支持从事数据科学、机器学习、汽车市场研究、可持续性研究或电动汽车采用分析的研究人员、分析师、学生和开

2025年数据科学、人工智能和机器学习职位的薪资数据集，该数据集提供了对数据科学、机器学习和 人工智能角色全球薪资趋势的全面了解 通过结合市场研究和公开数据来源精心整理，包括AIJobs薪酬调查（

2026年QS世界大学排名，包含官方的2026年QS世界大学排名，覆盖1,501所机构遍布全球 它包括用于评估大学相对地位的全面表现数据和排名指标

电商用户行为分析数据集，旨在帮助研究人员、数据科学家和营销人员了解消费者在各种类别中的购买行为 通过分析此数据集，用户可以识别关键趋势、划分客户群体，并基于数据做出决策，以改进产品、营销策略和客户参与

微软MSFT每日股价数据集，该数据集提供了微软公司（MSFT）从1986-3-13到2025-7-15的历史股票价格变动的全面记录 作为一家领先的科技巨头，微软的股票受到投资者、分析师和研究人员的跟踪

亚马逊每日股价数据集（1997-2025年），数据集包含从1997-5-15到2025-7-16的亚马逊AMZN历史每日价格数据

全球地震事件数据集（2000-2025），数据集包含175000+条记录，该数据集包含2000年至2025年间的详细全球地震记录，数据来源于美国地质调查局（USGS） 它非常适合用于机器学习项目

全国地貌数据WGS1984

肺癌数据集，该数据集包含3000例真实数据，与各种可能影响肺癌风险的因素相关的信息

乳腺癌数据集，数据集包含569个实例（行）和32个列，包括一个ID列、一个诊断标签和30个描述细胞核特征的数值特征 每个实例代表一个单独的乳腺肿块样本，特征是从数字化的FNA图像中计算得出的

肝病患者记录数据集，数据集包含414名肝病患者记录和165名非肝病患者真实记录

MSPM0G3507硬件设计文件

DevExpress24.2.5全套

亚马逊销售数据集，该数据集包含1千多个亚马逊产品的评分和评论数据，这些数据根据亚马逊官方网站上的详细信息列出

空空如也

中国癌症患者数据集，用于医学研究、生存预测建模和医疗差距分析数据包括肿瘤特征、治疗类型、生存状态和生活方式因素（如吸烟和饮酒）

糖尿病预测数据集，该数据集是从患者那里收集的医疗和人口统计数据，以及他们的糖尿病状态（阳性或阴性）数据包括年龄、性别、身体质量指数（BMI）、高血压、心脏病、吸烟史、HbA1c水平和血糖水平等特征

学生表现因素数据集，该数据集全面概述了影响学生考试成绩的各种因素它包括学习习惯、出勤情况、家长参与以及其他影响学术成功方面的信息

糖尿病指标数据集，这个原始数据集包含441,455个个体的回应，共有330个特征这些特征要么是直接向参与者提问的问题，要么是基于个人参与者回应的计算变量

电子商务交易数据集，包含50,000个电子商务交易记录，使其非常适合数据分析、可视化和机器学习实验它包括用户人口统计信息、产品类别、购买金额、支付方式和交易日期，以帮助理解消费者行为和销售趋势

中国工商银行每日股价数据集，该数据集包含中国工商银行 (ICBC) (1398.HK) 的历史股票市场数据，从 2006年10月27日到2025年2月28日

青少年心理健康数据集，数据集旨在通过匿名化社交媒体活动、调查和可穿戴设备数据来分析青少年的心理健康模式，重点关注压力水平它包含5000条记录和11个字段，每个字段捕捉用户日常行为和健康的不同方面

电商个性化推荐数据集，旨在支持多智能体 AI 系统的开发，该系统通过提供超个性化的产品推荐来增强电子商务平台它捕获客户互动、产品属性和推荐模式，从而实现 AI 驱动的洞察，以提高参与度、转化率和

苹果每日股价数据集，该数据集包含从1980 年 12 月12日到2025 年 6 月 10 日的AAPL历史每日价格数据对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用

XAUUSD黄金股价数据集，该数据集包含从2004-06-11到最近可用日期的XAU/USD历史每日黄金价格数据对于进行金融分析、交易策略开发或时间序列建模的任何人来说都非常有用

学生表现与行为数据集，这个数据集是来自一个私人学习提供商的5000条真实记录数据数据集包括探索与学业表现相关的模式、相关性和见解所需的关键属性

学生抑郁数据集，数据集编译了旨在理解，分析和预测学生抑郁水平的广泛信息它是为心理学，数据科学和教育研究的研究而设计的，提供了对有助于学生心理健康挑战并有助于设计早期干预策略的因素的见解

大学生就业因素数据集，这个数据集包含了10,000名大学生的学术和职业档案，重点是影响安置结果的因素它包括智商、学术成绩、CGPA、实习、沟通技巧等特征

电动汽车规格数据集（2025），该数据集提供了现代电动汽车（EV）的规格和性能指标的全面集合它旨在支持从事数据科学、机器学习、汽车市场研究、可持续性研究或电动汽车采用分析的研究人员、分析师、学生和开

2025年数据科学、人工智能和机器学习职位的薪资数据集，该数据集提供了对数据科学、机器学习和人工智能角色全球薪资趋势的全面了解通过结合市场研究和公开数据来源精心整理，包括AIJobs薪酬调查（

2026年QS世界大学排名，包含官方的2026年QS世界大学排名，覆盖1,501所机构遍布全球它包括用于评估大学相对地位的全面表现数据和排名指标

电商用户行为分析数据集，旨在帮助研究人员、数据科学家和营销人员了解消费者在各种类别中的购买行为通过分析此数据集，用户可以识别关键趋势、划分客户群体，并基于数据做出决策，以改进产品、营销策略和客户参与

微软MSFT每日股价数据集，该数据集提供了微软公司（MSFT）从1986-3-13到2025-7-15的历史股票价格变动的全面记录作为一家领先的科技巨头，微软的股票受到投资者、分析师和研究人员的跟踪

全球地震事件数据集（2000-2025），数据集包含175000+条记录，该数据集包含2000年至2025年间的详细全球地震记录，数据来源于美国地质调查局（USGS）它非常适合用于机器学习项目

乳腺癌数据集，数据集包含569个实例（行）和32个列，包括一个ID列、一个诊断标签和30个描述细胞核特征的数值特征每个实例代表一个单独的乳腺肿块样本，特征是从数字化的FNA图像中计算得出的