小白—人工智能-CSDN博客

原创数据分析 —— 数据预处理

数据预处理是数据分析和机器学习中的关键步骤，旨在将原始数据转换为高质量、适合分析或建模的形式。其主要步骤包括数据清洗、数据集成、数据变换和数据归约。数据清洗涉及处理缺失值、噪声数据和不一致数据；数据集成解决多数据源的冗余和冲突；数据变换包括标准化、归一化、离散化和特征编码；数据归约通过特征选择和降维减少数据规模。预处理的目的是提高数据质量、优化模型性能、减少计算成本并适配算法需求。此外，数据检测、缺失值处理、重复值处理、异常值处理、数据合并和数据重塑也是预处理的重要环节。通过这些步骤，数据科学家可以确保数据

2025-05-17 11:14:33 1354 2

原创数据可视化 —— 饼图

展示不同品牌/产品在市场中的占有率。：分析公司各业务线或产品的收入占比。：按地区、行业或客户类型划分的用户比例。：显示企业或项目的资金分配（如研发、营销、人力等）。：展示时间、人力或物料在不同任务中的分配比例。：按年龄、性别、教育程度等划分的群体比例。：用户群体特征（如新用户/老用户、活跃度分布）。：问卷反馈的满意度（如“满意/中立/不满意”的占比）。：不同品类商品的库存占比。：分析问题原因的比例（如客户投诉类型分布）。：任务完成状态的占比（如已完成/进行中/未开始）。

2025-04-27 10:24:27 1237

原创数据可视化 —— 直方图

直方图（Histogram）是一种用表示数据分布的统计图表，它将数据划分为连续的区间（称为“分箱”或“区间”），统计每个区间内的数据频数（或频率），并用柱形的高度直观展示数据分布情况。观察数据集中趋势（如集中在哪个区间）、离散程度（如是否对称、是否存在长尾）或异常值。例：分析某班级学生考试成绩的分布，判断是否接近正态分布。分析图像像素的亮度或颜色分布，辅助调整对比度、曝光或均衡化。例：Photoshop 中的直方图可帮助摄影师优化照片的明暗细节。监测生产过程中产品的规格（如零件尺寸）是否符合标准。

2025-04-27 10:21:47 1143

原创机器学习 —— K近邻

k 近邻算法是一种简单且经典的监督学习算法，既可用于分类问题，也可用于回归问题。其核心思想是：对于一个待预测的样本，找到训练数据中与它 “距离最近” 的 k 个邻居，根据这 k 个邻居的类别（分类任务）或数值（回归任务）来决定该样本的预测结果。

2025-04-16 21:58:26 1130

原创数据可视化 —— 条形图应用（大全）

对比不同类别、组别或时间点的数值差异。不同产品的销售额对比；各城市人口数量排名；部门间的年度预算分配。展示分类数据的频数或比例。不同年龄段用户的占比；客户满意度调查中各评分等级（满意、一般、不满意）的分布。

2025-04-16 13:08:46 974

原创数据可视化 —— 多边图应用（大全）

该文章聚焦于利用 Python 进行数据可视化。借助 matplotlib 和 numpy 库，以 fast 风格创建了一个标题为 “多边形图” 的图形窗口，并设置字体为楷体、解决负号显示问题。通过 numpy 生成从 0 到 29 的整数数组作为 x 轴数据，同时生成两个包含 30 个 1 到 20 随机整数的数组分别作为 y1 和 y2 轴数据。最后使用 matplotlib 的 fill_between 函数，在 y1 与固定值 10 之间填充了黄色半透明区域，直观呈现数据关系

2025-04-11 18:43:44 1171

原创数据可视化 —— 堆形图应用（大全）

本文章围绕 Python 编程环境下运用 matplotlib 和 pandas 库开展数据可视化工作展开。首先借助 pandas 的 read_excel 函数读取包含不同产品各季度销售额数据的 Excel 文件。接着，利用 matplotlib 构建图形窗口，对字体、负号显示等进行设置。随后，绘制了产品 A、B、C 各季度销售额的堆积柱状图，设置了图形标题、坐标轴标签与范围。同时，在各柱状图中间位置添加具体销售额数值的文本标签，最后添加带阴影和圆角边框的图例以清晰区分不同产品。

2025-04-11 18:29:06 521

原创数据可视化 —— 柱形图应用（大全）

本文围绕使用 Python 进行数据可视化展开，借助matplotlib和pandas库，以 ' 全校高二年级各班男女生英语成绩评估.xlsx' 文件中的数据为基础，绘制了直观的多柱形图。代码首先设置了图形窗口的参数与字体，确保中文正常显示。接着读取 Excel 文件，提取班级名称、男生和女生平均成绩等关键数据。然后，精心调整柱形图的宽度、坐标轴范围及刻度标签，让图表布局合理。同时，在柱形图中间添加了精确到一位小数的平均成绩数据标签，增强可读性..........

2025-04-10 23:15:10 736 1

原创数据可视化 —— 折线图应用（大全）

plt.xticks([原数据标签], [替换后的数据标签], rotation=300)：用于x轴数据标签的显示，rotation是倾斜度。plt.grid(which（网格类型）="major", axis（方向）='both', lw（线的宽度）=1)：添加网格线。plt.title('标题名', loc='left')：图上的名字显示，loc代表显示的位置在哪里。plt.ylabel('气温(度)')：y轴的显示标签。plt.xlabel('日期')：x轴的显示标签。

2025-04-10 18:20:47 670

原创 Jupyter Notebook 的常用快捷键

Jupyter Notebook 的常用快捷键分类总结，结合了命令模式与编辑模式的操作

2025-03-17 16:54:45 1039

原创 Python —— random.choice()的用法

常见应用场景

2025-03-16 17:52:53 1162

原创 Python —— time 模块中的 ctime()

time 模块中的 ctime()

2025-03-16 17:43:41 133

原创 Python —— replace()函数的用法

【代码】Python —— replace()函数的用法。

2025-03-16 15:57:30 930

原创 Python —— items()方法

Python 字典的items()方法是一个非常重要的内置方法，用于获取字典中所有键值对的动态视图。

2025-03-16 13:44:51 657

原创 Python —— get()函数

在 Python 中，get()是字典（dict）类型的内置方法，用于安全地获取字典中指定键对应的值。它的核心作用是KeyError。

2025-03-14 11:23:25 974

原创 Python —— jieba库

jieba是一个高效的中文分词库，支持精确模式、全模式、搜索引擎模式等多种分词方式，适用于文本分析、自然语言处理等场景。

2025-03-09 10:46:14 690 4

原创 Python —— pow()函数

【代码】Python —— pow()函数

2025-03-08 21:13:54 549

原创 Python —— turtle库

【代码】Python —— turtle库

2025-03-08 20:39:27 1193

原创 Python —— 随机数

【代码】Python —— 随机数

2025-02-16 15:25:33 201

原创 Python —— format函数的使用

将这些数字按照输入顺序输出，每个数字占10个字符宽度，右对齐，所有数字显示在同一行。分隔占位符和格式化选项，可以对插入的值进行各种格式化设置，如宽度、对齐方式、精度等。可以在占位符中指定索引，这样可以控制值替换占位符的顺序，索引从 0 开始。可以使用宽度指定输出的最小字符数，还可以指定对齐方式（左对齐。还可以使用字典作为参数，通过在占位符中使用键名来引用字典中的值。方法支持在占位符中使用格式化选项，通过在大括号内使用冒号。方法将这个字符串按照逗号进行分割，生成一个列表。

2025-02-16 14:21:57 513

原创 java —— 面向对象（下）

java的继承、接口使用、多态、异常、包详细教程。

2025-01-27 16:33:04 940

原创 java —— 面向对象（上）

在 Java 中，封装是面向对象编程的三大基本特性之一（另外两个是继承和多态），封装是一种将对象的内部状态和实现细节隐藏起来，通过公共方法提供对这些状态的访问和修改的编程机制。它有助于提高代码的安全性、可维护性和模块化，是面向对象编程中非常重要的一个概念。

2025-01-24 12:02:30 739

原创 java —— 数组（超详细教程）

介绍：这期讲的是java的原生数组，也就是list（静态空间），空间是写死的；后期的ArrayList是动态数组。我们需要先认识基础的格式，方便后面的ArrayList学习。

2025-01-20 15:58:09 3804 1

原创 java —— 方法、方法重载、方法递归

类定义：主方法：：程序的入口点，程序从这里开始执行。：：：自定义方法：：：：类定义和主方法：方法：

2025-01-20 10:36:21 1006

原创有一个4*5的矩阵如下，要求编写程序计算总和与平均值，并找出其中值最大的那个元素输出，以及其所在的行号和列号。

【代码】有一个4*5的矩阵如下，要求编写程序计算总和与平均值，并找出其中值最大的那个元素输出，以及其所在的行号和列号。

2024-12-28 22:32:51 525

原创 Linux —— 搭建Apache服务器

在 Linux 中，权限通常用数字表示，每个数字对应一组权限（读、写、执行），分别针对文件所有者、所属组和其他用户。是 “change mode”（改变模式）的缩写，它是一个用于改变文件或目录权限的 Linux 命令。因为Apachen的默认文件是index.html，而我们的个人Wed文件是yinzhen.html。后面是个人的用户名！根据自己的ip和设置的域名添加。

2024-12-21 19:15:20 1940

原创 Linux —— 管理进程

他们在工作的时候，舞台上的表演（你的终端操作）不受影响，你还可以继续在舞台上做其他事情。例如，你让电脑在后台下载一个很大的文件。命令，用户可以获取有关进程的各种详细信息，如进程 ID（PID）、父进程 ID（PPID）、CPU 使用率、内存使用率、运行状态、启动时间等。当你在舞台上表演（执行任务）时，台下的观众（你自己）都只能看着你表演，不能做别的事情，这就是前台任务。比如你在终端打开一个文本编辑器来编辑文件，在你关闭这个文本编辑器之前，你不能在这个终端做其他操作了，这个文本编辑器的操作就是前台任务。

2024-12-19 16:21:11 1310

数据分析 - 数据预处理，使用的数据

数据分析 - 数据预处理，使用的数据

Linux - 管理软件包 jdk操作资料文件

空空如也