利用数据集跑pycharm
时间: 2025-04-21 09:47:16 浏览: 18
### 如何在 PyCharm 中加载和处理数据集
#### 加载 CSV 文件中的房价数据
为了在 PyCharm 中加载 CSV 文件,可以利用 `pandas` 库来读取文件。确保已安装 pandas 可通过命令 `pip install pandas` 完成。
```python
import pandas as pd
# 假设CSV文件名为 'house_prices.csv' 并位于项目的根目录下
file_path = './house_prices.csv'
df_house_prices = pd.read_csv(file_path)
print(df_house_prices.head()) # 显示前几行以验证是否成功加载[^1]
```
#### 使用 Sklearn 导入 MNIST 数据集
对于像 MNIST 这样的大型标准数据集,则可以直接从互联网获取而无需手动下载文件。这里展示如何借助 scikit-learn 的工具函数轻松完成这一操作:
```python
from sklearn.datasets import fetch_openml
# 下载MNIST手写数字识别数据集
mnist = fetch_openml('mnist_784', version=1)
X_mnist, y_mnist = mnist["data"], mnist["target"]
# 对目标变量做适当调整以便后续建模工作
y_mnist = y_mnist.astype(np.int)
X_mnist = X_mnist.to_numpy()
print(f"Data shape: {X_mnist.shape}") # 输出特征矩阵大小
print(f"Target shape: {y_mnist.shape}") # 输出标签向量长度[^2]
```
上述两部分代码分别展示了两种不同类型的常见数据集——结构化表格型(如房地产价格记录)以及图像类(如手写字体样本)。无论是哪种情况,在实际应用之前都需要先理解所使用的具体数据格式及其特点,并据此采取相应的预处理措施。
阅读全文
相关推荐


















