使用scikit-learn库中乳腺癌数据集
时间: 2024-12-26 18:10:47 浏览: 191
在Python的scikit-learn库中,有一个内置的数据集叫做`Breast Cancer Wisconsin (Diagnostic)`,也称为WDBC数据集。这是一个用于二分类任务的经典数据集,通常用于机器学习入门教程中展示监督学习的概念,特别是支持向量机(SVM)、决策树、随机森林等算法的应用。
该数据集包含569个样本,每个样本有30个特征(如形状、纹理、密度等),以及一个标签,表示乳腺组织是正常(非恶性)还是癌症。它是一个特征齐全的示例,可以帮助初学者理解如何预处理数据、划分训练集和测试集、选择模型,并评估模型性能。
使用这个数据集的基本步骤包括:
1. 导入库和加载数据集:
```python
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
```
2. 数据探索和预处理:
```python
X = data.data # 特征数组
y = data.target # 目标变量
```
3. 划分训练集和测试集:
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
4. 训练模型并进行预测:
```python
from sklearn.svm import SVC # 示例:支持向量机
model = SVC()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
```
5. 评估模型性能:
```python
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, predictions)
```
阅读全文
相关推荐



















