文本分类python源码
时间: 2024-01-16 17:00:45 浏览: 91
文本分类是一种将文本数据按照预定义的类别进行归类的任务。而Python是一种流行的编程语言,可以用来实现文本分类的任务。
以下是一个用Python实现文本分类的简单示例代码:
```
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
# 训练数据
train_data = ['这个东西真好用', '这个东西真不好用', '这个东西非常好', '这个东西非常不好']
train_labels = [1, 0, 1, 0]
# 特征提取
vectorizer = CountVectorizer()
X_train = vectorizer.fit_transform(train_data)
# 训练模型
clf = MultinomialNB()
clf.fit(X_train, train_labels)
# 测试数据
test_data = ['这个东西不错']
X_test = vectorizer.transform(test_data)
# 进行预测
predicted_labels = clf.predict(X_test)
print(predicted_labels)
```
以上代码使用了 scikit-learn 库中的 `CountVectorizer` 和 `MultinomialNB` 类来实现文本分类任务。
首先,我们定义了训练数据和标签。训练数据是一些文本,标签是相应文本的类别。然后,我们使用 `CountVectorizer` 类对训练数据进行特征提取,将文本转换为向量表示。接着,我们使用 `MultinomialNB` 类来训练一个朴素贝叶斯分类器。最后,我们定义了一条测试数据,并使用训练好的分类器对测试数据进行预测,输出预测结果。
这只是一个简单的示例,实际的文本分类任务可能会更复杂,需要根据具体情况选择更为适合的特征提取方法和分类算法。但是这个示例代码可以帮助你开始入门文本分类的Python实现。
阅读全文
相关推荐
















