首页文本分类python源码

文本分类python源码

时间: 2024-01-16 17:00:45 浏览: 91

文本分类是一种将文本数据按照预定义的类别进行归类的任务。而Python是一种流行的编程语言，可以用来实现文本分类的任务。以下是一个用Python实现文本分类的简单示例代码： ``` import numpy as np from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB # 训练数据 train_data = ['这个东西真好用', '这个东西真不好用', '这个东西非常好', '这个东西非常不好'] train_labels = [1, 0, 1, 0] # 特征提取 vectorizer = CountVectorizer() X_train = vectorizer.fit_transform(train_data) # 训练模型 clf = MultinomialNB() clf.fit(X_train, train_labels) # 测试数据 test_data = ['这个东西不错'] X_test = vectorizer.transform(test_data) # 进行预测 predicted_labels = clf.predict(X_test) print(predicted_labels) ``` 以上代码使用了 scikit-learn 库中的 `CountVectorizer` 和 `MultinomialNB` 类来实现文本分类任务。首先，我们定义了训练数据和标签。训练数据是一些文本，标签是相应文本的类别。然后，我们使用 `CountVectorizer` 类对训练数据进行特征提取，将文本转换为向量表示。接着，我们使用 `MultinomialNB` 类来训练一个朴素贝叶斯分类器。最后，我们定义了一条测试数据，并使用训练好的分类器对测试数据进行预测，输出预测结果。这只是一个简单的示例，实际的文本分类任务可能会更复杂，需要根据具体情况选择更为适合的特征提取方法和分类算法。但是这个示例代码可以帮助你开始入门文本分类的Python实现。

阅读全文