朴素贝叶斯的一般过程:
- 收集数据:anyway
- 准备数据:需要数值型或者布尔型数据
- 分析数据:有大量特征时,绘制特征作用不大,此事使用直方图更好
- 训练算法:计算不同的独立特征的条件概率
- 测试算法:计算错误率
- 使用算法:文档分类
准备数据:从文本中构建词向量(将句子转换为向量)
def loadDataSet():
postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
['stop', 'posting', 'stupid', 'worthless', 'garbage'],
['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
classVec = [0,1,0,1,0,1] #1代表侮辱性,0代表非侮辱性
return postingList,classVec
def createVocabList(dataSet):#创建一个包含在所有文档中出现的不重复的词的列表
vocabSet = set([])
for document in dataSet:
vocabSet=vocabSet | set(document)#创建并集的合集
return list(vocabSet)
#词汇表中的单词在输入文档中是否出现
def setofWords2Vec(vocabList,inputSet):
returnVec=[0]*len(vocabList)
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)]=1
else:
print("the word:%s is not in my voca"%word)
return returnVec#返回文档向量 0,1组成
#测试:
listoPosts,listClasses=bayes.loadDataSet()
myVocabList=bayes.createVocabList(listoPosts)
print(myVocabList)
returnVec=bayes.setofWords2Vec(myVocabList,listoPosts[0])
print(returnVec)
训练算法:从词汇量计算概率
# =============================================================================
# 伪代码
# 计算每个类别中的文档数目
# 对每篇训练文档:
# 对每个类别:
# 如果词条中出现文档中->增加该词条的计数值
# 增加所有词条的计数值
# 对每个类别:
# 对每个词条:
# 将该词条的数目除以总词条数目得到条件概率
# 返回每个类别的条件概率
# =============================================================================
#trainNB0(文档矩阵,每篇文档类别标签所构成的向量)
def trainNB0(trainMatrix,trainCategory):
numTrainDocs=len(trainMatrix)#训练样本的数量
numWords=len(trainMatrix[0])#训练样本的特征
pAbusive=sum(trainCategory)/float(numTrainDocs)#文档属于侮辱性文档的概率 trainCategory=[0,1,0,1,0,1]
# =============================================================================
# 利用贝叶斯分类器对文档进行分类时,
# 要计算多个概率的乘积以获得文档属于某个类别的概率。
# 如果其中一个概率值为0,那最后的乘积也为0。
# 为降低这种影响将所有词的出现次数初始化为1,并将分母初始化为2。
# =============================================================================
p0Num=np.ones(numWords)#Return a new array of given shape and type, filled with ones.
p1Num=np.ones(numWords)
p0Denom=2.0;p1Denom=2.0
for i in range(numTrainDocs):
if trainCategory[i]==1:#侮辱性
p1Num+=trainMatrix[i]#某个单词在侮辱性文档中的出现次数+1
p1Denom+=sum(trainMatrix[i])#侮辱性单词总数
else:#非侮辱性
p0Num+=trainMatrix[i]
p0Denom+=sum(trainMatrix[i])
p1Vect=np.log(p1Num/p1Denom)#数组除以浮点数,对应单词在侮辱性文档中出现的概率P(Wi|C1)
p0Vect=np.log(p0Num/p0Denom)#P(Wi|C1)
return p0Vect,p1Vect,pAbusive#返回分类器训练的结果
#测试:
listoPosts,listClasses=loadDataSet()
myVocabList=bayes.createVocabList(listoPosts)
trainMat=[]
for postinDoc in listoPosts:
trainMat.append(bayes.setofWords2Vec(myVocabList,postinDoc))
p0V,p1V,pAb=bayes.trainNB0(trainMat,listClasses)
print(p0V)
print(p1V)
测试算法:根据现实情况修改分类器
def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
p1=sum(vec2Classify*p1Vec)+np.log(pClass1)#log[P(W|Ci)*P(Ci)]=log[P(W|Ci)]+log[P(Ci)]
p0=sum(vec2Classify*p0Vec)+np.log(1-pClass1)
if p1>p0:
return 1
else:
return 0
def testNB():
listOPosts,listClasses=loadDataSet()
myVocabList=createVocabList(listOPosts)
trainMat=[]
for postinDoc in listOPosts:
trainMat.append(setofWords2Vec(myVocabList,postinDoc))
p0V,p1V,pAb=trainNB0(trainMat,listClasses)#训练分类器
print(p0V,p1V,pAb)
testEntry=['love','my','dalmation']
thisDoc=np.array(setofWords2Vec(myVocabList,testEntry))
print(testEntry,end=' classified as ')
print(classifyNB(thisDoc,p0V,p1V,pAb))
#测试:
testNB()
0000