朴素贝叶斯

最新推荐文章于 2020-01-07 20:11:04 发布

转载最新推荐文章于 2020-01-07 20:11:04 发布 · 474 阅读

ML 专栏收录该内容

10 篇文章

订阅专栏

朴素贝叶斯的一般过程:

收集数据:anyway
准备数据:需要数值型或者布尔型数据
分析数据:有大量特征时，绘制特征作用不大，此事使用直方图更好
训练算法:计算不同的独立特征的条件概率
测试算法:计算错误率
使用算法:文档分类

准备数据:从文本中构建词向量(将句子转换为向量)

def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]    #1代表侮辱性，0代表非侮辱性
    return postingList,classVec

def createVocabList(dataSet):#创建一个包含在所有文档中出现的不重复的词的列表
     vocabSet = set([])
     for document in dataSet:
         vocabSet=vocabSet | set(document)#创建并集的合集
     return list(vocabSet)

#词汇表中的单词在输入文档中是否出现
def setofWords2Vec(vocabList,inputSet):
    returnVec=[0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)]=1
        else:
            print("the word:%s is not in my voca"%word)
    return returnVec#返回文档向量 0,1组成

#测试:
listoPosts,listClasses=bayes.loadDataSet()
myVocabList=bayes.createVocabList(listoPosts)
print(myVocabList)
returnVec=bayes.setofWords2Vec(myVocabList,listoPosts[0])
print(returnVec)

训练算法:从词汇量计算概率

# =============================================================================
# 伪代码
# 计算每个类别中的文档数目
# 对每篇训练文档:
#     对每个类别:
#         如果词条中出现文档中->增加该词条的计数值
#         增加所有词条的计数值
#     对每个类别:
#         对每个词条:
#             将该词条的数目除以总词条数目得到条件概率
#     返回每个类别的条件概率
# =============================================================================
#trainNB0(文档矩阵，每篇文档类别标签所构成的向量)
def trainNB0(trainMatrix,trainCategory):
    numTrainDocs=len(trainMatrix)#训练样本的数量
    numWords=len(trainMatrix[0])#训练样本的特征
    pAbusive=sum(trainCategory)/float(numTrainDocs)#文档属于侮辱性文档的概率  trainCategory=[0,1,0,1,0,1]
# =============================================================================
# 利用贝叶斯分类器对文档进行分类时，
# 要计算多个概率的乘积以获得文档属于某个类别的概率。
# 如果其中一个概率值为0，那最后的乘积也为0。
# 为降低这种影响将所有词的出现次数初始化为1，并将分母初始化为2。
# =============================================================================
    p0Num=np.ones(numWords)#Return a new array of given shape and type, filled with ones.
    p1Num=np.ones(numWords)
    p0Denom=2.0;p1Denom=2.0
    for i in range(numTrainDocs):
        if trainCategory[i]==1:#侮辱性
            p1Num+=trainMatrix[i]#某个单词在侮辱性文档中的出现次数+1
            p1Denom+=sum(trainMatrix[i])#侮辱性单词总数
        else:#非侮辱性
            p0Num+=trainMatrix[i]
            p0Denom+=sum(trainMatrix[i])
            
            
    p1Vect=np.log(p1Num/p1Denom)#数组除以浮点数，对应单词在侮辱性文档中出现的概率P(Wi|C1)
    p0Vect=np.log(p0Num/p0Denom)#P(Wi|C1)
    return p0Vect,p1Vect,pAbusive#返回分类器训练的结果


#测试:
 listoPosts,listClasses=loadDataSet()
 myVocabList=bayes.createVocabList(listoPosts)
 trainMat=[]
 for postinDoc in listoPosts:
     trainMat.append(bayes.setofWords2Vec(myVocabList,postinDoc))
 p0V,p1V,pAb=bayes.trainNB0(trainMat,listClasses)
 print(p0V)
 print(p1V)

测试算法:根据现实情况修改分类器

def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
    p1=sum(vec2Classify*p1Vec)+np.log(pClass1)#log[P(W|Ci)*P(Ci)]=log[P(W|Ci)]+log[P(Ci)]
    p0=sum(vec2Classify*p0Vec)+np.log(1-pClass1)
    if p1>p0:
        return 1
    else:
        return 0


def testNB():
    listOPosts,listClasses=loadDataSet()
    myVocabList=createVocabList(listOPosts)
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setofWords2Vec(myVocabList,postinDoc))
    p0V,p1V,pAb=trainNB0(trainMat,listClasses)#训练分类器
    print(p0V,p1V,pAb)
    testEntry=['love','my','dalmation']
    thisDoc=np.array(setofWords2Vec(myVocabList,testEntry))
    print(testEntry,end=' classified as ')
    print(classifyNB(thisDoc,p0V,p1V,pAb))


#测试:
testNB()

0000