朴素贝叶斯分类器
朴素贝叶斯分类是一种简单的分类算法: 对于给出的待分类对象,求解此对象出现的条件下各个类别出现的概率,哪个最大,该对象就属于哪个类别
词向量
词向量一般是布尔类型的集合,即该集合中每个元素都表示其对应的单词是否在语料库中出现.
比如I am student
在语料库{"I","student"}
下的词向量是{1,0,1}
,这种模型通常称为词集模型,如果词向量元素是整形类型,每个元素表示相应单词在语料库中出现的次数(0代表没有出现),那么这种模型就叫做词袋模型
朴素贝叶斯分类
已知词向量, 就要计算,在当前词向量特征的情况下,分入类别1 2..的概率
词向量 X={x1,x2,x3,x4…}
分类 C1 , C2
求概率 P(C1|X) , P(C2|X)
P(Ci|X)=(P(X|Ci)P(Ci))/P(X)