语言模型
模型指的是对事物的数学抽象,语言模型就是对语言现象的数学抽象
每个词的概率通过模拟人们说话的顺序,预测下一个单词的概率,一个单词一个单词的相乘, 就有了一句话的概率
一句话有多种不同的分词方式, 每种分词方式的概率都可以通过上述计算
但这样有一个问题, 遇到长的句子的时候, 概率会非常低(想象(1/n)^n
), 都无穷接近0时, 导致无法区分, 而且
马尔可夫
马尔可夫链: 给定时间线上有一串时间顺序发生,假设每个事件的发生概率只取决于前一个事件,那么这船事件构成的因果链被称作马尔可夫链
在语言模型中, 马尔可夫链假设每个单词的概率只于他前一个单词有关
采用马尔可夫链的语言模型也叫二元语法模型
由此我们可以得出n元语法模型,没个词的概率与它之前的n个词有关
计算词的概率为P(wi|wi-1)
它代表在wi-1的条件下wi发生的概率
P(wi|wi-1)=c(wi-1,wi)/c(wi-1)
c(wi-1,wi)代表语料库中(wi-1 wi)这个词组出现的次数
c(wi-1)代表语料库中(wi-1)这个词出现的次数
中文分词语料库
语言模型只是一个函数的骨架, 参数需要有语料库的支撑
语料库的制定需要大量人力物力, 一般使用公开的语料库
语料库统计
语料库统计, 就是统计语料库字数,词语种数,总词频等
语料库种数: 不重复的词语的数量
总词频: 语料库中总共出现了多少个词
训练
训练: 是指给定样本集(训练集)调整模型参数的过程
预测
预测: 指的是利用模型对样本进行推断的过程.