语言模型

语言模型

模型指的是对事物的数学抽象,语言模型就是对语言现象的数学抽象

每个词的概率通过模拟人们说话的顺序,预测下一个单词的概率,一个单词一个单词的相乘, 就有了一句话的概率
一句话有多种不同的分词方式, 每种分词方式的概率都可以通过上述计算

但这样有一个问题, 遇到长的句子的时候, 概率会非常低(想象(1/n)^n), 都无穷接近0时, 导致无法区分, 而且

马尔可夫

马尔可夫链: 给定时间线上有一串时间顺序发生,假设每个事件的发生概率只取决于前一个事件,那么这船事件构成的因果链被称作马尔可夫链

在语言模型中, 马尔可夫链假设每个单词的概率只于他前一个单词有关

采用马尔可夫链的语言模型也叫二元语法模型

由此我们可以得出n元语法模型,没个词的概率与它之前的n个词有关

计算词的概率为P(wi|wi-1)它代表在wi-1的条件下wi发生的概率

P(wi|wi-1)=c(wi-1,wi)/c(wi-1)

c(wi-1,wi)代表语料库中(wi-1 wi)这个词组出现的次数
c(wi-1)代表语料库中(wi-1)这个词出现的次数

中文分词语料库

语言模型只是一个函数的骨架, 参数需要有语料库的支撑

语料库的制定需要大量人力物力, 一般使用公开的语料库

语料库统计

语料库统计, 就是统计语料库字数,词语种数,总词频等

语料库种数: 不重复的词语的数量
总词频: 语料库中总共出现了多少个词

训练

训练: 是指给定样本集(训练集)调整模型参数的过程

预测

预测: 指的是利用模型对样本进行推断的过程.