自然语言处理入门
自然语言处理是一门融合了计算机科学,人工智能以及语言学的交叉学科, 这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类的语言,最终实现理解人类语言
自然语言处理的层次
语音,图像和文本
在自然语言处理中,语音和图像都会通过处理,如语音识别,光学字符识别等转化为文本,然后再开始自然语言处理任务中文分词,词性标注和命名实体识别
这三个人物都是围绕词语进行,统称为词法分析, 其主要任务就是将文本分隔为有意义的词语(中文分词),确定每个词语的词性和浅层的歧义消除(词性标注),并且识别一些较长的专有名词(命名实体识别)信息抽取
词法分析结束以后,文本呈现的是结构化的单词列表, 信息抽取通过算法抽取出需要的信息,比如抽取出文本中所有公司, 抽取出句子的关键词文本分类和文本聚类
文本分类是将文本分门别类整理出来
文本聚类是将相似的文本归档,排除重复文档,而不关系文档具体类别句法分析
词法分析只能得到零散的词汇, 还不知道词与词之间的联系, 句法分析就是得到词语词之间的关系语义分析与篇章分析
语义分析区别于语法分析,侧重语义而非语法,包括词义消歧(确定一个多义词在句子中的意思),语义角色标注(标注谓语与句子其他成分的关系),语义依存分析(分析句子中词语之间的语义关系)
自然语言处理的历史
基础研究 | 基于规则的专家系统 | 基于统计的学习方法 | 深度学习 |
---|---|---|---|
1950 年首次提出”机器能否思考” | 1980 年第一个基于规则的专家系统 | 1990 年,统计模型语料库 | 2010 年后,深层神经网络 |
机器学习
机器学习是指: 不直接编程却能赋予计算机提高能力的方法;
指计算机通过某项任务的经验数据提高了在该项任务上的能力.
机器学习的重要概念
模型: 模型是对现实问题的数学抽象,由一个假设函数以及一系列参数构成
在机器学习中, 算法指机器学习的方法, 模型指被机器学习的算法
模型参数指特征权重或特征优先级特征: 特征是指事物的特点转化成的数值(要提取事物的哪些特征需要取决于具体的问题)
提取特征的过程称为特征提取
自动提取特征的模板称为特征模板
设计特征模板的过程称为特征过程数据集: 数据集可以理解为机器学习的习题集, 在自然语言处理中称为语料库, 数据集中的一个实例称为样本
监督学习: 数据集附带标准答案,机器通过与答案的对比,慢慢修正模型参数, 迭代学习
迭代学习的过程称为训练
训练用到的数据集称为训练集
利用训练后的模型进行计算的过程称为预测无监督学习: 没有答案的训练
无监督学习一般用于聚类和降为, 两者不需要标注数据
语料库
语料库作为自然语言处理的数据集, 是机器学习不可或缺的习题集, 每个语料库都有不同用途; 语料规则难以制定,规范难以执行.