《自然语言处理基本理论和方法/高等学校“十二五”规划教材·计算机软件工程系列》对自然语言处理的基本理论和方法进行介绍。主要内容包括字符集的编码体系、语言计算模型、语言学资源建设、自然语言的词法分析、句法分析和语义分析等。《自然语言处理基本理论和方法/高等学校“十二五”规划教材·计算机软件工程系列》内容源于作者多年的教学及科研心得,适合作为高等院校计算机相关专业本科生及研究生课程的教材。
暂缺《自然语言处理基本理论和方法》作者简介
第1章 绪论
1.1 什么是自然语言处理
1.2 自然语言处理的研究内容
1.3 自然语言处理的应用领域
1.4 自然语言处理中用到的知识
1.5 自然语言处理面临的困难
1.5.1 歧义现象的处理
1.5.2 未知语言现象的处理
1.6 自然语言处理的基本方法及其发展
1.7 学科现状
1.8 语言、思维和理解
1.9 本书结构
本章小结
思考练习
第2章 语料库与词汇知识库
2.1 语料库
2.1.1 基本概念
2.1.2 语料库类型
2.1.3 典型语料库介绍
2.1.4 语料处理的基本问题
2.2 词汇知识库
2.2.1 WordNet
2.2.2 知网
本章小结
思考练习
第3章 n元语法模型
3.1 n元语法的基本概念
3.2 数据平滑技术
3.2.1 Laplace法则
3.2.2 GoodTrur1ng估计
3.2.3 绝对折扣和线性折扣
3.2.4 W1tten-Bell平滑算法
3.2.5 扣留估计
3.2.6 交叉校验
3.2.7 删除插值法
3.2.8 Katz回退算法
3.3 开发和测试模型的数据集
3.4 基于词类的n-gram模型
本章小结
思考练习
第4章 隐马尔科夫模型
4.1 马尔科夫模型
4.2 隐马尔科夫模型
4.3 HMM的三个基本问题
4.3.1 求解观察值序列的概率
4.3.2 确定最优状态序列
4.3.3 HMM的参数估计
本章小结
思考练习
第5章 常用机器学习方法简介
5.1 决策树
5.2 贝叶斯分类器
5.3 支持向量机
5.4 最大熵模型
5.5 感知器
5.6 Boost1ng
本章小结
思考练习
第6章 字符编码与字频统计
6.1 西文字符编码
6.2 中文字符编码
6.2.1 国标码
6.2.2 大五码
6.2.3 Un1code与1SO/1EC 10646
6.2.4 国标扩展码
6.2.5 GB 18030
6.3 字符编码知识的作用
6.4 字频统计
6.4.1 字频统计的应用
6.4.2 单字字频统计
6.4.3 双字字频统计
本章小结
思考练习
第7章 词法分析
7.1 汉语自动分词及其基本问题
7.1.1 分词规范与词表
7.1.2 切分歧义问题
7.1.3 未登录词识别问题
7.2 基本分词方法
7.2.1 最大匹配法
7.2.2 最少分词法
7.2.3 最大概率法
7.2.4 与词性标注相结合的分词方法
7.2.5 基于互现信息的分词方法
7.2.6 基于字分类的分词方法
7.2.7 基于实例的汉语分词方法
7.3 中文姓名识别
7.3.1 基于规则的方法
7.3.2 基于统计的方法
7.4 汉语自动分词系统的评价
7.5 英语形态还原
7.6 词性标注
7.6.1 词性标记集
7.6.2 基于规则的词性标注方法
7.6.3 基于统计的词性标注方法
本章小结
思考练习
第8章 句法分析
8.1 文法的表示
8.2 自顶向下的句法分析
8.3 自底向上的句法分析
8.3.1 移近一归约算法
8.3.2 欧雷分析法
8.3.3 线图分析法
8.3.4 cYK分析法
8.4 概率上下文无关文法
8.5 浅层句法分析
8.5.1 问题的提出
8.5.2 基于规则的方法
8.5.3 基于统计的方法
8.6 句法分析系统评测
本章小结
思考练习
第9章 语义分析
9.1 词义消歧
9.1.1 基于规则的词义消歧
9.1.2 基于统计的词义消歧
9.1.3 基于实例的词义消歧
9.1.4 基于词典的词义消歧
9.2 语义角色标注
9.2.1 格语法
9.2.2 基于统计机器学习技术的语义角色标注
9.3 深层语义推理
9.3.1 命题逻辑和渭词逻辑
9.3.2 语义网络
9.3.3 概念依存理论
本章小结
思考练习
参考文献
自然语言处理基本理论和方法pdf