社会计算是近十年来快速发展起来的一个新兴的研究领域,它一方面依托于近年社交网络技术以及应用的快速发展,使得越来越多的网络用户之间产生自联接、自媒体、自选择的内容传播新方式,并且带来了关于针对文本内容深入挖掘与分析的强大动力基础;另一方面传统社会学对于社会活动领域中的分析方法,特别是基于网络化的社会化分析方法,使得人们发现在庞大的网络数据中,可以充分地利用其中的一些指标与算法进行有效的度量与分析,从而使得社会网络分析方法从技术角度上再次获得了新的生命力。在这两股力量的共同作用与影响下,社会计算领域中大量的研究成果也在不断涌现出来。因此,本书从社会计算和自然语言处理与文本挖掘两个角度出发,针对社会舆情分析过程中存在的核心方法进行综合介绍。
CCF 会员; ACM会员 。负责或主持过国家863RFID重大专项“基于RFID的信息集成管理技术研究与开发”(2006AA04A118); 北京市科委重大专项以及海淀区科技项目与博士后科研基金项目等多项;国家科技部火炬计划项目(高技术成果转化协同创新平台与示范)国家社科基金重大项目(“基于多学科理解的社会网络分析模型研究”第5子课题:虚拟Web网络空间中的社会网 络模型与个体行为机制研究)陕西省科技攻关项目: 基于专家知识地图的科技协同创新平台关键技术研究与应用(2012K11-18)、基于网络化感知计算的智慧社区管理关键技术与应用(2013K06-20);2013年,陕西省社科重点项目“中小企业首席工程师交流互动平台”机制研究;2012年,西安市技术转移促进工程项目:社会网络环境下的跨学科知识协同创新关键技术研究(CX12178(3))榆林市科技局“产学研”合作项目(科技资源统筹协同平台建设)等10余项。
第 1章社会计算与社会舆情分析概述 1
1.1 社会计算的概念与关键技术 1
1.1.1 Web2.0与社会化软件的特征 1
1.1.2 社会计算的概念 3
1.1.3 社会计算与社会智能研究的核心内容 6
1.2 社会舆情的特征与分析方法 10
1.2.1 社会舆情的概念与特征 10
1.2.2 网络舆情的形成和演化过程 11
1.2.3 网络舆情的关键技术与方法 13
1.3 本书的知识结构 15
参考文献 17
实验室相关工作文献 17
第 2章社会网络分析理论与相关技术基础 18
2.1 社会网络分析方法 18
2.1.1 社会网络分析方法的发展与研究的问题域 18
2.1.2 社会网络分析方法的主要理论与概念体系 24
2.1.3 社会网络分析的主要研究方法与分析工具 28
2.2 自然语言处理 31
2.2.1 自然语言处理的基本问题 31
2.2.2 中文分词 32
2.2.3 命名实体识别 33
2.2.4 共指消解 34
2.2.5 实体关系的抽取 34
2.2.6 事件探测与追踪 35
2.3 数据挖掘与机器学习方法概述 35
2.3.1 数据挖掘与机器学习方法 35
2.3.2 基于 Web的文本挖掘 39
2.4 本章小结 41
参考文献 42
第 3章中文文本特征与词分析技术 43
3.1 中文文本的基本特征 43
3.1.1 中文文本的基本特征 43
3.1.2 中文文本分析的任务与数据结构特征 45
3.1.3 中文文本句法结构分析 50
3.1.4 基于统计的句法分析方法 54
3.2 中文分词技术 55
3.2.1 中文分词的核心问题 55
3.2.2 基于规则的中文分词的关键技术与算法 58
3.2.3 基于统计的中文分词的关键技术与算法 60
3.2.4 基于理解的分词方法 65
3.2.5 主要中文分词工具 65
3.3 主题词库的构建 67
3.3.1 主题词基本概念 67
3.3.2 主题词间的关系定义 69
3.3.3 主题词的抽取方法 71
3.3.4 主题词库的构建 73
3.4 本章小结 79
参考文献 80
实验室相关工作 80
第 4章社会网络环境下的文本数据预处理技术 81
4.1 文本数据的词义冲突与数据消歧 81
4.1.1 文本数据存在的词义冲突与消歧 81
4.1.2 基于知识的词义消歧方法 83
4.1.3 无监督的词义消歧技术 86
4.1.4 有监督的词义消歧技术 89
4.2 文本数据的稀疏性与降维 90
4.2.1 数据稀疏问题及解决 91
4.2.2 数据平滑技术 92
4.2.3 数据降维方法 93
4.3 数据融合 97
4.3.1 数据融合的概念与方法 98
4.3.2 实体的识别与统一表示 99
4.3.3 数据冲突处理 102
4.3.4 数据关联 103
4.4 本章小结 104
参考文献 104
实验室相关工作 106
第 5章文本聚类方法分析 107
5.1 聚类基础概念 107
5.1.1 聚类算法的定义 107
5.1.2 聚类算法的目标与基本数据结构 108
5.1.3 数据对象距离及相似度度量 109
5.1.4 其他数据类型与相似度度量 111
5.2 常用的文本聚类算法 113
5.2.1 文本聚类的基本需求 113
5.2.2 文本聚类方法 114
5.2.3 文本聚类结果的评价方法 120
5.3 基于文本数据流的聚类方法121
5.3.1 数据流问题的背景 121
5.3.2 数据流基本概念与模型 122
5.3.3 数据流聚类方法 124
5.3.4 演化分析技术 129
5.4 本章小结 131
参考文献 131
实验室相关工作 133
第 6章文本分类方法134
6.1 分类基础概念 134
6.1.1 分类问题的定义 134
6.1.2 文本分类与目标 135
6.1.3 分类算法的评价 136
6.2 基于概率的贝叶斯分类方法137
6.2.1 贝叶斯概率公式 138
6.2.2 朴素贝叶斯分类原理 138
6.2.3 基于朴素贝叶斯分类算法的文本分类器设计 139
6.2.4 贝叶斯网络模型 141
6.3 基于核的分类算法 143
6.3.1 支持向量机算法 143
6.3.2 核函数的定义 145
6.3.3 多类问题的求解算法 147
6.4 其他分类器的常用构造算法149
6.4.1 Rocchio分类算法 149
6.4.2 KNN算法 149
6.4.3 Boosting算法 151
6.5 本章小结 152
参考文献 153
第 7章信息抽取与摘要自动生成技术 154
7.1 命名实体的识别与抽取技术154
7.1.1 命名实体识别的基本任务 154
7.1.2 人名实体抽取 156
7.1.3 地名实体抽取方法 160
7.1.4 机构名实体抽取方法 163
7.2 网络文本数据中的实体间关系的抽取165
7.2.1 实体关系的定义与基本分类 165
7.2.2 存在关系的实体对抽取方法 166
7.2.3 基于核函数的实体关系抽取方法 168
7.3 话题识别与追踪技术(TDT)171
7.3.1 话题识别与追踪需要解决的问题与目标 171
7.3.2 话题识别与追踪的经典方法 173
7.3.3 话题识别与追踪的评价方法 175
7.4 自动摘要生成技术 176
7.4.1 自动文档摘要生成所需要解决的问题与目标 176
7.4.2 单文档自动摘要生成技术 178
7.4.3 多文档自动文摘生成的关键技术 181
7.4.4 自动摘要系统的评价标准 183
7.5 本章小结 185
参考文献 185
第 8章社会网络中社区识别与信息传播188
8.1 网络社区的识别 188
8.1.1 网络社区的概念 189
8.1.2 网络社区的特征与关键问题 191
8.1.3 基于非重叠社区的发现算法 195
8.1.4 基于重叠的网络社区发现与识别算法 198
8.1.5 社区发现算法评价方法 201
8.2 网络信息的传播模型 203
8.2.1 网络信息传播中的基本问题 203
8.2.2 行动者影响力分析 204
8.2.3 信息传播动力学模型 207
8.3 链接预测模型与方法 211
8.3.1 链接预测的概念与主要目标 212
8.3.2 链接预测存在的主要算法分类与指标 212
8.3.3 链接预测存在的经典算法 215
8.4 本章小结 218
参考文献 218
第 9章社会网络下的情感分析221
9.1 情感计算的基本概念与问题挑战221
9.1.1 情感分析的概念与研究目标 221
9.1.2 情感词的识别与标注 223
9.1.3 情感词典的构建 225
9.2 文本的主/客观分析与观点挖掘分析方法228
9.2.1 文本的主/客观分析方法 228
9.2.2 观点挖掘分析方法 229
9.3 情感分析与计算方法 232
9.3.1 基于词的经典情感计算与分析方法 232
9.3.2 不同粒度下的情感分析方法 234
9.3.3 文档主体对象的情感倾向分析方法 240
9.3.4 跨领域文档的情感倾向分析方法 245
9.3.5 情感计算评价方法 245
9.4 本章小结 246
参考文献 247
第 10章数据可视化技术250
10.1 可视化技术概述 250
10.1.1 可视化技术的基本概念与目标 250
10.1.2 可视化技术的分类 252
10.2 社会网络可视化的静态分析方法260
10.2.1 社会网络环境下的可视化方法介绍 260
10.2.2 力导引布局(Force-directed Layout)相关算法 262
10.2.3 层次布局(Tier-based Layout) 264
10.2.4 树形布局(Tree-based Layout) 269
10.3 动态可视化交互方法与可视化模式挖掘技术273
10.3.1 可视化的动态交互与形变技术 274
10.3.2 可视化模式挖掘与分析方法 277
10.4 数据可视化的质量评价方法278
10.4.1 数据可视化的质量评价模型 278
10.4.2 数据可视化的质量评价指标 280
10.5 本章小结 281
参考文献 282
第 11章社会计算与舆情分析应用284
11.1 社会网络舆情分析与应用284
11.1.1 分析指标体系与分析模型的建立 284
11.1.2 分析平台的建立与应用 288
11.2 企业社会网络分析与应用289
11.2.1 企业社会网络构造方法 290
11.2.2 企业特征的抽取 291
11.2.3 企业社会网络服务平台与可视化分析 292
11.3 专家网络与知识图谱应用293
11.3.1 专家模型的构建与属性抽取规则 293
11.3.2 专家模型中的属性消歧与网络构建 297
11.4 专利地图的应用298
11.4.1 专利地图的研究与制作方法 298
11.4.2 专利地图的构建与分析 299
11.5 金融风险预测与分析应用302
11.6 本章小结304
参考文献 305
第 12章社会计算与舆情分析的技术发展趋势307
12.1 大数据与数据世系 308
12.2 基于机器学习的类人脑科学的演化310
12.3 社会计算向社会智能的演化312
12.4 小结 314
参考文献 315
附录 A基于信息传播的分类及网站示例 317
附录 B 基于 LDA模型的候选主题词抽取算法描述318
附录 C常用的中文停用词表321
附录 D TBDC4TS聚类算法伪代码示意333
后记335
舆情计算方法与技术pdf