本书从实用的角度较为全面地展现了数据科学的主要内容,并结合大量的实际项目案例,利用R语言详细地讲解了数据项目的开发过程和关键技术。本书包括三个部分共11章的内容,主要介绍了数据科学项目的处理过程、选择合适的建模方法,也讨论了bagging算法、随机森林、广义加性模型、核和支持向量机等高级建模方法。此外,还讨论了文档编制和结果部署,以及如何向组织内不同的受众展现项目结果。本书适合作为高等院校高年级本科生和研究生及从事数据管理与分析工程技术人员的主要参考书。
暂缺《数据科学:理论、方法与R语言实践》作者简介
目 录译者序序言前言第一部分 数据科学引论第1章 数据科学处理过程21.1 数据科学项目中的角色21.2 数据科学项目的阶段41.2.1 制定目标51.2.2 收集和管理数据51.2.3 建立模型71.2.4 模型评价和批判81.2.5 展现和编制文档91.2.6 模型部署和维护101.3 设定预期111.4 小结12第2章 向R加载数据142.1 运用文件中的数据142.1.1 在源自文件或URL的良结构数据上使用R152.1.2 在欠结构数据上使用R172.2 在关系数据库上使用R192.2.1 一个生产规模的示例202.2.2 从数据库向R系统加载数据232.2.3 处理PUMS数据252.3 小结28第3章 探索数据293.1 使用概要统计方法发现问题303.2 用图形和可视化方法发现问题343.2.1 可视化检测单变量的分布353.2.2 可视化检测两个变量间的关系423.3 小结51第4章 管理数据524.1 清洗数据524.1.1 处理缺失值524.1.2 数据转换564.2 为建模和验证采样614.2.1 测试集和训练集的划分614.2.2 创建一个样本组列624.2.3 记录分组634.2.4 数据溯源634.3 小结63第二部分 建模方法第5章 选择和评价模型665.1 将业务问题映射到机器学习任务675.1.1 解决分类问题675.1.2 解决打分问题685.1.3 目标未知情况下的处理695.1.4 问题到方法的映射715.2 模型评价715.2.1 分类模型的评价725.2.2 打分模型的评价765.2.3 概率模型的评价785.2.4 排名模型的评价825.2.5 聚类模型的评价825.3 模型验证845.3.1 常见的模型问题的识别 845.3.2 模型可靠性的量化855.3.3 模型质量的保证865.4 小结88第6章 记忆化方法896.1 KDD和KDD Cup 2009896.2 构建单变量模型916.2.1 使用类别型特征926.2.2 使用数值型特征946.2.3 使用交叉验证估计过拟合的影响966.3 构建多变量模型976.3.1 变量选择976.3.2 使用决策树996.3.3 使用最近邻方法1026.3.4 使用朴素贝叶斯1056.4 小结108第7章 线性回归与逻辑斯谛回归1107.1 使用线性回归1107.1.1 理解线性回归1107.1.2 构建线性回归模型1137.1.3 预测1147.1.4 发现关系并抽取建议1177.1.5 解读模型概要并刻画系数质量1187.1.6 线性回归要点1227.2 使用逻辑斯谛回归1237.2.1 理解逻辑斯谛回归1237.2.2 构建逻辑斯谛回归模型1247.2.3 预测1257.2.4 从逻辑斯谛回归模型中发现关系并抽取建议1297.2.5 解读模型概要并刻画系数1307.2.6 逻辑斯谛回归要点1367.3 小结137第8章 无监督方法1388.1 聚类分析1388.1.1 距离1398.1.2 准备数据 1408.1.3 使用hclust()进行层次聚类1428.1.4 k-均值算法1508.1.5 分派新的点到簇1548.1.6 聚类要点1568.2 关联规则1568.2.1 关联规则概述1568.2.2 问题举例1578.2.3 使用arules程序包挖掘关联规则1588.2.4 关联规则要点1658.3 小结165第9章 高级方法探索1669.1 使用bagging和随机森林方法减少训练方差1679.1.1 使用bagging方法改进预测1679.1.2 使用随机森林方法进一步改进预测1709.1.3 bagging和随机森林方法要点1739.2 使用广义加性模型学习非单调关系1739.2.1 理解GAM1749.2.2 一维回归示例1749.2.3 提取非线性关系1789.2.4 在真实数据上使用GAM1799.2.5 使用GAM实现逻辑斯谛回归1829.2.6 GAM要点1839.3 使用核方法提高数据可分性1839.3.1 理解核函数1849.3.2 在问题中使用显式核函数1879.3.3 核方法要点1909.4 使用SVM对复杂的决策边界建模1909.4.1 理解支持向量机1909.4.2 在人工示例数据中使用SVM1929.4.3 在真实数据中使用SVM1959.4.4 支持向量机要点1979.5 小结197第三部分 结果交付第10章 文档编制和部署20010.1 buzz数据集20010.2 使用knitr产生里程碑文档20210.2.1 knitr是什么20210.2.2 knitr 技术详解20410.2.3 使用knitr编写buzz数据文档20510.3 在运行时文档编制中使用注释和版本控制20810.3.1 编写有效注释20810.3.2 使用版本控制记录历史20910.3.3 使用版本控制探索项目21310.3.4 使用版本控制分享工作21710.4 模型部署22010.4.1 将模型部署为R HTTP服务22010.4.2 按照输出部署模型22210.4.3 要点22310.5 小结224第11章 有效的结果展现22611.1 将结果展现给项目出资方22711.1.1 概述项目目标22811.1.2 陈述项目结果22911.1.3 补充细节23011.1.4 提出建议并讨论未来工作23111.1.5 向项目出资方展现的要点23211.2 向最终用户展现模型23211.2.1 概述项目目标23211.2.2 展现模型如何融入用户的工作流程23311.2.3 展现如何使用模型23511.2.4 向最终用户展现的要点23611.3 向其他数据科学家展现你的工作23611.3.1 介绍问题23611.3.2 讨论相关工作23711.3.3 讨论你的方法23811.3.4 讨论结果和未来工作23911.3.5 向其他数据科学家展现的要点24011.4 小结240附录A 使用R和其他工具241附录B 重要的统计学概念263附录C 更多的工具和值得探索的思路292参考文献297索引299
数据科学:理论、方法与R语言实践pdf