内容简介 · · · · · ·
本书介绍了实用机器学习的工作流程,主要从实用角度进行了描述,没有数学公式和推导。本书涵盖了数据收集与处理、模型构建、评价和优化、特征的识别、提取和选择技术、高级特征工程、数据可视化技术以及模型的部署和安装,结合3个真实案例全面、详细地介绍了整个机器学习流程。后,还介绍了机器学习流程的扩展和大数据应用。
本书可以作为程序员、数据分析师、统计学家、数据科学家解决实际问题的参考书,也可以作为机器学习爱好者学习和应用的参考书,还可以作为非专业学生的机器学习入门参考书,以及专业学生的实践参考书。
作者简介 · · · · · ·
HenrikBrink(亨里克·布林克)是一名数据科学家,对应用机器学习进行工业和学术应用开发有着丰富的经验。
JosephRichards(约瑟夫W?理查兹)也是一位数据科学家,具有应用统计和预测分析方面的专业知识。Henrik和Joseph是Wise.io的联合创立者,Wise.io是一家提供工业机器学习解决方案的开发商。
MarkFetherolf(马克·弗特罗夫)是数据管理和预测分析公司NuminaryDataScience的创始人和总裁。他曾在社会科学研究、化学工程、信息系统性能、容量规划、有线电视和在线广告应用等方面担任统计师和分析数据库开发人员。
目录 · · · · · ·
推荐序
作者序
致谢
译者序
关于本书
作者简介
关于封面插图
第1部分机器学习工作流程
第1章什么是机器学习
1.1理解机器学习
1.2使用数据进行决策
1.2.1传统方法
1.2.2机器学习方法
1.2.3机器学习的五大优势
1.2.4面临的挑战
1.3跟踪机器学习流程:从数据到部署
1.3.1数据集合和预处理
1.3.2数据构建模型
1.3.3模型性能评估
1.3.4模型性能优化
1.4提高模型性能的高级技巧
1.4.1数据预处理和特征工程
1.4.2用在线算法持续改进模型
1.4.3具有数据量和速度的规模化模型
1.5总结
1.6本章术语
第2章实用数据处理
2.1起步:数据收集
2.1.1应包含哪些特征
2.1.2如何获得目标变量的真实值
2.1.3需要多少训练数据
2.1.4训练集是否有足够的代表性
2.2数据预处理
2.2.1分类特征
2.2.2缺失数据处理
2.2.3简单特征工程
2.2.4数据规范化
2.3数据可视化
2.3.1马赛克图
2.3.2盒图
2.3.3密度图
2.3.4散点图
2.4总结
2.5本章术语
第3章建模和预测
3.1基础机器学习建模
3.1.1寻找输入和目标间的关系
3.1.2寻求好模型的目的
3.1.3建模方法类型
3.1.4有监督和无监督学习
3.2分类:把数据预测到桶中
3.2.1构建分类器并预测
3.2.2非线性数据与复杂分类
3.2.3多类别分类
3.3回归:预测数值型数据
3.3.1构建回归器并预测
3.3.2对复杂的非线性数据进行回归
3.4总结
3.5本章术语
第4章模型评估与优化
4.1模型泛化:评估新数据的预测准确性
4.1.1问题:过度拟合与乐观模型
4.1.2解决方案:交叉验证
4.1.3交叉验证的注意事项
4.2分类模型评估
4.2.1分类精度和混淆矩阵
4.2.2准确度权衡与ROC曲线
4.2.3多类别分类
4.3回归模型评估
4.3.1使用简单回归性能指标
4.3.2检验残差
4.4参数调整优化模型
4.4.1机器学习算法和它们的调整参数
4.4.2网格搜索
4.5总结
4.6本章术语
第5章基础特征工程
5.1动机:为什么特征工程很有用
5.1.1什么是特征工程
5.1.2使用特征工程的5个原因
5.1.3特征工程与领域专业知识
5.2基本特征工程过程
5.2.1实例:事件推荐
5.2.2处理日期和时间特征
5.2.3处理简单文本特征
5.3特征选择
5.3.1前向选择和反向消除
5.3.2数据探索的特征选择
5.3.3实用特征选择实例
5.4总结
5.5本章术语
第2部分实 际 应 用
第6章案例:NYC出租车数据
6.1数据:NYC出租车旅程和收费信息
6.1.1数据可视化
6.1.2定义问题并准备数据
6.2建模
6.2.1基本线性模型
6.2.2非线性分类器
6.2.3包含分类特征
6.2.4包含日期-时间特征
6.2.5模型的启示
6.3总结
6.4本章术语
第7章高级特征工程
7.1高级文本特征
7.1.1词袋模型
7.1.2主题建模
7.1.3内容拓展
7.2图像特征
7.2.1简单图像特征
7.2.2提取物体和形状
7.3时间序列特征
7.3.1时间序列数据的类型
7.3.2时间序列数据的预测
7.3.3经典时间序列特征
7.3.4事件流的特征工程
7.4总结
7.5本章术语
第8章NLP高级案例:电影评论情感预测
8.1研究数据和应用场景
8.1.1数据集初探
8.1.2检查数据
8.1.3应用场景有哪些
8.2提取基本NLP特征并构建初始模型
8.2.1词袋特征
8.2.2用朴素贝叶斯算法构建模型
8.2.3tf-idf算法规范词袋特征
8.2.4优化模型参数
8.3高级算法和模型部署的考虑
8.3.1word2vec特征
8.3.2随机森林模型
8.4总结
8.5本章术语
第9章扩展机器学习流程
9.1扩展前需考虑的问题
9.1.1识别关键点
9.1.2选取训练数据子样本代替扩展性
9.1.3可扩展的数据管理系统
9.2机器学习建模流程扩展
9.3预测扩展
9.3.1预测容量扩展
9.3.2预测速度扩展
9.4总结
9.5本章术语
第10章案例:数字显示广告
10.1显示广告
10.2数字广告数据
10.3特征工程和建模策略
10.4数据大小和形状
10.5奇异值分解
10.6资源估计和优化
10.7建模
10.8K近邻算法
10.9随机森林算法
10.10其他实用考虑
10.11总结
10.12本章术语
10.13摘要和结论
附录常用机器学习算法
名词术语中英文对照
交易流程
发货方式
1、自动:在上方保障服务中标有自动发货的商品,拍下后,将会自动收到来自卖家的商品获取(下载)链接;
2、手动:未标有自动发货的的商品,拍下后,卖家会收到邮件、短信提醒,也可通过QQ或订单中的电话联系对方。
退款说明
1、描述:源码描述(含标题)与实际源码不一致的(例:描述PHP实际为ASP、描述的功能实际缺少、版本不符等);
2、演示:有演示站时,与实际源码小于95%一致的(但描述中有"不保证完全一样、有变化的可能性"类似显著声明的除外);
3、发货:手动发货源码,在卖家未发货前,已申请退款的;
4、服务:卖家不提供安装服务或需额外收费的(但描述中有显著声明的除外);
5、其他:如质量方面的硬性常规问题等。
注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。交易中的商品,卖家无法对描述进行修改!
注意事项
1、在未拍下前,双方在QQ上所商定的内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准);
2、在商品同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外);
3、在没有"无任何正当退款依据"的前提下,写有"一旦售出,概不支持退款"等类似的声明,视为无效声明;
4、虽然交易产生纠纷的几率很小,但请尽量保留如聊天记录这样的重要信息,以防产生纠纷时便于网站工作人员介入快速处理。