书名:机器学习流水线实战
定*:109.8
ISBN:9787**55732*6
作者:汉内斯·哈普克,凯瑟琳·纳尔逊
版次:第*版
出版时间:202*-**
内容提要:
本书介绍如何构建完整的机器学习流水线,从而在生产环境中准备数据以及训练、验证、*署和管理机器学习模型。你将了解机器学习流水线的每个环节,以及如何利用TensorFlow Extended(TFX)构建机器学习流水线。模型的生命周期是*个闭环,其中*括数据读取、数据校验、数据预处理、模型训练、模型分析、模型验证、模型*署、模型反馈等环节。你将学习如何利用Beam、Airflow、Kubeflow、TensorFlow Serving等工具将每*个环节的工作自动化。学完本书,你将*再止步于训练单个模型,而是能够从更*的角度将模型产品化,从而为公司*造更大的*值。
作者简介:
汉内斯·哈普克(Hannes Hapke),数据*,善于解决各行各业的机器学习问题,与他人合著有《自然语言处理实战》。 凯瑟琳·纳尔逊(Catherine Nelson),数据*,牛津大学硕士,长期为企业提供机器学习解决方案。 【译者介绍】 孔晓泉,谷歌认证机器学习*业人士,TensorFlow Addons的Codeowner之*,上海TensorFlow User Group核心组织者,多年来*直在*500强公司带*团队构建机器学习应用和平台。另外,他还作为技术审稿人参与了TensorFlow文档的本地化工作。 郑炜,明尼苏达大学双子城分校机械工程硕士,伊利诺伊大学香槟分校机械工程学士,谷歌认证机器学习*业人士,ABB电气事业*中*技术中心算法项目经理、算法工程师,参与算法开发和算法工作流搭建等工作。 江骏,蚂蚁集团技*业人士(花名“有练”)、谷歌认证机器学习*业人士、蚂蚁云原生机器学习平台技术负责人,*注于AI基础架构和训练框架*化。
目录:
本书赞誉 xiii
序 xv
前言 xvii
第 * 章 入门 *
*.* 为什么要用机器学习流水线 *
*.2 什么时候考虑使用机器学习流水线 2
*.3 机器学习流水线步骤概述 3
*.3.* 数据读取和版本控制 4
*.3.2 数据校验 4
*.3.3 数据预处理 4
*.3.4 模型训练和模型调* 5
*.3.5 模型分析 5
*.3.6 模型版本控制 5
*.3.7 模型*署 6
*.3.8 反馈循环 6
*.3.9 数据隐私 6
*.4 流水线编排 7
*.4.* 为什么使用流水线编排工具 7
*.4.2 有向*环图 7
*.5 示例项目 8
*.5.* 项目结构 9
*.5.2 机器学习模型 9
*.5.3 示例项目的目标 *0
*.6 小结 *0
第 2 章 TensorFlow Extended入门 **
2.* 什么是TFX *2
2.2 安装TFX *3
2.3 TFX组件概述 *4
2.4 什么是机器学习元数据 *5
2.5 交互式流水线 *6
2.6 TFX的替代品 *7
2.7 Apache Beam简介 *8
2.7.* 安装 *8
2.7.2 基本数据流水线 *9
2.7.3 执行流水线 22
2.8 小结 22
第 3 章 数据读取 23
3.* 数据读取的概念 23
3.*.* 读取本地数据文件 24
3.*.2 读取远程数据文件 29
3.*.3 直接从数据库中读取数据 29
3.2 数据准备 3*
3.2.* 拆分数据集 3*
3.2.2 跨越数据集 33
3.2.3 对数据集进行版本控制 34
3.3 数据读取策略 34
3.3.* 结构化数据 35
3.3.2 自然语言处理中的文本数据 35
3.3.3 用于计算机视觉问题的图像数据 35
3.4 小结 36
第 4 章 数据校验 37
4.* 为什么要进行数据校验 38
4.2 TFDV 39
4.2.* 安装 39
4.2.2 根据数据生成统计信息 40
4.2.3 从数据生成模式 4*
4.3 识别数据中的问题 42
4.3.* 比较数据集 43
4.3.2 更新模式 44
4.3.3 数据偏斜和漂移 45
4.3.4 存在偏差的数据集 46
4.3.5 在TFDV中切分数据 47
4.4 使用GCP处理大型数据集 49
4.5 将TFDV集成到机器学习流水线中 5*
4.6 小结 53
第 5 章 数据预处理 54
5.* 为什么要进行数据预处理 55
5.*.* 在整个数据集的上下文中预处理数据 55
5.*.2 扩展预处理步骤 55
5.*.3 避*训练–服务偏斜 55
5.*.4 将预处理步骤和机器学习模型作为*个工件进行*署 56
5.*.5 检查流水线中的预处理结果 56
5.2 使用TFT做数据预处理 57
5.2.* 安装 58
5.2.2 预处理策略 58
5.2.3 最佳实践 60
5.2.4 TFT函数 60
5.2.5 TFT的*立执行 63
5.2.6 将TFT集成到机器学习流水线中 64
5.3 小结 67
第 6 章 模型训练 68
6.* 定义示例项目的模型 69
6.2 TFX Trainer组件 72
6.2.* run_fn()函数 72
6.2.2 运行Trainer组件 76
6.2.3 其他关于Trainer组件的注意事项 77
6.3 在交互式流水线中使用TensorBoard 78
6.4 分布策略 80
6.5 模型调整 82
6.5.* *参数调整的策略 82
6.5.2 TFX流水线中的*参数调整 83
6.6 小结 83
第 7 章 模型分析和模型验证 84
7.* 如何分析模型 85
7.*.* 分类指标 85
7.*.2 回归指标 87
7.2 TensorFlow模型分析 88
7.2.* 用TFMA分析单个模型 88
7.2.2 用TFMA分析多个模型 9*
7.3 模型公平性分析 93
7.3.* 用TFMA划分模型预测 94
7.3.2 用公平性指标检查决策阈值 96
7.3.3 详解假设分析工具 98
7.4 模型可解释性 *02
7.4.* 使用WIT生成模型解释 *03
7.4.2 其他模型解释方法 *05
7.5 用TFX进行分析和验证 *06
7.5.* ResolverNode *06
7.5.2 Evaluator组件 *07
7.5.3 用Evaluator组件进行验证 *07
7.5.4 TFX Pusher组件 *08
7.6 小结 *09
第 8 章 用TensorFlow Serving*署模型 **0
8.* 简单的模型服务器 ***
8.2 基于Python API*署模型的缺点 **2
8.2.* 缺少代码隔离 **2
8.2.2 缺少模型版本控制 **2
8.2.3 低效的模型推算 **2
8.3 TensorFlow Serving **3
8.4 TensorFlow Serving架构概述 **3
8.5 为TensorFlow Serving导出模型 **3
8.6 模型签名 **5
8.7 查看导出的模型 **7
8.7.* 查看模型 **8
8.7.2 测试模型 **9
8.8 设置TensorFlow Serving *20
8.8.* Docker安装 *20
8.8.2 原生Ubuntu安装 *20
8.8.3 从源码编译TensorFlow Serving *2*
8.9 配置TensorFlow服务器 *2*
8.9.* 单*模型配置 *2*
8.9.2 多模型配置 *24
8.*0 REST与gRPC *26
8.*0.* REST *26
8.*0.2 gRPC *26
8.** 用模型服务器预测 *26
8.**.* 用REST获得模型预测 *26
8.**.2 通过gRPC使用TensorFlow Serving *28
8.*2 用TensorFlow Serving进行模型A/B测试 *3*
8.*3 从模型服务器获取模型元数据 *32
8.*3.* 使用REST请求模型元数据 *32
8.*3.2 使用gRPC请求模型元数据 *33
8.*4 批量推算请求 *34
8.*5 配置批量预测 *35
8.*6 其他TensorFlow Serving*化方法 *36
8.*7 TensorFlow Serving的替代品 *37
8.*7.* BentoML *37
8.*7.2 Seldon *38
8.*7.3 GraphPipe *38
8.*7.4 Simple TensorFlow Serving *38
8.*7.5 MLflow *38
8.*7.6 Ray Serve *39
8.*8 在云端*署 *39
8.*8.* 用例 *39
8.*8.2 在GCP上进行示例*署 *39
8.*9 使用TFX流水线进行模型*署 *44
8.20 小结 *45
第 9 章 使用TensorFlow Serving进行进*模型*署 *46
9.* 解耦*署环节 *46
9.*.* 工作流概述 *47
9.*.2 *化远程模型加载 *49
9.2 为*署模型进行*化 *49
9.2.* 量化 *49
9.2.2 剪枝 *50
9.2.3 蒸馏 *5*
9.3 在TensorFlow Serving中使用TensorRT *5*
9.4 TFLite *52
9.4.* 用TFLite*化模型的步骤 *52
9.4.2 使用TensorFlow Serving实例*署TFLite模型 *53
9.5 监测TensorFlow Serving实例 *54
9.5.* 设置Prometheus *54
9.5.2 TensorFlow Serving配置 *56
9.6 使用TensorFlow Serving和Kubernetes进行简单的扩容 *57
9.7 小结 *59
第 *0 章 TensorFlow Extended的*级功能 *60
*0.* 流水线的*级功能 *60
*0.*.* 同时训练多个模型 *6*
*0.*.2 导出TFLite模型 *62
*0.*.3 热启动模型训练 *64
*0.2 人工审核 *65
*0.2.* *建Slack组件 *66
*0.2.2 如何使用Slack组件 *66
*0.3 TFX自定义组件 *67
*0.3.* 自定义组件的应用场景 *68
*0.3.2 从零*建自定义组件 *68
*0.3.3 复用现有组件 *76
*0.4 小结 *79
第 ** 章 流水线第 **分:Apache Beam和Apache Airflow *80
**.* 选择哪种编排工具 *8*
**.*.* Apache Beam *8*
**.*.2 Apache Airflow *8*
**.*.3 Kubeflow Pipelines *8*
**.*.4 AI Platform上的Kubeflow Pipelines *82
**.2 将交互式TFX流水线转换为生产流水线 *82
**.3 Beam和Airflow的简单交互式流水线转换 *84
**.4 Apache Beam简介 *85
**.5 使用Apache Beam编排TFX流水线 *85
**.6 Apache Airflow简介 *87
**.6.* 安装和初始设置 *87
**.6.2 基本Airflow示例 *88
**.7 使用Apache Airflow编排TFX流水线 *9*
**.7.* 流水线设置 *92
**.7.2 运行流水线 *93
**.8 小结 *94
第 *2 章 流水线第二*分:Kubeflow Pipelines *95
*2.* Kubeflow Pipelines概述 *96
*2.*.* 安装和初始设置 *98
*2.*.2 访问已安装的Kubeflow Pipelines *99
*2.2 使用Kubeflow Pipelines编排TFX流水线 200
*2.2.* 流水线设置 202
*2.2.2 运行流水线 206
*2.2.3 Kubeflow Pipelines的有用功能 2**
*2.3 基于Google Cloud AI Platform的流水线 2*5
*2.3.* 流水线设置 2*5
*2.3.2 TFX流水线设置 2*8
*2.3.3 运行流水线 22*
*2.4 小结 222
第 *3 章 反馈循环 223
*3.* 显式反馈和隐式反馈 224
*3.*.* 数据飞轮 224
*3.*.2 现实*中的反馈循环 225
*3.2 收集反馈的设计模式 227
*3.2.* 用户根据预测采取了某些措施 227
*3.2.2 用户对预测的质量进行评分 228
*3.2.3 用户纠正预测 228
*3.2.4 众*打标 228
*3.2.5 *家打标 229
*3.2.6 自动产生反馈 229
*3.3 如何跟踪反馈循环 229
*3.3.* 跟踪显式反馈 230
*3.3.2 跟踪隐式反馈 230
*3.4 小结 23*
第 *4 章 机器学习的数据隐私 232
*4.* 数据隐私问题 232
*4.*.* 为什么关心数据隐私 232
*4.*.2 最简单的加强隐私*护的方法 233
*4.*.3 哪些数据需要*密 233
*4.2 差分隐私 234
*4.2.* 局*差分隐私和*局差分隐私 235
*4.2.2 epsilon、delta和隐私预算 235
*4.2.3 机器学习的差分隐私 236
*4.3 TensorFlow Privacy 236
*4.3.* 使用差分隐私*化器进行训练 237
*4.3.2 计算epsilon 238
*4.4 联邦学习 239
*4.5 加密机器学习 24*
*4.5.* 加密模型训练 24*
*4.5.2 将训练好的模型转换为加密的预测服务 242
*4.6 其他数据*密方法 243
*4.7 小结 243
第 *5 章 流水线的未来和下*步 244
*5.* 模型实验跟踪 244
*5.2 关于模型发布管理的思考 245
*5.3 未来的流水线能力 246
*5.4 TFX与其他机器学习框架 246
*5.5 测试机器学习模型 247
*5.6 用于机器学习的CI/CD系统 247
*5.7 机器学习工程社区 247
*5.8 小结 247
附录A 机器学习基础架构简介 249
附录B 在Google Cloud上设置Kubernetes集群 262
附录C 操作Kubeflow Pipelines的技巧 268
关于作者 276
关于封面 276

机器学习流水线实战 TensorFlow深度学习
0
累计收藏
0
累计销量
立即购买
加入购物车
收藏
客服
该商品还没有人评价