南阳医疗网站建设公司,网站建设为什么要全款,重庆在线高校,网站建设易客梗概
本报告主要调研目前主流的机器学习平台#xff0c;包括但不限于Amazon的Sage maker#xff0c;Alibaba的PAI#xff0c;Baidu的PaddlePaddle。对产品的定位、功能、实践、定价四个方面进行详细解析#xff0c;并通过标杆对比分析提出一套机器学习平台评价体系#x…梗概
本报告主要调研目前主流的机器学习平台包括但不限于Amazon的Sage makerAlibaba的PAIBaidu的PaddlePaddle。对产品的定位、功能、实践、定价四个方面进行详细解析并通过标杆对比分析提出一套机器学习平台评价体系旨在给后续机器学习平台需求分析与实际开发提供评估与优化思路。 目录
引入机器学习平台简介
1.Sage maker
1.1 产品简介
1.2 功能分析
1.3 产品实践
1.3.1 低代码/无代码ML
1.3.2 IDE/Lab
1.3.3 ML的监测、调度与分析
1.4 产品定价
1.5 产品综述
2.PAI
2.1 产品简介
2.2 功能分析
2.3 产品实践
2.3.1 数据准备PAI-iTAG
2.3.2 模型开发/构建
2.3.3 模型训练PAI-DLC
2.3.4 模型部署
2.4 产品定价
2.5 产品综述
3.PaddlePaddle
3.1 产品简介
3.2 功能分析
3.3 产品实践
3.3.1 框架使用
3.3.2 工具组件
3.3.3 端到端开发套件
3.3.4 模型库
3.3.5 部署预测PaddleLite
3.3.6 AI开发平台
3.4 产品综述
4.标杆分析与总结
4.1 标杆分析
4.2 对比分析 引入机器学习平台简介
随着大数据、人工智能的火热机器学习任务迅速渗透到各个领域对于非代码工程师一个简单易用的可完成机器学习的工具是必要的对于代码工程师ML任务尤其DL任务数据与模型大小快速膨胀需要通过自动化、云端资源等手段来提高效率处理ML任务故机器学习平台开始被构建并逐渐火热。
一般来说一个机器学习平台需要具备数据接入、数据处理、模型构建、训练、验证、部署、监控与结果分析可视化等基本功能且还要在框架支持度、效率成本协调、技术架构选择等多方面考虑。
1.Sage maker
1.1 产品简介
本节首先对Sage maker进行基本情况的介绍总结如表1
表1 Sage maker简介 来源开发商/ 官网 Amazon / https://aws.amazon.com/cn/sagemaker/ 产品官方定位 通过完全托管的基础设施、工具和工作流程为任何用例构建、训练和部署机器学习 (ML) 模型 产品与开发文档 https://aws.amazon.com/cn/sagemaker/resources/
在官网中对产品的定位有进行一定描述性的补充如图1所示 图1 Sage maker定位补充描述
根据官网描述与调研分析Sage maker的几大核心竞争优势如下
Ⅰ、让更多人利用机器学习进行创新 Sage maker根据用户类型开发提供了对应的适应子产品主要目标人群及子产品总结如表2
表2 Sage maker子产品及对应目标人群 目标人群 子产品及简介 业务分析师BA SageMaker Canvas提供一个无代码、可视化、点击式的ML预测工具包含多模型可与数据科学家协同开发集成于常见的BI工具中 数据科学家 SageMaker Studio主要从数据角度分析数据科学研究相关问题提供一个适用于ML生命周期的全集成IDE ML工程师 SageMaker MLOps提供一个快速、大规模、高性能的机器学习模型开发与管理平台
补充针对ML初学者AWS提供了SageMaker Studio Lab进行学习与试验在不同的子产品中均有详细的产品文档与演示视频教学。
Ⅱ、支持领先的机器学习框架、工具包和编程语言 Sage maker支持大量主流机器学习语言与框架如图2所示增加用户的广度与模型的稳定性与可迁移性。 图2 Sage maker框架、工具、语言支持汇总
补充Sage maker同时集成了多种API适应多种软件开发工具Android、JS、iOS等
Ⅲ、大规模的高性能、低成本ML
Sage maker 建立在 Amazon 二十年来开发现实世界 ML 应用程序的经验之上这些应用程序包括产品推荐、个性化、智能购物、机器人技术和语音辅助设备根据官方数据Sage maker对用户的服务提升如图3所示 图3 Sage maker对用户的服务提升数据
Ⅳ、客户的优质选择 众多优秀、成功的客户选择使用Sage maker达成了长期、可持续的合作关系。
Ⅴ、产品文档与日志系统
除了Sage maker的产品文档Amazon为其相关子产品均建立了详细的文档供学习者与用户使用。此外官网主页还配备了日志系统及时发布Sage maker的新功能或优化。
1.2 功能分析
本节主要对Sage maker的功能进行详细的介绍与分析简介汇总如表3
表3 Sage maker功能及简介 功能 简介 自动模型超参数优化 按用户指定的ML模型、指标、要搜索的超参数通过指定的算法与超参数范围在数据集上多次训练来找到模型的最佳版本 Autopilot 根据用户的数据自动构建、训练和调整最佳 ML 模型同时保持完全控制和可见性提供模型与功能排行榜供选择并支持一键部署模型 Canvas 无代码的点击式可视化工具用于ML的预测支持不同来源的模型与跨工具数据共享 Clarify 使用各种指标检测和测量潜在偏差以便他们能够解决潜在偏差并解释模型预测 Data Wrangler 缩短汇总和准备ML数据的时间并从单个可视化界面完成数据准备工作流程的每个步骤包括数据选择、清理、探索和可视化 调试程序Debugger 通过实时自动捕获训练指标检测到异常时发送警报来优化 ML 模型缩短训练故障排除时间 部署 即Sage maker产品本身通过完全托管的方式帮助模型全流程 分布式训练库 使用分区算法自动拆分大型深度学习模型和训练数据库提升了相应流程的速度 Edge Manager 优化在主流框架中训练的模型使其轻松部署在任何边缘设备上 实验 一项托管服务用于大规模跟踪和分析 ML 实验 特征存放区 完全托管式的专用储存库用于存储、共享、管理ML模型特征 地理空间ML 利用地理空间数据卫星影像、地图和位置数据等更快地构建、训练和部署 ML 模型 Ground Truth 识别原始数据添加信息标记与生成标注合成数据提高训练集质量 JumpStart 一个ML中心用户可以通过点击式调用内置算法完成实际任务 SageMaker for K8 简化基于Kubernetes自动执行容器化应用程序的部署、扩展和管理的机器学习提供一个界面管理和调度ML工作流 模型监控器 自动收集并监控模型数据并内置分析与可视化在出现不准确数据时提醒用户始终保持ML模型的准确 笔记本 提供两种云端完全托管式Jupyter Notebook用于探索数据和构建机器学习模型 管道 专为ML构建的CI/CD服务大规模创建、自动化和管理端到端 ML 工作流 RStudio 用于数据科学和机器学习的完全托管的Rstudio IDE 影子测试 根据生成模型自动验证新ML模型性能以防止代价高昂的停机 Studio Lab 免费的ML学习开发环境 Studio 适用于机器学习的完全集成的IDE涵盖ML全生命周期 训练 与部署一致即产品本身的定位功能
补充除了功能分类在ML治理上Sage maker提供了专门的工具——Role Manager和Model Cards前者便于管理员定义权限后者简化了模型文档便于用户捕获、检索、和共享基本模型信息。
根据ML流程总结相关功能如图4所示 图4 ML流程分类Sage maker功能 在功能简介后集合相关功能再进行Sage maker竞争优势补充如下
Ⅰ、ML全流程服务 Sage maker向多种用户提供了包括但不限于模型构建、训练、部署的全流程服务并在不同阶段均提供了丰富的工具帮助监控与优化保证了效率的提升与性能的稳定。
Ⅱ、丰富的包容度
除了支持主流的框架、工具、语言外在多种不同数据和模型的来源与去向的选择上Sage maker提供了不同功能/工具进行接受、传输与存储还实现了迁移与部署的易操作性。
Ⅲ、数据与界面的清晰度 在Sage maker多种功能/工具中均提供了可视化界面用于直观地输出数据或模型的各种指标对比在部分功能中提供了一键式点击交互内置高效模型帮助用户快速完成实际任务并获取分析结果。
Ⅳ、工作流与资源调度合理
Sage maker大部分功能通过自动化提高用户ML任务的效率添加了管道合理化工作流通过子产品工具合理化模型的资源调度权衡了开销与能耗。
1.3 产品实践
本部分主要进行Sage maker的几个主要功能的实践并根据过程与结果流程图补充调研分析结果。
TipsSage maker大部分功能使用需要AMS账号故部分过程图来自官网与网络。
1.3.1 低代码/无代码ML
根据表3我们知道Sega maker提供了Data Wrangler、Autopilot、JumpStart、Canvas四个低代码/无代码ML平台/工具是对非ML/代码工程师的主力工具我们首先体验一下。
Ⅰ、Data Wrangler
根据表3我们知道Data Wrangler可以帮助用户高效完成数据准备的全过程如图5所示 图5 Data Wrangler主界面样例
分析根据图5我们可以看到在Data Wrangler中数据准备的每个步骤可视化为点击事件在单个主界面中点击不同step可以完成数据的不同操作主要操作汇总如图6 图6 Data Wrangler中对数据的主要操作左上为数据的查询与选择、右上为数据洞悉与质量分析、左下为数据预测能力分析、右下为数据可视化分析
Ⅱ、Autopilot
根据表3我们知道Autopilot在数据分析完全可见的情况下可以帮助用户高效完成自动构建、训练和调整最佳 ML 模型的过程如图7所示 图7 Autopilot模型决策样例 分析如图7所示Autopilot针对用户给定数据自动构建、训练多个模型并给出各种指标按需求择优选择。
Ⅲ、JumpStart 根据表3我们知道JumpStrat是一个ML中心将多种内置算法集合成页面的点击事件如图8所示。用户根据需求选择实际任务上传数据并接受返回结果。 图8 JumpStart主界面
Ⅳ、Canvas
根据表3与1.1中官网描述我们知道Canvas是主要面向BA工作者的无代码、可视化、点击式的ML预测工具主要功能如图9所示 图9 Canvas主要功能
补充详细教学可见教程 - 自动创建机器学习模型 - Amazon Web Services
总结在体验完Sage maker提供的四个低代码/无代码工具后对Sage maker的核心优势补充如下
Sage maker不仅服务于多种目标群体开发的低代码/无代码工具降低了机器学习任务的门槛大大提高了易用性与用户工作/研究效率。
1.3.2 IDE/Lab
根据表3我们知道Sage maker提供了Studio、Studio Lab、Rstudio三个集成开发环境是有一定代码能力的用户的主力工具我们接下来进行一下实践。
Ⅰ、Rstudio
根据表3我们知道Rstudio是用于数据科学和机器学习的基于云的、完全托管的Rstudio IDE在Sage maker上可以动态调度计算资源统一了R与Python的开发团队。
Ⅱ、Studio Lab
根据表3我们知道Studio Lab是带有一定资源的免费ML开发环境并支持一定时间的数据持久化主界面如图10所示编程页面样例如图11所示 图10 Studio Lab主界面 图11 Studio Lab编程界面样例
分析类似于Google Colab但Studio Lab更便于非VPN用户访问并跑相关的notebook且带有一定免费计算资源。
Ⅲ、Studio
根据表3我们知道Studio是Sage maker中适用于机器学习的完全集成的IDE涵盖ML全生命周期搭载Sage maker主要功能。主要功能总结如图12所示 图12 Studio主要功能汇总左上为数据的准备、右上为模型的构建、左下为模型训练、右中为模型的部署与管理、右下为数据的偏差检测
分析Studio是专用于ML的IDE大量内置热门模型除了主流代码编写页面还搭载了可视化页面符合ML任务的待分析性。
补充Amazon在2022年12月更新了Studio增加了导航栏嵌入了Sage maker的一些核心功能主界面如图13所示 图13 Studio主界面
总结在体验完Sage maker提供的三个IDE/Lab后对Sage maker的核心优势补充如下
Sage maker提供的开发工具在多团队协同、功能集成度、用户友好度上均有很好的表现。
1.3.3 ML的监测、调度与分析
根据表3我们知道Sega maker提供了Clarify、Debugger、模型监控器等几种功能帮助用户进行ML任务各阶段的数据、模型的监测、调度与分析我们进行一下实践。
Ⅰ、Clarify 根据表3我们知道Clarify使用各种指标检测和测量潜在偏差以便他们能够解决潜在偏差并解释模型预测如图14所示 图14 Clarify检测报告界面样例
分析如图14所示Clarify可以报告不同特征对模型的贡献在监测模型行为变化的同时保持其较高的可解释性并着重检测防止潜在偏差。
Ⅱ、模型监控器
根据表3我们知道模型监控器可以自动收集并监控模型数据并内置分析与可视化在出现不准确数据时提醒用户始终保持ML模型的准确如图15所示 图15 模型监控器页面
补充实际上模型监控器与Clarify在Sage maker中是集成的便于用户更高效地监控模型与数据的变化工具也会自动报告分析结果与警告提醒。
Ⅲ、Debugger
根据表3我们知道Debugger通过实时自动捕获训练指标检测到异常时发送警报来优化 ML 模型缩短训练故障排除时间如图16所示 图16 Debugger界面样例
分析Sage maker中的Debugger与AWS Lambda集成内置分析与自动监测协同了成本与效率使用较少资源较高效地在早期发现bug并报告用户。
总结在体验完Sage maker提供的几个模型/数据监测、调度与分析功能后对Sage maker的核心优势补充如下
Sage maker提供的调试与优化工具不仅实现自动化检测、分析与报告还在资源使用、效率间做了比较好的权衡且高集成度的合成功能加大了效率的提升度。 至此Sage maker的主要功能实践分析结束其他补充在后文对比分析时详述。
1.4 产品定价
Sage maker作为AWS的机器学习产品予用户予商家定价都是一个重要问题故在本节做一个产品定价的汇总Sage maker是按主要功能定价的详情页如下Amazon SageMaker 定价对于明确需求用户可以采取定价器AWS Pricing Calculator同时给出了免费套餐功能与资源如表4所示
表4 产品免费套餐内容 功能 免费套餐前 2 个月的每个月使用情况 Studio笔记本及实例 Studio 笔记本上的 250 个小时 ml.t3.medium 实例或者笔记本实例上的 250 个小时 ml.t2 medium 实例或 ml.t3.medium 实例 RStudio RSession 应用程序上 250 个小时的 ml.t3.medium 实例和 RStudioServerPro 应用程序的免费 ml.t3.medium 实例 Data Wrangler 25 个小时 ml.m5.4xlarge 实例 特征存放区 1000 万个写单元1000 万个读单元25 GB 存储 培训 50 个小时 m4.xlarge 或 m5.xlarge 实例 实时推理 125 个小时 m4.xlarge 或 m5.xlarge 实例 无服务器推理 150000 秒推理持续时间 Canvas 会话时间为 750 小时/月每月最多 10 个模型创建请求每个请求最多 100 万个单元/模型创建请求 免费套餐前 6 个月的每个月使用情况 实验 每个月提取 100,000 条指标记录检索 100 万条指标记录并存储 100,000 条指标记录
1.5 产品综述
在经过前四节的简介、功能分析、实践、定价计算后在本节对产品做综述如下
Sage maker是一个面向多用户、支持多框架/工具的ML平台主要产品为Studio涵盖ML任务全周期多功能实现自动化在成本与效率上也做了较好的平衡。
本次调研对于Sage maker的基本分析到此结束其他常见问题可见机器学习 - Amazon SageMaker 常见问题 - Amazon Web Services
2.PAI
2.1 产品简介
本节首先对PAI进行基本情况的介绍总结如表5PAI产品架构如图17所示
表5 PAI简介 来源开发商/ 官网 Alibaba / https://www.aliyun.com/product/bigdata/learn 产品官方定位 PAIPlatform of Artificial Intelligence是面向开发者和企业的机器学习/深度学习工程平台提供多种AI开发全链路服务内置140种优化算法具备丰富的行业场景插件为用户提供低门槛、高性能的云原生AI工程化能力 产品与开发文档 https://help.aliyun.com/product/30347.html 图17 PAI产品架构
根据官网描述与调研分析PAI的几大核心竞争优势如下
Ⅰ、简单易用 PAI服务支持单独或组合使用。支持一站式机器学习其中封装了140机器学习算法支持低代码模型训练和一键部署。
Ⅱ、底层支持多种计算框架
⚪ 流式计算框架Flink
⚪ 基于开源版本深度优化的深度学习框架TensorFlow
⚪ 千亿特征样本的大规模并行计算框架Parameter Server
⚪ Spark、PySpark、MapReduce等业内主流开源框架
补充除了计算框架PAI同时对接DataWorks支持SQL、UDF、UDAF、MR等多种数据处理方式灵活性高。
Ⅲ、高性能、低成本ML
高性能支持高维稀疏数据场景支持超大规模样本模型加速训练
低成本支持CPU/GPU混合调度云原生弹性伸缩计费灵活
Ⅳ、丰富的应用场景与插件 PAI提供多场景插件及方案帮助企业快速构建业务应用。在大模型平台、智能推荐
、用户增长、金融量化科学计算、端侧超分等实际应用场景中都适用且有优秀表现。
Ⅴ、产品文档与日志系统
除了PAI的产品文档Alibaba为其相关子产品均建立了详细的文档供学习者与用户使用。此外官网主页还配备了日志系统及时发布PAI的新功能或优化。此外在多种应用场景下还有PAI使用的详细指导。
2.2 功能分析
本节主要对PAI的功能进行详细的介绍与分析根据图17与文档简介汇总如表6
表6 PAI功能及简介 功能 简介 PAI-iTAG 在数据准备阶段提供智能化数据标注服务 PAI-Designer 在模型开发阶段提供低代码拖拽式可视化建模工具 PAI-DSW 在模型开发阶段提供类JupyterLab的交互式建模工具 PAI-DLC 在模型训练阶段提供一站式的云原生深度学习训练平台 PAI-EAS 在模型部署阶段提供模型在线预测服务弹性推理 PAI-Blade 在模型部署阶段提供推理的通用加速使其高效到达最优性能 AI资产管理 支持用户对模型、数据集、镜像等重要的AI生产资料及开发产出进行全生命周期管理并利用数据对比分析实现降本增效
在功能简介后集合相关功能再进行PAI竞争优势补充如下
Ⅰ、ML全流程服务 PAI向用户提供了包括但不限于模型构建、训练、部署的全流程服务并在不同阶段均提供了低代码/交互式的工具便于不同用户选择保证了效率的提升。
Ⅱ、相关应用场景实践 在不同功能/工具的介绍中均有对应的应用场景案例介绍与技术模块分析并将大部分优质实践收录阿里天池notebook供用户学习与复现。
Ⅲ、数据与界面的清晰度 在PAI几种功能/工具中均提供了可视化界面用于直观地输出数据或模型的各种指标对比与当前进度同时通过数据列表、分析图等多种展示方式降低分析难度。
2.3 产品实践
本部分主要进行PAI的几个主要功能的实践与应用场景的分析并根据过程与结果流程图补充调研分析结果。
其中PAI提供了一定免费资源与项目供用户体验详见产品控制台概览 (aliyun.com)
2.3.1 数据准备PAI-iTAG
根据表6我们知道PAI在数据准备阶段给用户提供了PAI-iTAG这一个子产品接下来进行一定的体验与分析。
PAI-iTAG是PAI下的智能标注平台有以下几个优势实现智能标注
①支持图像、文本、视频、音频等多种数据类型的标注以及多模态的混合标注
②与PAI-EAS部署的模型服务打通提供智能预打标工具和模型在线预标注
③提供标注模板、自定义标注、全外包标注三种标注方式选择
接入流程详见创建数据集用于数据标注 (aliyun.com)操作界面如图18 图18 PAI-iTAG操作界面样例
解决方案/应用场景官网并未明确给出但在大量ML任务的数据集构建中均适用数据集需支持iTAG数据标注格式
2.3.2 模型开发/构建
根据表6我们知道PAI在模型开发/构建阶段给用户提供了PAI-Designer与PAI-DSW两子产品接下来进行一定的体验与分析。
Ⅰ、PAI-Designer
根据表6我们知道PAI-Designer是一个零代码/低代码拖拽式可视化建模工具类似Sage maker Canvas有以下几个优势
①内置丰富的算法组件涵盖各种机器学习任务
②流批一体化训练支持离线训练与在线更新
③内置AutoML自动调参引擎便于用户选择最优模型 ④可视化0代码开发提高非代码从业者的易用性与数据清晰度 解决方案/应用场景PAI-Desinger在智能推荐、用户增长上提供了解决方案架构如图19所示在商品推荐、金融疯狂、文本分类、疾病预测等应用场景下可用。 图19 PAI-Designer解决方案架构左为智能推荐、右为用户增长
产品实践想使用PAI-Designer在控制台选择可视化建模创建工作流即可内置模板页面如图20以雾霾天气预报为例实际使用界面如图21结果可视化如图22所示 图20 PAI-Designer内置部分模板 图21 PAI-Designer操作页面样例 图22 PAI-Designer结果可视化样例
分析如图20、21、22所示针对多种应用场景PAI-Designer都内置了多种算法与解决方案供内置调用实际操作通过点击、拖拽等简单操作即可完成ML任务全流程将结果数据与指标持久化并通过列表、分析图等多种方式可视化帮助用户分析。
Ⅱ、PAI-DSW 根据表6我们知道PAI-DSW是一个集成JupyterLab、交互式的云端深度学习开发环境有以下几个优势 ①灵活易用Notebook交互式云端编程深度学习网络组件化支持可视化展现与修改同时提供组件代码转换
②支持自定义配置提供阿里深度优化的Tenorflow框架同时也支持开源框架供用户灵活配置
③全链路ML用户可以在DSW平台在线完成ML全流程
PAI-DSW在版本上提供个人版付费与探索者版限时免费资源有限产品使用流程为创建实例资源选择-上传数据在线开发、调试-运行代码生成模型-模型在线部署。 解决方案/应用场景AI企业深度学习解决方案、深度学习算法爱好者、教育与科研领域 产品实践对于PAI-DSW个人版在产品控制台付费开启再按使用流程创建工作流即可。对于PAI-DSW探索者版可以进入天池Notebook阿里大数据平台选择已有项目RUN即可开启实践或在自己的Lab新建Notebook进行ML任务详见天池实验室 在本节以PAI-DSW探索者版为例进行调研如图23所示 图23 PAI-DSW界面样例
分析如图23所示PAI-DSW可以在线利用云端资源自编代码完成ML任务在界面直接可视化结果并在上方给出资源利用情况。
2.3.3 模型训练PAI-DLC
根据表6我们知道PAI在模型训练阶段给用户提供了PAI-DLC这一个子产品接下来进行一定的体验与分析。 PAI-DLC容器训练提供一站式的云原生深度学习训练平台有以下几个优势
①合理任务管理支持用户通过不同方式提交任务且能简单明了地查看任务相关信息
②运行环境自定义用户可以在多种预设环境与自定义环境中选择
③超大规模分布式任务支持用户可在DLC上运行过千节点的分布式深度学习任务
产品使用流程与常规云产品类似分为选择计算资源-创建DLC工作集群-提交任务并运行。 解决方案/应用场景数据预处理、离线推理、超大规模分布式训练 产品实践在产品控制台按需求定义即可任务定义样例如图24结果如图25所示 图24 PAI-DLC任务创建与训练样例 图25 PAI-DLC结果样例
2.3.4 模型部署
根据表6我们知道PAI在模型部署阶段给用户提供了PAI-EAS与PAI-Blade两子产品接下来进行一定的体验与分析。
Ⅰ、PAI-EAS
根据表6我们知道PAI-EAS是PAI平台的模型在线预测服务有以下几个优势 ①灵活易用模型部署与服务调用方式灵活与PAI-Designer、PAI-DSW无缝对接
②异构资源针对ML、DL模型不同特点一键部署模型到CPU、GPU
③弹性高可用高并发高吞吐服务响应时长短资源弹性收缩 在产品使用方面PAI-EAS提供了四种模型部署方式与三种服务调用路径如图26所示 图26 PAI-EAS产品使用左为模型部署方式、右为服务调用路径
解决方案/应用场景官网并未明确给出但在大量ML/DL任务的模型部署中均适用。 产品实践在产品控制台根据需求定义即可创建部署样例如图27结果如图28所示 图27 PAI-EAS部署服务创建 图28 PAI-EAS结果样例
分析如图27、28所示PAI-EAS提供用户一个在线的预测工具提供完整的运维监控体系。
Ⅱ、PAI-Blade
根据表6我们知道PAI-Blade是一个通用推理加速器通过模型系统联合优化有多框架、多设备GPU、CPU、端、能力强支持多种优化技术、易使用四个特点。技术架构如图29所示 图29 PAI-Blade技术架构
使用步骤PAI-Blade并不是一个在线服务而是SDK安装并使用即可安装命令根据框架、版本、设备、语言有所不同详见模型推理优化Blade (aliyun.com)
2.3.5 数据管理AI资产管理
在ML/DL任务全流程中会产生大量数据、模型与指标如何存储、分析、管理是一个关键问题根据表6我们知道PAI在数据管理上给用户提供了AI资产管理这一个子产品接下来进行一定的体验与分析。
PAI中的AI资产管理为一个在线服务支持用户对模型、数据集、镜像等重要的AI生产资料及开发产出进行全生命周期管理如图30所示详情可见AI资产管理 (aliyun.com)管理页样例如图31所示 图30 AI资产管理详细管理部分 图31 AI资产管理页面样例
分析如图30、31所示AI资产管理通过列表形式展示相关信息同时提供AI资产共享、训练效果横向比对、异常问题回溯等能力实现AI开发及应用过程的降本增效。 补充对于PAI基本使用方式可见工作空间详情如图32所示 图32 PAI基本使用方式左为云原生开发场景、右为AI大数据最佳实践
至此PAI的主要功能实践分析结束其他补充在后文对比分析时详述。
2.4 产品定价
PAI作为Alibaba的机器学习产品予用户予商家定价都是一个重要问题故在本节做一个产品定价的汇总PAI是按主要功能定价的可单产品子产品组合或产品组合付费。定价详情页与定价其如下
https://www.aliyun.com/price/product?spm5176.14066474.J_7614544130.2.3779426aQRbOQR#/learn/detail/pai
2.5 产品综述
在经过前四节的简介、功能分析、实践、定价计算后在本节对产品做综述如下 PAI是一个支持多框架的一站式ML全流程平台主要服务集中于云端在大量真实的解决方案/应用场景中验证对效率的提升。
本次调研对于PAI的基本分析到此结束其他常见问题可见常见问题 (aliyun.com)
3.PaddlePaddle
3.1 产品简介
本节首先对PaddlePaddle飞桨进行基本情况的介绍总结如表7主要产品架构如图33所示
表7 PaddlePaddle简介 来源开发商/ 官网 Baidu / https://www.paddlepaddle.org.cn/ 产品官方定位 PaddlePaddle飞桨是一个易用、高效、灵活、可扩展的深度学习框架/平台致力于让深度学习技术的创新与应用更简单。 产品与开发文档 https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/index_cn.html 图33 PaddlePaddle主要产品架构
根据官网描述与调研分析PaddlePaddle的几大核心竞争优势如下
Ⅰ、丰富的产品/功能支持 在深度学习的不同领域面向不同机器/模型/用户PaddlePaddle均有大量相应的子产品/功能支持提供了针对不同需求的多种选择。
Ⅱ、多语言与多平台
PaddlePaddle支持多种深度学习模型基于Spark支持C、Python等编程语言可应用于分布式计算。同时支持多端多平台的高性能部署。
Ⅲ、产业级开源模型库
在计算机视觉、自然语言处理、智能语音等不同领域/任务中PaddlePaddle均提供多种产业级开源模型与端到端开发套件。
Ⅳ、开发便捷的深度学习框架
PaddlePaddle作为一个深度学习框架是高度集成的基于编程一致的深度学习计算抽象以及对应的前后端设计拥有易学易用的前端编程界面和统一高效的内部核心架构。除了产品的使用作为框架可以类似Tensorflow导入IDE完成各种任务。
补充作为一个深度学习框架PaddlePaddle支持超大规模深度学习模型训练技术领先其它框架实现了千亿稀疏特征、万亿参数、数百节点并行训练的能力解决了超大规模深度学习模型的在线学习和部署难题。
3.2 功能分析
由于PaddlePaddle在DL不同阶段均配备拥有大量的产品链路如图34所示故本节不做功能汇总详见产品全景_飞桨产品-飞桨PaddlePaddle在下节对主要/热门产品与功能做一定实践与解析。 图34 PaddlePaddle产品全景
3.3 产品实践
本部分主要进行PaddlePaddle的几个主要功能/产品的实践与应用场景的分析并根据过程与结果流程图补充调研分析结果。
3.3.1 框架使用
根据3.1我们知道PaddlePaddle的本质定义是一个深度学习框架所以我们首先先对他在本地IDE的使用进行一定的实践核心框架详见GitHub - PaddlePaddle。
首先在官网根据实验机器环境/资源进行安装结果如图35所示安装成功后在本地IDE使用方法与其他库/框架类似使用PaddlePaddle内的模型与函数完成实际任务即可具体用法详见API 文档-API文档-PaddlePaddle深度学习平台。以手写数字识别为例过程与输出结果如图36与37所示 图35 PaddlePaddle安装结果样例 图36 模型训练过程样例 图37 手写数字识别结果样例
3.3.2 工具组件 根据图34我们知道PaddlePaddle提供了大量工具组件其中比较主要/热门的是预训练工具PaddleHub、全流程开发工具PaddleX、可视化工具VisualDL、自动化工具AutoDL接下来一一介绍与实践。
Ⅰ、预训练工具PaddleHub 在深度学习模型预训练阶段PaddlePaddle提供的热门工具——PaddleHub可以便捷地获取PaddlePaddle生态下的预训练模型完成模型的管理和一键预测。配合使用Fine-tune API可以基于大规模预训练模型快速完成迁移学习有以下几个特点
无需数据和训练一键模型应用一键模型转服务易用的迁移学习丰富的预训练模型与应用场景
一个简单示例如图38所示 图38 PaddleHub的简单示例
Ⅱ、全流程开发工具PaddleX
PaddleX是飞桨全流程开发工具集飞桨核心框架、模型库、工具及组件等深度学习开发所需全部能力于一身。同时提供简明易懂的Python API及一键下载安装的图形化开发客户端。
在使用上PaddleX集成于客户端常见应用如图39其他用法详见GitHub - PaddlePaddle/PaddleX。 图39 PaddleX主要功能
Ⅲ、可视化工具VisualDL
VisualDL是飞桨可视化分析工具以丰富的图表呈现训练参数变化趋势、数据样本、模型结构、PR曲线、ROC曲线、高维数据分布等。帮助用户清晰直观地理解深度学习模型训练过程及模型结构进而实现高效的模型调优。主要功能展示样例如图40所示 图40 VisualDL主要功能展示左上为训练指标、右上为各阶段数据展示、左下为程序图结构、右下为模型训练各层数据统计直方图
Ⅳ、自动化工具AutoDL AutoDL为高效地自动搜索构建最佳网络结构的方法通过增强学习在不断训练过程中得到定制化高质量的模型实现与使用详见桨桨/AutoDL (github.com)自动训练核心原理如图41所示 图41 AutoDL自动训练核心原理
3.3.3 端到端开发套件 根据图34我们知道PaddlePaddle提供了大量工具组件简单功能介绍如图42其中比较主要/热门的是PaddleOCR、PaddleDetection接下来一一介绍与实践。 图42 端到端开发套件简介汇总
Ⅰ、PaddleOCR PaddleOCR 旨在创建多语言、领先且实用的OCR主要是内容识别工具帮助用户训练更好的模型并将其应用于实践简单应用如图43所示用法详见PaddlePaddle/PaddleOCR。 图43 PaddleOCR简单应用
Ⅱ、PaddleDetection
PaddleDetection是一个目标检测端到端开发套件帮助开发者实现ML、DL任务的全流程打通快速进行落地应用主要应用效果样例如图44所示用法详见PaddlePaddle/PaddleDetection。 图44 PaddleDetection主要应用效果样例
补充PaddlePaddle的端到端开发组件简单体验可以在PaddlePaddle提供的在线平台中。
3.3.4 模型库 根据3.1简介我们知道Paddlepaddle是一个带有大量产业级开源模型的深度学习框架其中基础模型库简单功能介绍如图45其中比较主要/热门的是文心大模型在本小节进行简单介绍与实践。 图45 基础模型库简单功能介绍
文心大模型是PaddlePaddle下的一个热门模型库同时也是Baidu下的一个大模型应用平台包含针对多种任务的不同API、开发套件、工具整体平台架构如图46所示 图46 文心大模型平台架构
文心模型平台提供多种封装好的在线服务提高了用户的易用性。以AIGC的应用为例开放API如下
⚪ ERNIE 3.0文本理解与创作
⚪ ERNIE-ViLG AI作画
⚪ 文心PLATO 对话生成
基于ERNIE-ViLG AI作画的样例如图47 图47 文心大模型平台开发服务样例 3.3.5 部署预测PaddleLite
根据图34PaddlePaddle在模型部署预测阶段同样提供了多款产品简单功能介绍如图48所示其中主要/热门的是PaddleLite接下来进行简单的介绍与实践。 图48 模型部署预测产品功能简单介绍
Paddle Lite是飞桨基于Paddle Mobile全新升级推出的端侧推理引擎有以下几个优势
①全面通用全面地支持多种硬件、操作系统、训练框架和AI模型
②更优性能更加优异的性能优化推理速度优于主流实现
③轻量实用移动部署无任何第三方依赖支持模型深度剪裁
④多应用实践在多种应用场景下均适用并提出解决方案
Paddle Lite的部署开发流程如图49技术架构如图50用法详见PaddlePaddle/Paddle-Lite模型效果对比如图51应用案例详见PaddlePaddle/Paddle-Lite-Demo。 图49 Paddle Lite部署开发流程 图50 Paddle Lite技术架构 图51 Paddle Lite及主流实现模型效果对比
分析如图51所示利用PaddleLite进行模型的部署预测在不同任务/应用场景中相对其他主流实现方法模型的效果均有提高。
3.3.6 AI开发平台 和其他主流机器学习平台类似PaddlePaddle同样提供了AI开发平台供用户利用云端资源含免费算力在线编程不同应用场景包括了EasyDL零门槛AI开发平台、BML全功能AI开发平台、AI Studio 学习与实训社区三个平台在本小节一一做简介与实践。
Ⅰ、EasyDL
EasyDL是PaddlePaddle下的零门槛AI开发平台提供了点击式任务供无代码能力用户完成相关任务主要模型如图52所示用法详见EasyDL零门槛AI开发平台。 图52 EasyDL主要模型/应用场景
补充EasyDL的使用与一般的ML/DL任务保持一致即数据处理-模型训练-模型校验-模型部署四大流程。
Ⅱ、BML
BML是PaddlePaddle提供的全功能AI开发平台是EasyDL的相关产品目标用户是有一定代码能力的用户。平台核心架构如图53所示用法详见BML 全功能AI开发平台。 图53 BML核心架构
补充BML的使用同样与一般的ML/DL任务保持一致控制台总览样例如图54所示 图54 BML控制台总览样例
Ⅲ、AI Studio
AI Studio是PaddlePaddle提供的学习与实训社区提供了免费的算力与不同的项目实例供不同用户学习、研究与讨论。同时提供了类Google Colab的在线编译环境提高了易用性界面样例如图55所示 图55 AI Studio界面样例左上为公开项目详述、右上为环境免费算力资源、下为BML CodeLab在线编译器
3.4 产品综述
TipsPaddlePaddle主要是作为深度学习框架故本章对定价不做调研。
在经过前三节的简介、功能分析、实践后在本节对产品做综述如下 PaddlePaddle是一个带有大量产业级开源模型的深度学习模型拥有丰富的产品链路与应用场景。
本次调研对于PaddlePaddle的基本分析到此结束其他常见问题可见常见问题与解答-使用文档-PaddlePaddle深度学习平台。
4.标杆分析与总结
根据前几章对主流机器学习平台的调研在本章进行一定的综述与标杆分析旨在对后续机器学习平台开发与优化提供一定经验与思路。
4.1 标杆分析
根据对主流机器学习平台的调研在此总结一些机器学习平台的共性优势如表10所示生成词云如图60所示
表10 主流机器学习平台共性优势 1、高效、自动化的ML全链路服务 优秀的机器学习平台不仅要保证ML全链路服务还要通过子产品/功能内置常见算法、框架、工具并通过一定自动化手段帮助用户高效完成相关任务。 2、便于多种用户使用 优秀的机器学习平台一般带有不同子产品令有无代码基础、各领域的用户都可以完成机器学习任务且对于流程与结果的界面基本实现可视化便于分析实验。且均配备完备的文档与日志系统降低使用门槛。 3、高性能、低成本的ML 优秀的机器学习平台在高效地完成ML任务的同时要考虑到计算资源的合理利用、用户成本/实验开销的较小化提供高性能、低成本的ML。 4、完备的数据管理、检测、分析 对于ML任务来说数据与模型的分析是很重要的而实现高效、清晰完备的数据管理、检测、分析是一个优秀机器学习平台的必选项。在一些主流机器学习平台中eg.Sage maker还配备了不同的自动化数据分析工具在ML各生命周期均有服务。 5、高包容性和多应用场景 优秀的机器学习平台应该是高包容性的对于数据/模型的由来与去向框架、语言、工具的选择任务与用户的选择类型都是如此。且对于每个子产品/功能均有相关的解决方案/应用场景供用户参考与学习。 6、产品/功能丰富度与完备性 优秀的机器学习平台在兼顾效能的同时要确保产品/功能的丰富度与完备性包括但不限于适用ML/DL各阶段的功能/工具且针对不同的细分应用场景有对应的工具在实现上应提供不同的方案云端Lab、开源接口、集成IDE且在每个产品/功能的实现、使用中均有当周期的完备性。 图60 主流机器学习平台共性优势
4.2 对比分析
根据标杆分析中主流机器学习平台的共性优势作为评价维度本节将调研的不同平台进行定性对比分析如表11所示
表11 主流机器学习平台对比分析及评价 Sage maker PAI PaddlePaddle 高效、自动化的ML全链路服务 优在多种功能中强调自动最优化与性能资源协调。 优不同功能中注重效能通过内置模板模型引擎实现加速。 劣仅在部分功能中内置了智能模板自动化程度相对不高。 优在ML全链路中均提供了优质、多选择的服务利用高性能组件/框架实现高效服务。 便于多种用户使用 优对不同类型用户开发不同子产品界面清晰数据可视化。 劣大部分服务非在线且对地区、AWS帐号有要求。 优大部分服务集中于云端内置大量算法与模型供用户调用。 劣仅提供零门槛/全开发两种套件没有针对特定行业开发相应子产品。 优在工具方面基本有Github版与在线版在平台方面有零门槛平台与AI全流程开发平台及讨论社区且PaddlePaddle本身将产品抽象成了框架有极高易用性。 劣产品文档的完备性有所欠缺特性与定位等非技术部分。 高性能、低成本的ML 优产品开发基于Amazon多年实际ML经验。 劣免费的平台/算力资源上相对匮乏在用户成本上较高。 优支持高维稀疏数据场景支持超大规模样本模型加速训练支持CPU/GPU混合调度云原生弹性伸缩计费灵活。 优在已有框架上做了针对DL任务的优化在不同阶段也使用了企业级模型与高性能插件加速。 完备的数据管理、检测、分析 优在ML任务的不同周期均有功能进行监测、调度与分析并适时发送警报与自动优化。 优将全生命周期数据的存储、分析、管理均集成在了AI资产管理一个功能中使用方便数据清晰。 劣只有基本的数据可视化缺乏不同周期中对数据、资源的检测、预警与自动优化 优在IDE Terminal对数据进行分析同时在在线平台中提供数据可视化。 劣未提供独立的数据管理工具提高了数据分析的难度。 高包容性和多应用场景 优多种功能中均支持不同的数据/模型来源与走向并在不同功能、产品、环境下提供了数据协同。 劣在功能介绍的真实应用场景与示例介绍不足。 优每个功能中均提供了相应应用场景的解决方案与技术架构供参考。 优针对不同模型/数据提供了不同工具对于不同工具均提供实例解析与文档且汇总大量案例于AI在线社区/平台供用户学习与应用。 产品/功能丰富度与完备性 优有着相对丰富的功能与子产品在ML/DL的不同阶段均提供了几种功能也集成在了Studio中有相对完备性。 优功能高度集成内置丰富的应用场景与插件文档系统更新及时有较好的完备性。 劣产品/功能抽象度较高用户选择余地较少ML/DL每个阶段只有1-2个功能。 优有着非常丰富的产品链路包含覆盖DL任务的各周期开发工具、端到端开发工具、开源产业模型库、在线带资源编程/服务平台和社区等。 劣部分工具/产品中更新不及时文档陈旧完备性有所不足。 根据表11的平台评价对比绘制评价分析图如图61所示 图61 主流机器学习平台评价分析图