:exclamation::fire: 公告:新的文件夹结构 :fire::exclamation:
从2024年8月7日开始,我们将引入一个新的SageMaker示例笔记本库的扁平文件夹结构,以提高笔记本的可发现性。新的结构使用标准化的文件夹和笔记本命名约定,以便与常见的工作流程和SageMaker服务对齐。它还包括一个存档文件夹,用于存放多余的、过时的和观看量低的笔记本。为了简化过渡,我们创建了一份 excel 表,显示旧的命名约定及其新的对应名称。
为了确保对库的依赖关系保持不变,我们将把库的默认分支从“main”切换到“default”。请确保所有未来的PR都是提交到“default”分支,并遵循所有更新后的贡献指南。
Amazon SageMaker 示例
展示如何使用Amazon SageMaker构建、训练和部署机器学习模型的示例 Jupyter 笔记本。
:books: 请在继续操作前阅读
Amazon SageMaker 示例分为两个库:
-
SageMaker 示例笔记本 是官方库,包含演示Amazon SageMaker使用的示例。此库完全专注于涵盖SageMaker提供的所有功能,并由Amazon SageMaker团队直接维护。
-
Sagemaker 示例社区库 是另一个包含附加示例和参考解决方案的SageMaker库,超出了官方库中展示的示例。此库由AWS的工程师和解决方案架构师社区维护。
计划向此库提交PR?请首先阅读:
-
此库只接受演示尚未在库中覆盖的SageMaker功能的笔记本/示例。提交PR的用户在提交PR之前请检查这一点,以避免PR被拒绝。
-
如果您仍然希望贡献您的示例,请改为向Sagemaker 示例社区库提交PR。
:hammer_and_wrench: 设置
运行示例笔记本的最快设置包括:
- 一个 AWS 账号
- 适当的 IAM 用户和角色 设置
- 一个 Amazon SageMaker 笔记本网实例
- 一个 S3 存储桶
:computer: 使用
这些示例笔记本会自动加载到SageMaker笔记本网实例中。
可以通过点击 Jupyter 中的 SageMaker Examples
选项卡或 JupyterLab 中的 SageMaker 图标访问它们。
虽然大多数示例利用了Amazon SageMaker的关键功能,如分布式、托管训练或实时托管终端,这些笔记本可以在SageMaker笔记本网实例之外运行,只需进行最小的修改(更新IAM角色定义和安装必要的库)。
:notebook: 示例笔记本分类
端到端机器学习生命周期
这些示例是各种端到端笔记本的集合,展示了如何使用Amazon SageMaker构建、训练和部署机器学习模型。这些笔记本涵盖了广泛的机器学习任务和用例,为您提供了对SageMaker工作流程的全面理解。每个文件夹中的笔记本都是独立的,包含详细的文档、代码示例以及在SageMaker上运行示例的说明。无论您是初学者还是经验丰富的从业者,本文件夹提供的全面端到端笔记本都会帮助您利用Amazon SageMaker的强大功能,完成各种机器学习任务和用例。
准备数据
此文件夹内的示例笔记本展示了Sagemaker的数据准备功能。机器学习中的数据准备是指收集、预处理和组织原始数据的过程,使其适合于分析和建模。此步骤确保数据具有从中有效学习机器学习算法的格式。数据准备任务可能包括处理缺失值、消除异常值、特征缩放、编码分类变量、评估潜在的偏差并采取措施减轻这些偏差、将数据分割为训练集和测试集、标记以及其他必要的转换,以优化数据的质量和可用性,以便于后续的机器学习任务。
构建和训练模型
Amazon SageMaker 训练是SageMaker提供的完全托管的机器学习 (ML) 服务,可帮助您高效地构建和训练大规模的各种ML模型。SageMaker任务的核心是ML工作负载的容器化以及管理AWS计算资源的能力。SageMaker 训练平台承担了与设置和管理ML训练工作负载基础设施相关的繁重工作。使用SageMaker 训练,您可以专注于构建、开发、训练和微调您的模型。
部署和监控
通过Amazon SageMaker,您可以从训练好的机器学习模型中开始获取预测或推论。SageMaker 提供了广泛的ML基础设施和模型部署选项,以帮助满足您的所有ML推理需求。通过SageMaker推理,您可以扩展模型部署,更有效地管理生产中的模型,减少运营负担。SageMaker为您提供了各种推理选项,例如用于低延迟推理的实时终端、用于完全托管基础设施和自动扩展的无服务器终端以及用于批量请求的异步终端。通过为您的用例利用合适的推理选项,可以确保高效的模型部署和推理。
在将模型部署到生产环境后,使用Amazon SageMaker 模型监控,可以实时连续监控机器学习模型的质量。Amazon SageMaker模型监控使您能够设置自动警报触发系统,当模型质量出现偏差,如数据漂移和异常时,触发警报。Amazon CloudWatch Logs 收集的监控模型状态的日志文件并在您的模型质量达到您设置的某些阈值时通知您。CloudWatch将日志文件存储到您指定的Amazon S3存储桶。通过AWS模型监控产品的早期和主动检测模型偏差,使您能够及时采取措施,维护和提高已部署模型的质量。
生成式AI
这些示例展示了Amazon SageMaker在激动人心的生成式人工智能(AI)领域的功能。生成式AI模型旨在根据从训练数据中学到的模式和关系创建新的、合成的数据,涵盖各种模态,如文本、图像、音频和视频。这些示例提供了详细的文档、代码示例以及在SageMaker上运行生成式AI模型的说明。展示了如何预处理数据、训练模型、微调超参数以及部署训练好的模型进行推理。
无论您是有兴趣探索生成式AI的最新进展,还是希望利用这些技术进行创意应用或内容生成,此文件夹提供了全面的示例集合,将帮助您释放SageMaker生成式AI功能的潜力,并推动机器学习可能性的边界。
机器学习运维
Amazon SageMaker 支持在具有持续集成和部署的生产环境中实现机器学习模型的功能。MLOps 是在项目管理、CI/CD和质量保证方面应用DevOps 实践到机器学习工作负载的方法论,有助于提高交付时间,减少缺陷,并使数据科学更高效。MLOps 是一种基于将DevOps 实践应用于机器学习工作负载的方法论。
负责的AI
Amazon SageMaker 提供功能,通过检测潜在的偏差并帮助解释模型从您的表格、计算机视觉、自然处理或时间序列数据集中的预测,来改善您的机器学习(ML)模型。它帮助您识别在模型训练期间或模型投入生产时可能出现的预训练数据和后训练中的各种偏差。您还可以使用基础模型评估来评估语言模型的模型质量和责任指标。
模型治理是一个框架,提供对机器学习(ML)模型开发、验证和使用的系统性可见性。Amazon SageMaker 提供了专门构建的ML治理工具,用于管理控制访问、活动跟踪和跨ML生命周期的报告。使用Amazon SageMaker 角色管理器管理ML实践者的最低权限,使用Amazon SageMaker 模型卡创建详细的模型文档,并使用Amazon SageMaker 模型仪表盘的集中式仪表板来获得对您模型的可见性。
:balance_scale: 许可
此库根据 Apache 2.0 许可 获得许可。 有关更多详细信息,请查看 许可证 文件。
:handshake: 贡献
虽然我们非常期待来自社区的贡献,但我们仍在研究如何最好地接受外部来源的示例。在短期内,如果拉取请求处理时间较长或被关闭,请多多包涵。 如果您想提出问题或提交拉取请求,请阅读我们的贡献指南。