Llama 31 模型现已在 Amazon SageMaker JumpStart 提供 机器学习

项目展示

14

现在可以在 Amazon SageMaker JumpStart 中使用 Llama 31 模型

by Saurabh Trikande Eissa Jamil Helen Suk James Park Jonathan Guinegagne 和 Kyle Ulrich于2024年7月23日发布于 Amazon SageMaker JumpStart 公告 生成式AI 永久链接 评论 共享

重要要点

今天,我们很高兴地宣布,最新的 Llama 31 多语言大模型LLM系列,包括 8B、70B 和 405B 规模的预训练和指令调优生成 AI 模型,现已通过 Amazon SageMaker JumpStart 提供,以便进行 推理。Llama 是一个公开访问的 LLM,旨在帮助开发者、研究人员和企业构建、实验和负责任地扩展他们的生成式人工智能AI想法。本文将介绍如何通过 SageMaker JumpStart 发现并部署 Llama 31 模型。

Llama 31 概述

Llama 31 多语言 LLM 是一系列预训练和调优生成模型,尺寸为 8B、70B 和 405B文本输入/文本和代码输出。所有模型都支持长上下文长度128000,并针对使用分组查询注意力GQA进行了优化。Llama 31 指令调优的文本专用模型8B、70B、405B在多语言对话应用场景中表现优异,并在许多公开可用的聊天模型中展示了更高的行业基准。

Llama 31 本质上是一个自回归语言模型,使用了优化的变换器架构。调优版本采用监督式微调SFT和人类反馈强化学习RLHF来与人类偏好保持一致,以提高有用性和安全性。Llama 3 和 Llama 31 的核心 LLM 使用的是相同的密集架构。

Llama 31 还提供了指令变体,并且指令模型经过了工具使用的微调。该模型已经训练用于生成特定工具的调用,提供搜索、图像生成、代码执行和数学推理等能力。此外,该模型还支持零shot 工具使用。

Meta 提供的 负责任使用指南 可帮助您进行额外的微调,以定制和优化模型并提供适当的安全缓解。

SageMaker JumpStart 概述

SageMaker JumpStart 提供对广泛可公开使用的基础模型FM的访问。这些预训练模型作为强大的起点,可以根据特定用例进行深度定制。您现在可以使用最新的模型架构,如语言模型、计算机视觉模型等,而无需从头构建它们。

通过 SageMaker JumpStart,您可以在安全的环境中部署模型。模型被配置在专用的 SageMaker 推理实例上,包括 AWS Trainium 和 AWS Inferentia 提供的实例,并在您的虚拟私有云VPC内隔离。这确保了数据安全和合规性,因为这些模型在您的私人 VPC 控制下运行,而不是在共享的公共环境中。在部署基础模型后,您可以利用 Amazon SageMaker 的广泛功能进一步定制和微调它,包括 SageMaker 推理和容器日志,以提高可观察性。通过 SageMaker,您可以简化整个模型部署过程。

此外,您可以使用位于部署按钮旁边的 Train 选项卡对 Llama 31 模型进行微调。

在 SageMaker JumpStart 中发现 Llama 31 模型

SageMaker JumpStart 通过以下两种主要接口提供 FM:Amazon SageMaker Studio 和 SageMaker Python SDK。这提供了多种选项,以发现和使用数百种适合您特定用例的模型。

SageMaker Studio 是一个全面的集成开发环境IDE,提供统一的基于 Web 的界面,用于执行机器学习ML开发生命周期的各个方面。从准备数据到构建、训练和部署模型,SageMaker Studio 提供了专门构建的工具来简化整个过程。在 SageMaker Studio 中,您可以访问 SageMaker JumpStart,以发现和探索可用的 FM 广泛目录,以便于在 SageMaker 推理中进行推理能力的部署。

另外,您可以使用 SageMaker Python SDK 以编程方式访问和利用 SageMaker JumpStart 模型。这种方法允许与现有 AI 和 ML 工作流及管道进行更大的灵活性和集成。通过提供多个访问点,SageMaker JumpStart 使您能够将预训练模型无缝集成到您的 AI 和 ML 开发工作中,无论您喜好的界面或工作流程如何。

使用 SageMaker JumpStart 为推理部署 Llama 31 模型

在 SageMaker JumpStart 登录页面,您可以浏览解决方案、模型、笔记本和其他资源。您可以在 基础模型:文本生成 轮播中找到 Llama 31 模型。

啊哈加速器新版本下载

如果您没有看到 Llama 31 模型,请通过关闭并重新启动更新 SageMaker Studio 版本。如需有关版本更新的更多信息,请参阅 关闭并更新 Studio Classic 应用。

以下表列出了您可以在 SageMaker JumpStart 访问的 Llama 31 模型。

模型名称描述关键能力MetaLlama318BLlama318B 是一款最先进的公开可用模型,在 8 种语言中,擅长语言细微差别、上下文理解和复杂任务如翻译和对话生成。主要能力包括多语言支持和更强的推理能力,使长文本摘要和多语言对话代理等高级用例成为创新的可能。MetaLlama318BInstructLlama318BInstruct 是对 MetaLlama38BInstruct 的更新,作为助手型聊天模型,包括扩展的 128K 上下文长度、多语言能力和改进的推理能力。主要能力包括遵循指令和任务的能力、改进的推理和上下文理解能力,以及多语言翻译。MetaLlama3170BLlama3170B 是一款最先进的公开可用模型,在 8 种语言中,擅长语言细微差别、上下文理解和复杂任务如翻译和对话生成。主要能力包括多语言支持和更强的推理能力,使长文本摘要和多语言对话代理等高级用例成为创新的可能。MetaLlama3170BInstructLlama3170BInstruct 是对 Llama370BInstruct 的更新,作为助手型聊天模型,包括扩展的 128K 上下文长度、多语言能力和改进的推理能力。主要能力包括遵循指令和任务的能力、改进的推理和上下文理解能力,以及多语言翻译。MetaLlama31405BLlama31405B 是最大、功能最强大的公开 FM,解锁了新的应用和创新,铺平了合成数据生成和模型蒸馏等突破性技术的道路。Llama31405B 具有广泛的能力,如通用知识、可引导性、数学、工具使用和多语言翻译,开辟了创新和发展的新可能性。MetaLlama31405BInstructLlama31405BInstruct 是 Llama 31 Instruct 模型中最大、最强大的模型。它是用于对话推理和推理、合成数据生成的高级模型,也是对特定领域进行专业化持续预训练或微调的基础。Llama31405B 解锁了创新的能力,如通用知识、可引导性、数学、工具使用和多语言翻译,开辟了创新和发展的新可能性。MetaLlama31405BFP8这是 Llama31405B 的 FP8 量化版本。Llama31405B 解锁了创新的能力,如通用知识、可引导性、数学、工具使用和多语言翻译,开辟了创新和发展的新可能性。MetaLlama31405BInstructFP8这是 Llama31405BInstruct 的 FP8 量化版本。Llama31405B 解锁了创新的能力,如通用知识、可引导性、数学、工具使用和多语言翻译,开辟了创新和发展的新可能性。

您可以选择模型卡以查看有关模型的详细信息,例如许可证、用于训练的数据,以及如何使用模型。您还可以找到两个按钮,部署和 打开笔记本,帮助您使用该模型。

当您选择任一按钮时,会弹出一个窗口,显示最终用户许可证协议EULA和可接受使用政策,以供您接受。

Llama 31 模型现已在 Amazon SageMaker JumpStart 提供 机器学习

在接受后,您将进入下一个步骤以使用模型。

使用 Python SDK 为推理部署 Llama 31 模型

当您选择 部署 并接受条款后,模型部署将开始。您也可以通过选择 打开笔记本 来通过示例笔记本进行部署。该笔记本提供了关于如何为推理部署模型及清理资源的端到端指导。

要使用笔记本进行部署,您首先选择适当的模型,通过 modelid 指定。您可以在 SageMaker 上部署选定的任何模型。

使用以下 SageMaker Python SDK 代码,您可以通过 SageMaker JumpStart 以 FP8 部署 Llama 31 405B 模型:

pythonfrom sagemakerjumpstartmodel import JumpStartModel

model = JumpStartModel(modelid=metatextgenerationllama31405bfp8)predictor = modeldeploy(accepteula=accepteula)

这将在 SageMaker 上使用默认配置包括默认实例类型和默认 VPC 配置部署该模型。您可以通过在 JumpStartModel 中指定非默认值来更改这些配置。要成功部署模型,您必须手动将 accepteula=True 设置为部署方法参数。部署后,您可以通过 SageMaker 预测器对已部署的端点执行推理:

pythonpayload = { inputs 天空的颜色是蓝色,但有时它也可以是 parameters {maxnewtokens 256 topp 09 temperature 06}}response = predictorpredict(payload)

以下表列出了 SageMaker JumpStart 中所有可用的 Llama 模型,列出了它们的 modelid、默认实例类型和每个模型支持的最大总令牌数输入令牌数与生成令牌数之和。为了提高上下文长度,用户可以在 SageMaker JumpStart UI 中修改默认实例类型。

模型名称模型 ID默认实例类型支持的实例类型MetaLlama318Bmetatextgenerationllama318bmlg54xlarge27000 上下文长度mlg54xlarge mlg512xlarge mlg524xlarge mlg548xlarge mlg58xlarge mlg612xlarge mlp4d24xlarge mlp548xlargeMetaLlama318BInstructmetatextgenerationllama318binstructmlg54xlarge27000 上下文长度同 Llama318BMetaLlama3170Bmetatextgenerationllama3170bmlp4d24xlarge128000 上下文长度,8 个 A100mlg548xlarge mlg648xlarge mlp4d24xlarge mlp548xlargeMetaLlama3170BInstructmetatextgenerationllama3170binstructmlp4d24xlarge128000 上下文长度,8 个 A100同 Llama3170BMetaLlama31405Bmetatextgenerationllama31405bmlp548xlarge2x mlp548xlargeMetaLlama31405BInstructmetatextgenerationllama31405binstructmlp548xlarge2x mlp548xlargeMetaLlama31405BFP8metatextgenerationllama31405bfp8mlp548xlarge72000 上下文长度,8 个 H100mlp548xlargeMetaLlama31405BInstructFP8metatextgenerationllama31405instructfp8mlp548xlarge72000 上下文长度,8 个 H100mlp548xlarge

根据模型大小和所使用的实例类型,支持的上下文长度可能不同。请见下表:

模型名称模型 IDmlg54xlargemlg512xlargemlg548xlargemlp4d24xlargemlp548xlargeMetaLlama318Bmetatextgenerationllama318b27k110k60k128k128kMetaLlama318BInstructmetatextgenerationllama318binstruct27k110k60k128k128kMetaLlama3170Bmetatextgenerationllama3170b8k128k128kMetaLlama3170BInstructmetatextgenerationllama3170binstruct8k128k128kMetaLlama31405Bmetatextgenerationllama31405b72kMetaLlama31405BInstructmetatextgenerationllama31405binstruct72kMeta

AWS每周快讯:Amazon Bedrock 知识库新特性,Amazon CloudFront 的 Lambda 函数 URL 来源的 OAC 及更多2024年4月15日重点摘要:新功能:Amazon Bedrock 支持的知识库引入了元数据过滤和自定义提示功能,以改善信息检索准确性。CloudFr...

使用 AWS DataSync 复制 Snowball Edge 上的 Amazon S3 相容存储物件重点总结本文介绍了如何使用 AWS DataSync 在 Snowball Edge 装置上设定 Amazon S3 相容存储以自动和有效地移动数据。随著 AWS Snow 家族的变化,越来越多的...