欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

MetaAI 最新开源 Llama 3.2 亮点和使用指南 - 模型评估

最编程 2024-09-30 07:05:49
...

Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 具有竞争力。3B 模型在遵循指令、总结、快速重写和工具使用等任务上优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型与 Gemma 具有竞争力。

对涵盖多种语言的 150 多个基准数据集进行了性能评估。对于视觉 LLM,我们根据图像理解和视觉推理的基准评估了性能。

视觉模型

作为首批支持视觉任务的 Llama 模型,11B 和 90B 模型需要支持图像推理的全新模型架构。在这里插入图片描述

为了添加图像输入支持,训练了一组适配器权重,将预训练的图像编码器集成到预训练的语言模型中。适配器由一系列交叉注意层组成,这些层将图像编码器表示输入到语言模型中。
在文本-图像对上训练了适配器,以使图像表示与语言表示对齐。在适配器训练期间,还更新了图像编码器的参数,但有意不更新语言模型参数。通过这样做,保持了所有纯文本功能不变,为开发人员提供了 Llama 3.1 模型的直接替代品。

Llama 3.2训练流程由多个阶段组成,从预训练的 Llama 3.1 文本模型开始:

  1. 添加图像适配器和编码器
  2. 在大规模噪声(图像、文本)对数据上进行预训练。
  3. 在中等规模的高质量领域内和知识增强的(图像、文本)对数据上进行训练。
  4. 在后期训练中,使用与文本模型类似的方法,在监督微调、拒绝采样和直接偏好优化方面进行多轮对齐。

利用 Llama 3.1 模型生成合成数据,在域内图像的基础上过滤和扩充问题和答案,并使用奖励模型对所有候选答案进行排名,以提供高质量的微调数据。还添加了安全缓解数据,以生成具有高安全水平的模型,同时保留模型的有用性

最终结果是一组可以同时接收图像和文本提示并深入理解和推理两者组合的模型。这是 Llama 模型向拥有更丰富代理能力迈出的又一步。

轻量级模型

正如在 Llama 3.1 中讨论的那样,可以利用强大的教师模型来创建性能更佳的小型模型。在 1B 和 3B 模型上使用了两种方法(修剪和提炼),使其成为首批能够高效适应设备的高性能轻量级 Llama 模型。在这里插入图片描述

修剪使能够缩小 Llama 群中现有模型的大小,同时尽可能多地恢复知识和性能。对于 1B 和 3B 模型,采用了从 Llama 3.1 8B 中一次性使用结构化修剪的方法。这涉及系统地移除网络的某些部分并调整权重和梯度的大小,以创建一个更小、更高效的模型,同时保留原始网络的性能。

知识蒸馏使用较大的网络将知识传授给较小的网络,其理念是较小的模型使用教师可以获得比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B,将 Llama 3.1 8B 和 70B 模型的对数合并到模型开发的预训练阶段,其中这些较大模型的输出(对数)被用作 token 级目标。修剪后使用知识蒸馏来恢复性能。
在后期训练中,使用与 Llama 3.1 类似的方法,通过在预训练模型的基础上进行几轮对齐来生成最终的聊天模型。每轮都涉及监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO)。

在训练后,将上下文长度支持扩展到 128K 个 token,同时保持与预训练模型相同的质量。还参与了合成数据生成,经过仔细的数据处理和过滤以确保高质量。精心混合数据,以优化多项功能(如摘要、重写、指令遵循、语言推理和工具使用)的高质量。

为了让社区能够在这些模型上进行创新,与全球排名前两的移动片上系统 (SoC) 公司高通和联发科以及为99 %的移动设备提供基础计算平台的 Arm 密切合作。今天发布的权重基于 BFloat16 数值。在这里插入图片描述