Llama 3.2：通过开放、可定制的模型彻底改变边缘人工智能和视觉

概览: Llama 3.2 在多达9万亿个来自公开可用资源的标记数据上进行了预训练。对于1B和3B的Llama 3.2模型，我们将来自Llama 3.1 8B和70B模型的logits数据合并到模型开发的预训练阶段，这些较大模型的输出作为token级目标。修剪后使用知识蒸馏恢复性能。在微调后，我们使用与Llama 3.1相似的配方，通过多轮对齐优化生成最终的聊天模型。每轮包括监督微调（SFT）、拒绝采样（RS）和直接偏好优化（DPO）。

2.5 基准测试

Base Pretrained Models

Instruction Tuned Models

Multilingual Benchmarks

3. Llama 3.2 视觉模型

Llama 3.2-Vision 是一系列多模态大型语言模型（LLMs），包括经过预训练和指令微调的图像推理生成模型，提供 11B 和 90B 参数规模（文本+图像输入/文本输出）。Llama 3.2-Vision 指令微调模型专为视觉识别、图像推理、图像描述和回答图像相关的通用问题而优化。这些模型在许多公开或封闭的多模态模型上表现优于行业标准基准。

3.1 模型架构

Llama 3.2-Vision 构建于 Llama 3.1 纯文本模型之上，后者是使用优化的自回归语言模型（Transformer）架构。微调版本使用监督微调（SFT）和通过人类反馈（RLHF）的强化学习，以符合人类偏好的有用性和安全性。

为支持图像识别任务，Llama 3.2-Vision 模型使用单独训练的视觉适配器，与预训练的 Llama 3.1 语言模型集成。该适配器由一系列跨注意力层组成，将图像编码表示输入到核心 LLM 中。

3.2 支持语言

对于仅文本任务，Llama 3.2 正式支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 已在比这 8 种语言更广泛的语言集合上进行训练。对于图像+文本应用，当前仅支持英语。

3.3 使用场景

Llama 3.2-Vision 旨在用于商业和研究用途。指令微调模型用于视觉识别、图像推理、图像描述以及类似于图像的助手式聊天，而预训练模型可适应各种图像推理任务。

视觉问答（VQA）和视觉推理: 想象一台机器可以看着图片并理解你对其的提问。
文档视觉问答（DocVQA）: 想象计算机能够理解文档的文本和布局，如地图或合同，然后直接从图像中回答问题。
图像描述: 图像描述弥合了视觉和语言之间的差距，提取细节、理解场景，并生成讲述故事的句子。
图像-文本检索: 图像-文本检索类似于图像及其描述的匹配引擎，像搜索引擎一样，但能同时理解图片和文本。
视觉定位: 视觉定位就像将我们看到和说的点连接起来，它涉及理解语言如何基于自然语言描述来参考图像的特定部分，使 AI 模型能够根据这些描述来精确定位物体或区域。

3.4 训练耗时

训练使用了总计 2.02M 个 GPU 小时，基于 H100-80GB（700W TDP）类型的硬件。训练时间为每个 GPU 设备的总 GPU 时间，经过电源使用效率调整。

3.5 训练数据

Llama 3.2-Vision 在 60 亿图像和文本对上进行了预训练。指令微调数据包括公开可用的视觉指令数据集，以及超过 300 万个合成生成的示例。

3.6 基准测试

Base Pretrained Models

Instruction Tuned Models

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

三、LLM大模型系列视频教程

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

[

文章来源于互联网:Llama 3.2：通过开放、可定制的模型彻底改变边缘人工智能和视觉

Llama 3.2：通过开放、可定制的模型彻底改变边缘人工智能和视觉

1. Llama 3.2 模型简介

1.1 模型类别

1.2 创新点

1.3 模型性能

1.3.1 文本模型（1B和3B）

1.3.2 视觉模型（11B和90B）

2. Llama 3.2 文本模型

2.1 模型架构

2.2 支持语言

2.3 训练耗时

2.4 训练数据

2.5 基准测试

Base Pretrained Models

Instruction Tuned Models

Multilingual Benchmarks

3. Llama 3.2 视觉模型

3.1 模型架构

3.2 支持语言

3.3 使用场景

3.4 训练耗时

3.5 训练数据

3.6 基准测试

Base Pretrained Models

Instruction Tuned Models

如何系统的去学习大模型LLM ？

与其焦虑……

一、LLM大模型经典书籍

二、640套LLM大模型报告合集

三、LLM大模型系列视频教程

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

阶段2：AI大模型API应用开发工程

阶段3：AI大模型应用架构实践

阶段4：AI大模型私有化部署

相关推荐

对比kimi、通义千问、文心一言的写代码能力

热门文章

AI大模型,我们的未来