AI大模型教程
一起来学习

Llama 3.2:通过开放、可定制的模型彻底改变边缘人工智能和视觉

1. Llama 3.2 模型简介

1.1 模型类别

  • 包括小型和中型视觉模型(11B 和 90B)以及轻量级文本模型(1B 和 3B),适用于边缘设备和移动设备。

1.2 创新点

  • 视觉模型创新:首次支持图像推理,11B 和 90B 模型通过适配器将图像编码器与语言模型相结合,实现文本与图像对齐。

  • 后期训练优化:采用监督微调SFT、偏好优化DPO等方法,增强模型在图像和文本提示上的理解与推理能力。

1.3 模型性能

1.3.1 文本模型(1B和3B)

1B 和 3B 模型支持 128K tokens 上下文长度,专为本地设备的摘要、指令跟随、文本重写等任务设计。它具备强大的多语言生成能力,并支持工具调用,适合在本地应用,确保数据隐私。

  • 1B 文本模型

Llama 3.2系列中最轻量级的模型,非常适合边缘设备和移动应用的摘要任务。该模型非常适合以下使用场景:个人信息管理和多语言知识检索。

  • 3B 文本模型

为需要低延迟推理和有限计算资源的应用设计。在文本摘要、分类和语言翻译任务中表现出色。该模型非常适合以下使用场景:由AI驱动的移动写作助手和客户服务应用。

Lightweight instruction-tuned benchmarks

1.3.2 视觉模型(11B和90B)

11B 和 90B 模型支持图像与语言结合推理,如图像定位和物体识别,可用于文档级理解、图表信息提取等任务。它优于其他闭源模型(如 Claude 3 Haiku)在图像理解任务上的表现。

Vision instruction-tuned benchmarks


2. Llama 3.2 文本模型

Llama 3.2 是一组多语言的大语言模型(LLMs),包含1B和3B大小的预训练和指令调优生成模型(输入文本/输出文本),主要用于多语言对话场景,包括智能检索和摘要任务。它们在常见的行业基准测试中优于许多现有的开源和封闭式聊天模型。

2.1 模型架构

Llama 3.2 是一个自回归语言模型,使用优化的Transformer架构。调优版本采用了监督微调(SFT)和基于人类反馈的强化学习(RLHF)以适应人类对实用性和安全性的偏好。

2.2 支持语言

官方支持的语言包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 还在比这些8种语言更广泛的语言集合上进行了训练。开发者可以根据 Llama 3.2 社区许可协议和可接受使用政策对模型进行微调,以支持其他语言。

2.3 训练耗时

训练使用了累计91.6万小时的GPU计算时间,硬件为H100-80GB(TDP为700W),表中给出的训练时间为每个GPU设备的总GPU训练时间,经过功率使用效率调整后的数值。

2.4 训练数据

  • 概览: Llama 3.2 在多达9万亿个来自公开可用资源的标记数据上进行了预训练。对于1B和3B的Llama 3.2模型,我们将来自Llama 3.1 8B和70B模型的logits数据合并到模型开发的预训练阶段,这些较大模型的输出作为token级目标。修剪后使用知识蒸馏恢复性能。在微调后,我们使用与Llama 3.1相似的配方,通过多轮对齐优化生成最终的聊天模型。每轮包括监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。

2.5 基准测试

Base Pretrained Models

Instruction Tuned Models

Multilingual Benchmarks

3. Llama 3.2 视觉模型

Llama 3.2-Vision 是一系列多模态大型语言模型(LLMs),包括经过预训练和指令微调的图像推理生成模型,提供 11B 和 90B 参数规模(文本+图像输入/文本输出)。Llama 3.2-Vision 指令微调模型专为视觉识别、图像推理、图像描述和回答图像相关的通用问题而优化。这些模型在许多公开或封闭的多模态模型上表现优于行业标准基准。

3.1 模型架构

Llama 3.2-Vision 构建于 Llama 3.1 纯文本模型之上,后者是使用优化的自回归语言模型(Transformer)架构。微调版本使用监督微调(SFT)和通过人类反馈(RLHF)的强化学习,以符合人类偏好的有用性和安全性。

为支持图像识别任务,Llama 3.2-Vision 模型使用单独训练的视觉适配器,与预训练的 Llama 3.1 语言模型集成。该适配器由一系列跨注意力层组成,将图像编码表示输入到核心 LLM 中。

3.2 支持语言

对于仅文本任务,Llama 3.2 正式支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 已在比这 8 种语言更广泛的语言集合上进行训练。对于图像+文本应用,当前仅支持英语。

3.3 使用场景

Llama 3.2-Vision 旨在用于商业和研究用途。指令微调模型用于视觉识别、图像推理、图像描述以及类似于图像的助手式聊天,而预训练模型可适应各种图像推理任务。

  • 视觉问答(VQA)和视觉推理: 想象一台机器可以看着图片并理解你对其的提问。

  • 文档视觉问答(DocVQA): 想象计算机能够理解文档的文本和布局,如地图或合同,然后直接从图像中回答问题。

  • 图像描述: 图像描述弥合了视觉和语言之间的差距,提取细节、理解场景,并生成讲述故事的句子。

  • 图像-文本检索: 图像-文本检索类似于图像及其描述的匹配引擎,像搜索引擎一样,但能同时理解图片和文本。

  • 视觉定位: 视觉定位就像将我们看到和说的点连接起来,它涉及理解语言如何基于自然语言描述来参考图像的特定部分,使 AI 模型能够根据这些描述来精确定位物体或区域。

3.4 训练耗时

训练使用了总计 2.02M 个 GPU 小时,基于 H100-80GB(700W TDP)类型的硬件。训练时间为每个 GPU 设备的总 GPU 时间,经过电源使用效率调整。

3.5 训练数据

Llama 3.2-Vision 在 60 亿图像和文本对上进行了预训练。指令微调数据包括公开可用的视觉指令数据集,以及超过 300 万个合成生成的示例。

3.6 基准测试

Base Pretrained Models

Instruction Tuned Models


如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

三、LLM大模型系列视频教程

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt

LLM大模型学习路线

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.3 流水线工程
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

    • L3.1 Agent模型框架
    • L3.2 MetaGPT
    • L3.3 ChatGLM
    • L3.4 LLAMA
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈

[

文章来源于互联网:Llama 3.2:通过开放、可定制的模型彻底改变边缘人工智能和视觉

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » Llama 3.2:通过开放、可定制的模型彻底改变边缘人工智能和视觉
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们