这篇文章介绍了LLaMA(Large Language Model Meta AI),这是一组参数规模从7B到65B的开源基础语言模型。以下是文章的主要内容总结:
-
目标与贡献:
-
LLaMA的目标是通过在大量公开可用的数据上进行训练,提供高效且性能优越的语言模型,旨在降低推理成本并推动大型语言模型的研究。
-
LLaMA-13B在大多数基准测试中优于GPT-3(175B),而LLaMA-65B与Chinchilla-70B和PaLM-540B等最先进的模型相媲美。
-
-
训练数据与架构:
-
LLaMA仅使用公开可用的数据集进行训练,包括CommonCrawl、C4、GitHub、Wikipedia、书籍、ArXiv和Stack Exchange等。
-
模型基于Transformer架构,并引入了预归一化、SwiGLU激活函数和旋转位置嵌入等改进。
-
-
训练与优化:
-
使用AdamW优化器进行训练,采用余弦学习率调度和梯度裁剪等技术。
-
通过高效的实现和并行化技术,显著提升了训练速度,尤其是在大规模模型(如65B参数模型)上。
-
-
性能评估:
-
LLaMA在多个基准测试中表现出色,包括常识推理、闭卷问答、阅读理解、数学推理和代码生成等任务。
-
LLaMA-65B在大多数任务上达到了最先进的性能,而较小的模型(如7B和13B)在推理效率上具有显著优势。
-
-
指令微调:
-
通过在指令数据上进行微调,LLaMA在MMLU(大规模多任务语言理解)等任务上的性能进一步提升,展示了其在遵循指令方面的潜力。
-
-
偏见与毒性:
-
文章还探讨了LLaMA模型在生成有毒内容和编码社会偏见方面的潜在问题,并通过多个基准测试(如RealToxicityPrompts和CrowS-Pairs)进行了评估。
-
-
碳足迹:
-
文章估算了训练LLaMA模型的碳排放,并与OPT和BLOOM等模型进行了比较,强调了在AI研究中考虑环境影响的必要性。
-
-
开源与未来工作:
-
LLaMA模型已开源,旨在推动大型语言模型的研究和应用。未来计划包括发布更大规模的模型和进一步研究指令微调。
-
LLaMA是一组高效且性能优越的开源语言模型,通过使用公开数据、优化训练过程和引入架构改进,展示了在多个任务上的强大性能,同时也在减少环境影响和推动AI研究方面做出了贡献。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

官方项目地址在这里,如下所示:

摘要
我们介绍了LLaMA,这是一组参数规模从7B到65B的基础语言模型。我们在数万亿的token上训练这些模型,并展示了仅使用公开可用的数据集就可以训练出最先进的模型,而无需依赖专有或不可访问的数据集。特别是,LLaMA-13B在大多数基准测试中优于GPT-3(175B),而LLaMA-65B则与最好的模型Chinchilla-70B和PaLM-540B相媲美。我们将所有模型发布给研究社区。
1 引言
在大量文本语料库上训练的大型语言模型(LLMs)已经展示了它们通过文本指令或少量示例执行新任务的能力。这些少样本特性首次出现在模型规模足够大时,导致了一系列工作专注于进一步扩展这些模型。这些努力基于一个假设,即更多的参数将带来更好的性能。然而,Hoffmann等人(2022)的最新研究表明,在给定的计算预算下,最佳性能并不是由最大的模型实现的,而是由在更多数据上训练的较小模型实现的。
Hoffmann等人(2022)的扩展法则的目标是确定如何为特定的训练计算预算最佳地扩展数据集和模型规模。然而,这一目标忽略了推理预算,这在规模化服务语言模型时变得至关重要。在这种情况下,给定一个目标性能水平,首选的模型不是训练最快的,而是推理最快的。尽管训练一个大模型以达到某个性能水平可能更便宜,但训练时间更长的小模型在推理时最终会更便宜。例如,尽管Hoffmann等人(2022)建议在200B token上训练一个10B模型,但我们发现7B模型的性能在1T token后仍在继续提升。
本工作的重点是训练一系列语言模型,通过在比通常使用的更多token上进行训练,在各种推理预算下实现最佳性能。由此产生的模型称为LLaMA,参数规模从7B到65B,与现有的最佳LLMs相比具有竞争力。例如,LLaMA-13B在大多数基准测试中优于GPT-3,尽管它小了10倍。我们相信这个模型将有助于民主化LLMs的访问和研究,因为它可以在单个GPU上运行。在规模的高端,我们的65B参数模型也与Chinchilla或PaLM-540B等最好的大型语言模型相媲美。
与Chinchilla、PaLM或GPT-3不同,我们仅使用公开可用的数据,使我们的工作与开源兼容,而大多数现有模型依赖于要么不公开要么未记录的数据(例如“Books – 2TB”或“社交媒体对话”)。存在一些例外,特别是OPT、GPT-NeoX、BLOOM和GLM,但没有一个能与PaLM-62B或Chinchilla相媲美。
在本文的其余部分,我们概述了我们对Transformer架构的修改,以及我们的训练方法。然后,我们报告了我们的模型的性能,并与其它LLMs在一组标准基准上进行了比较。最后,我们使用负责任AI社区的一些最新基准,揭示了我们的模型中编码的一些偏见和毒性。
2 方法
我们的训练方法与之前的工作中描述的方法相似,并受到Chinchilla扩展法则的启发。我们使用标准优化器在大量文本数据上训练大型Transformer模型。

预训练数据
我们的训练数据集是多个来源的混合,如表1所示,涵盖了多样化的领域。大部分情况下,我们重用了用于训练其他LLMs的数据源,但仅限于使用公开可用且与开源兼容的数据。这导致了以下数据混合及其在训练集中的比例:
-
英语CommonCrawl [67%]: 我们使用CCNet管道预处理了2017年至2020年的五个CommonCrawl转储。该过程在行级别去重,使用fastText线性分类器进行语言识别以删除非英语页面,并使用n-gram语言模型过滤低质量内容。此外,我们训练了一个线性模型来分类被用作Wikipedia参考的页面与随机采样的页面,并丢弃未被分类为参考的页面。
-
C4 [15%]: 在探索性实验中,我们观察到使用多样化的预处理CommonCrawl数据集可以提高性能。因此,我们在数据中加入了公开可用的C4数据集。C4的预处理也包含去重和语言识别步骤:与CCNet的主要区别在于质量过滤,主要依赖于启发式方法,如标点符号的存在或网页中的单词和句子数量。
-
Github [4.5%]: 我们使用Google BigQuery上公开的GitHub数据集。我们只保留了在Apache、BSD和MIT许可证下分发的项目。此外,我们基于行长度或字母数字字符比例的启发式方法过滤了低质量文件,并使用正则表达式删除了样板文件,如头部。最后,我们在文件级别对结果数据集进行去重,使用精确匹配。
-
Wikipedia [4.5%]: 我们添加了2022年6月至8月期间的Wikipedia转储,涵盖20种语言,使用拉丁或西里尔字母:bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk。我们处理数据以删除超链接、评论和其他格式化样板。
-
Gutenberg和Books3 [4.5%]: 我们在训练数据集中加入了两个书籍语料库:Gutenberg项目,包含公共领域的书籍,以及ThePile的Books3部分,这是一个用于训练大型语言模型的公开可用数据集。我们在书籍级别进行去重,删除内容重叠超过90%的书籍。
-
ArXiv [2.5%]: 我们处理arXiv的Latex文件以将科学数据添加到我们的数据集中。按照Lewkowycz等人(2022)的方法,我们删除了第一部分之前的所有内容以及参考文献。我们还删除了.tex文件中的注释,并内联扩展了用户编写的定义和宏,以提高论文之间的一致性。
-
Stack Exchange [2%]: 我们加入了Stack Exchange的转储,这是一个涵盖从计算机科学到化学等多样化领域的高质量问答网站。我们保留了28个最大网站的数据,删除了文本中的HTML标签,并按分数对答案进行排序(从高到低)。
Tokenizer: 我们使用字节对编码(BPE)算法对数据进行分词,使用SentencePiece的实现。值得注意的是,我们将所有数字拆分为单个数字,并回退到字节以分解未知的UTF-8字符。
架构
遵循最近关于大型语言模型的工作,我们的网络基于Transformer架构。我们利用了随后提出的各种改进,并在不同的模型中使用,如PaLM。以下是主要区别以及我们进行这些更改的灵感来源(括号内):

-
预归一化 [GPT3]: 为了提高训练稳定性,我们对每个Transformer子层的输入进行归一化,而不是对输出进行归一化。我们使用RMSNorm归一化函数,由Zhang和Sennrich(2019)引入。
-
SwiGLU激活函数 [PaLM]: 我们用SwiGLU激活函数替换ReLU非线性,由Shazeer(2020)引入以提高性能。我们使用234d324d的维度,而不是PaLM中的4d4d。
-
旋转嵌入 [GPTNeo]: 我们移除了绝对位置嵌入,并在网络的每一层添加了旋转位置嵌入(RoPE),由Su等人(2021)引入。
我们不同模型的超参数细节见表2。
优化器
我们的模型使用AdamW优化器进行训练,超参数如下:β1=0.9,β2=0.95。我们使用余弦学习率调度,使得最终学习率等于最大学习率的10%。我们使用0.1的权重衰减和1.0的梯度裁剪。我们使用2,000个预热步骤,并根据模型的大小调整学习率和批量大小(见表2)。
高效实现
我们进行了多项优化以提高模型的训练速度。首先,我们使用了一种高效的因果多头注意力实现,以减少内存使用和运行时间。该实现在xformers库中可用,灵感来自Rabe和Staats(2021),并使用了Dao等人(2022)的反向传播。这是通过不存储注意力权重和不计算由于语言建模任务的因果性质而被掩码的键/查询分数来实现的。

为了进一步提高训练效率,我们通过检查点减少了在反向传播期间重新计算激活的数量。更准确地说,我们保存了计算成本高昂的激活,例如线性层的输出。这是通过手动实现Transformer层的反向函数,而不是依赖PyTorch的自动求导来实现的。为了充分利用这一优化,我们需要通过使用模型和序列并行来减少模型的内存使用,如Korthikanti等人(2022)所述。此外,我们还尽可能重叠激活的计算和GPU之间的网络通信(由于all_reduce操作)。
在训练65B参数模型时,我们的代码在2048个A100 GPU(80GB内存)上每秒处理约380个token。这意味着在我们的包含1.4T token的数据集上进行训练大约需要21天。

3 主要结果
遵循之前的工作,我们考虑了零样本和少样本任务,并在总共20个基准上报告了结果:
-
零样本: 我们提供任务的文本描述和测试示例。模型要么使用开放式生成提供答案,要么对提出的答案进行排序。
-
少样本: 我们提供任务的几个示例(1到64个)和一个测试示例。模型将此文本作为输入并生成答案或对不同的选项进行排序。
我们将LLaMA与其他基础模型进行比较,即非公开可用的语言模型GPT-3、Gopher、Chinchilla和PaLM,以及开源的OPT模型、GPT-J和GPT-Neo。在第4节中,我们还简要比较了LLaMA与指令调优模型,如OPT-IML和Flan-PaLM。

我们评估LLaMA在自由生成任务和多项选择任务上的表现。在多项选择任务中,目标是根据提供的上下文从一组给定的选项中选择最合适的完成。我们选择在给定上下文下具有最高似然的完成。我们遵循Gao等人(2021)的方法,并使用按完成字符数归一化的似然,除了某些数据集(OpenBookQA, BoolQ),我们遵循Brown等人(2020)的方法,并基于给定“Answer:”作为上下文的完成似然选择完成:P(completion∣context)/P(completion∣”Answer:”)。
常识推理
我们考虑了八个标准的常识推理基准:BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC easy和challenge以及OpenBookQA。这些数据集包括Cloze和Winograd风格的任务,以及多项选择问答。我们在零样本设置下进行评估,如语言建模社区中所做的那样。
在表3中,我们与不同大小的现有模型进行了比较,并报告了相应论文中的数字。首先,LLaMA-65B在所有报告的基准上均优于Chinchilla-70B,除了BoolQ。同样,该模型在除了BoolQ和WinoGrande之外的所有地方都超过了PaLM-540B。LLaMA-13B模型在大多数基准上也优于GPT-3,尽管它小了10倍。
闭卷问答
我们将LLaMA与现有的大型语言模型在两个闭卷问答基准上进行了比较:Natural Questions和TriviaQA。对于这两个基准,我们报告了在闭卷设置下的精确匹配性能,即模型无法访问包含证据的文档。在表4中,我们报告了NaturalQuestions的性能,在表5中,我们报告了TriviaQA的性能。在这两个基准上,LLaMA-65B在零样本和少样本设置下实现了最先进的性能。更重要的是,LLaMA-13B在这些基准上也与GPT-3和Chinchilla具有竞争力,尽管它小了5-10倍。该模型在推理期间可以在单个V100 GPU上运行。

阅读理解
我们在RACE阅读理解基准上评估了我们的模型。该数据集收集自为中国中学生设计的英语阅读理解考试。我们遵循Brown等人(2020)的评估设置,并在表6中报告了结果。在这些基准上,LLaMA-65B与PaLM-540B具有竞争力,而LLaMA-13B比GPT-3高出几个百分点。

数学推理
我们在两个数学推理基准上评估了我们的模型:MATH和GSM8k。MATH是一个包含12K个中学和高中数学问题的数据集,用LaTeX编写。GSM8k是一组中学数学问题。在表7中,我们与PaLM和Minerva进行了比较。Minerva是一系列在38.5B token上微调的PaLM模型,这些token提取自ArXiv和数学网页,而PaLM和LLaMA都没有在数学数据上进行微调。PaLM和Minerva的数字取自Lewkowycz等人(2022),我们比较了有和没有maj16k的情况。maj16k表示我们对每个问题生成k个样本并进行多数投票的评估。在GSM8k上,我们观察到LLaMA-65B优于Minerva-62B,尽管它没有在数学数据上进行微调。
代码生成
我们评估了我们的模型从自然语言描述编写代码的能力,使用了两个基准:HumanEval和MBPP。对于这两个任务,模型接收一个程序的描述,以及一些输入输出示例。在HumanEval中,它还接收一个函数签名,提示格式化为自然代码,文本描述和测试在文档字符串中。模型需要生成一个符合描述并满足测试用例的Python程序。在表8中,我们比较了我们的模型与未在代码上微调的现有语言模型的pass@1分数,即PaLM和LaMDA。PaLM和LLaMA在包含相似数量代码token的数据集上进行了训练。

如表8所示,对于相似数量的参数,LLaMA优于其他通用模型,如LaMDA和PaLM,这些模型没有专门为代码进行训练或微调。LLaMA在13B参数及以上优于LaMDA 137B,无论是在HumanEval还是MBPP上。LLaMA 65B也优于PaLM 62B,即使它训练时间更长。表中报告的pass@1结果是通过温度为0.1的采样获得的。pass@100和pass@80指标是通过温度为0.8的采样获得的。我们使用与Chen等人(2021)相同的方法来获得pass@k的无偏估计。
通过在代码特定token上进行微调,可以提高代码性能。例如,PaLM-Coder将PaLM在HumanEval上的pass@1分数从26.2%提高到36%。其他专门为代码训练的模型在这些任务上也比通用模型表现更好。代码token的微调超出了本文的范围。
大规模多任务语言理解
大规模多任务语言理解基准(MMLU)由Hendrycks等人(2020)引入,包含涵盖人文、STEM和社会科学等多个知识领域的选择题。我们在5-shot设置下评估我们的模型,使用基准提供的示例,并在表9中报告了结果。在这个基准上,我们观察到LLaMA-65B在平均水平和大多数领域上落后于Chinchilla-70B和PaLM-540B几个百分点。一个可能的解释是,我们在预训练数据中使用了有限数量的书籍和学术论文,即ArXiv、Gutenberg和Books3,总计只有177GB,而这些模型在多达2TB的书籍上进行了训练。Gopher、Chinchilla和PaLM使用的大量书籍也可能解释了为什么Gopher在这个基准上优于GPT-3,而在其他基准上表现相当。
训练期间性能的演变
在训练期间,我们跟踪了我们的模型在几个问答和常识基准上的性能,并在图2中报告了它们。在大多数基准上,性能稳步提高,并与模型的训练困惑度相关(见图1)。例外是SIQA和WinoGrande。最值得注意的是,在SIQA上,我们观察到性能的很大方差,这可能表明该基准不可靠。在WinoGrande上,性能与训练困惑度的相关性不如其他基准:LLaMA-33B和LLaMA-65B在训练期间的表现相似。

4 指令微调
在本节中,我们展示了在指令数据上进行短暂的微调可以迅速提高MMLU的性能。尽管未微调的LLaMA-65B已经能够遵循基本指令,但我们观察到,非常少量的微调可以提高MMLU的性能,并进一步提高模型遵循指令的能力。由于这不是本文的重点,我们只进行了一个实验,遵循Chung等人(2022)的相同协议来训练一个指令模型LLaMA-I。

在表10中,我们报告了我们的指令模型LLaMA-I在MMLU上的结果,并与现有的中等规模的指令微调模型进行了比较,即OPT-IML和Flan-PaLM系列。所有报告的数字均来自相应的论文。尽管这里使用的指令微调方法简单,但我们在MMLU上达到了68.9%。LLaMA-I(65B)在MMLU上优于现有的中等规模指令微调模型,但仍远未达到最先进的水平,即GPT code-davinci-002在MMLU上的77.4%(数字取自Iyer等人(2022))。MMLU在57个任务上的详细性能见附录中的表16。
5 偏见、毒性和错误信息
大型语言模型已被证明会复制和放大训练数据中存在的偏见,并生成有毒或冒犯性的内容。由于我们的训练数据集中包含大量来自网络的数据,我们认为确定我们的模型生成此类内容的潜力至关重要。为了理解LLaMA-65B的潜在危害,我们在不同的基准上进行了评估,这些基准衡量了有毒内容的生成和刻板印象的检测。虽然我们选择了一些语言模型社区用来指示这些模型问题的标准基准,但这些评估不足以完全理解与这些模型相关的风险。

RealToxicityPrompts
语言模型可以生成有毒语言,例如侮辱、仇恨言论或威胁。模型可以生成的有毒内容范围非常广泛,使得全面评估具有挑战性。最近的几项工作考虑了RealToxicityPrompts基准作为模型毒性的指标。RealToxicityPrompts包含约100k个提示,模型必须完成这些提示;然后通过向PerspectiveAPI发出请求自动评估毒性分数。我们无法控制第三方PerspectiveAPI使用的管道,因此与之前模型的比较具有挑战性。

对于每个100k提示,我们使用我们的模型贪婪生成,并测量它们的毒性分数。每个提示的分数范围从0(无毒)到1(有毒)。在表11中,我们报告了在RealToxicityPrompts的基本和尊重提示类别上的平均分数。这些分数与我们在文献中观察到的分数“相当”(例如,Chinchilla为0.087),但这些工作与我们的方法在采样策略、提示数量和时间上有所不同。我们观察到,毒性随着模型大小的增加而增加,尤其是在尊重提示上。这在之前的工作中也观察到了,除了Hoffmann等人(2022),他们没有看到Chinchilla和Gopher之间的差异,尽管大小不同。这可以解释为较大的模型Gopher比Chinchilla表现更差,这表明毒性和模型大小之间的关系可能仅适用于模型家族内部。
CrowS-Pairs
CrowS-Pairs基准旨在衡量语言模型中的社会偏见。它包含1,508对句子,每对句子在性别、宗教、种族/肤色、性取向、年龄、国籍、残疾、外貌和社会经济地位等九个类别中的一个方面有所不同。每对句子中的一个句子包含一个刻板印象,而另一个句子则挑战该刻板印象。我们使用与Nangia等人(2020)相同的评估方法,并报告了LLaMA-65B与OPT-175B和GPT3-175B的比较结果。

在表12中,我们比较了LLaMA-65B与OPT-175B和GPT3-175B的偏见水平。分数越高表示偏见越大。我们观察到,LLaMA-65B在大多数类别上的偏见水平与OPT-175B和GPT3-175B相当,但在某些类别上表现更好或更差。

WinoGender
WinoGender基准旨在衡量模型在共指消解任务中的性别偏见。它包含句子,其中代词(他/她/他们)的性别与职业的刻板印象性别不匹配。模型的任务是确定代词指代的是哪个名词。我们评估了模型在使用三个代词(“她/她/她”、“他/他/他”和“他们/他们/某人”)时的共指消解准确性。
在表13中,我们报告了LLaMA模型在不同代词上的共指消解准确性。我们观察到,我们的模型在“他们/他们/某人”代词上的表现显著优于“她/她/她”和“他/他/他”代词。之前在Rae等人(2021)和Hoffmann等人(2022)的工作中也观察到了类似的现象,这可能是性别偏见的迹象。事实上,在“她/她/她”和“他/他/他”代词的情况下,模型可能使用职业的多数性别来进行共指消解,而不是使用句子的证据。
为了进一步研究这一假设,我们查看了WinoGender数据集中“她/她/她”和“他/他/他”代词的“陷阱”案例。这些案例对应于代词与职业的多数性别不匹配且职业是正确答案的句子。在表13中,我们观察到我们的模型LLaMA-65B在陷阱案例上犯了更多的错误,清楚地表明它捕捉到了与性别和职业相关的社会偏见。性能下降存在于“她/她/她”和“他/他/他”代词上,这表明无论性别如何都存在偏见。
TruthfulQA
TruthfulQA旨在衡量模型的真实性,即其识别声明是否为真的能力。Lin等人(2021)将“真实”定义为“关于现实世界的字面真理”,而不是仅在信仰系统或传统背景下为真的声明。该基准可以评估模型生成错误信息或虚假声明的风险。问题以多样化的风格编写,涵盖38个类别,并设计为对抗性的。
在表14中,我们报告了真实和真实*信息性答案的比例,由经过专门训练的模型通过OpenAI API评分。我们遵循Ouyang等人(2022)中使用的QA提示风格,并报告了GPT-3的性能。我们观察到,LLaMA-65B在TruthfulQA上的表现优于GPT-3,尽管它没有在真实性数据上进行微调。
6 碳足迹
在本节中,我们估计了训练LLaMA模型的碳足迹,并将其与OPT和BLOOM进行了比较。我们遵循Wu等人(2022)的方法,将电力使用效率(PUE)设为1.1。由此产生的碳排放取决于用于训练网络的数据中心的位置。例如,BLOOM使用的电网排放0.057 kg CO₂eq/KWh,导致27 tCO₂eq,而OPT使用的电网排放0.231 kg CO₂eq/KWh,导致82 tCO₂eq。在本研究中,我们感兴趣的是比较这些模型在相同数据中心训练时的碳排放成本。因此,我们不考虑数据中心的位置,而是使用美国国家平均碳强度因子0.385 kg CO₂eq/KWh。这导致了以下碳排放公式:

我们对OPT和BLOOM应用相同的公式以进行公平比较。对于OPT,我们假设训练需要34天,使用992个A100-80B(见其日志)。最后,我们估计我们使用了2048个A100-80GB,开发我们的模型大约需要5个月。这意味着在我们的假设下,开发这些模型将消耗约2,638 MWh,总排放量为1,015 tCO₂eq。我们希望发布这些模型将有助于减少未来的碳排放,因为训练已经完成,并且一些模型相对较小,可以在单个GPU上运行。

7 相关工作
语言模型是单词、token或字符序列的概率分布。这个任务通常被框架为下一个token预测,长期以来被认为是自然语言处理中的核心问题。由于Turing(1950)提出通过“模仿游戏”使用语言来衡量机器智能,语言建模被提出作为衡量人工智能进展的基准。
架构: 传统上,语言模型基于n-gram计数统计,并提出了各种平滑技术来改进稀有事件的估计。在过去的二十年中,神经网络已成功应用于语言建模任务,从前馈模型开始,到循环神经网络和LSTM。最近,基于自注意力的Transformer网络导致了重要改进,特别是在捕捉长程依赖方面。
扩展: 语言模型的扩展有很长的历史,包括模型和数据集大小的扩展。Brants等人(2007)展示了在2万亿token上训练的语言模型对机器翻译质量的好处。这项工作依赖于一种称为“愚蠢回退”的简单平滑技术,Heafield等人(2013)后来展示了如何将Kneser-Ney平滑扩展到网络规模数据。这使得能够在CommonCrawl的9750亿token上训练一个5-gram模型,生成一个包含5000亿n-gram的模型。Chelba等人(2013)引入了“十亿词”基准,这是一个用于衡量语言模型进展的大规模训练数据集。
在神经语言模型的背景下,Jozefowicz等人(2016)通过在十亿词基准上扩展LSTM获得了最先进的结果。后来,扩展Transformer在许多NLP任务上带来了改进。著名的模型包括BERT、GPT-2、Megatron-LM和T5。GPT-3的突破性成果导致了“大型语言模型”系列的出现,如Jurassic-1、Megatron-Turing NLG、Gopher、Chinchilla、PaLM、OPT和GLM。Hestness等人(2017)和Rosenfeld等人(2019)研究了扩展对深度学习模型性能的影响,展示了模型和数据集大小与系统性能之间的幂律关系。Kaplan等人(2020)推导了基于Transformer的语言模型的幂律,后来由Hoffmann等人(2022)通过调整学习率调度进行了改进。最后,Wei等人(2022)研究了扩展对大型语言模型能力的影响。
8 结论
在本文中,我们介绍了一系列公开发布的语言模型,与最先进的基础模型具有竞争力。最值得注意的是,LLaMA-13B优于GPT-3,尽管它小了10倍以上,而LLaMA-65B与Chinchilla-70B和PaLM-540B相媲美。与之前的研究不同,我们展示了仅使用公开可用的数据就可以实现最先进的性能,而无需依赖专有数据集。我们希望将这些模型发布给研究社区将加速大型语言模型的发展,并帮助提高其鲁棒性和缓解已知问题(如毒性和偏见)的努力。此外,我们观察到,像Chung等人(2022)一样,对这些模型进行指令微调会带来有希望的结果,我们计划在未来的工作中进一步研究这一点。最后,我们计划在未来发布在更大预训练语料库上训练的更大模型,因为我们看到了随着扩展性能的持续提升。
文章来源于互联网:LLaMA: Open and Efficient Foundation Language Models——开放且高效的基础语言模型
相关推荐: Stable diffusion inference 多卡并行
stable diffusion 推理过程 多卡并行 注意事项 以SDXL为例,指定GPU,添加device_map参数信息 device_map = { ‘add_embedding’: 1, ‘decoder’: 1, ‘encoder’: 1, ‘con…
5bei.cn大模型教程网










