2023 AI核心论文

基座

LLaMA: Open and Efficient Foundation Language Models

发布时间：2023.02

发表单位：Meta

影响力：LLAMA-1

摘要：我们介绍了 LLaMA，这是一个由 7B 到 65B 个参数组成的基础语言模型集合。我们在数万亿个词库上训练我们的模型，并表明完全可以使用公开可用的数据集来训练最先进的模型，而无需求助于专有和不可访问的数据集。其中，LLaMA-13B 在大多数基准测试中的表现都优于 GPT-3 (175B)，而 LLaMA65B 与最好的模型 Chinchilla-70B 和 PaLM-540B 相比也具有竞争力。我们向研究界发布了所有模型。

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

发布时间：2023.05

发表单位：Google

影响力：NIPS-2023,通过配比预训练数据分布加速训练过程

摘要：预训练数据域（如维基百科、书籍、网络文本）的混合比例会极大地影响语言模型（LM）的性能。在本文中，我们提出了 “最小最大优化的域重权重”（DoReMi），它第一在不了解下游任务的情况下，通过对域进行组分布稳健优化（Group DRO）来产生域权重（混合比例），从而训练一个小型代理模型。然后，我们使用这些域权重对数据集进行重新采样，并训练一个更大的全尺寸模型。在我们的实验中，我们在一个 280M 参数的代理模型上使用 DoReMi 来设置域权重，以便更高效地训练一个 8B 参数的模型（30 倍大）。在 “堆 “上，DoReMi 提高了所有域的复杂度，即使在降低域权重时也是如此。与使用 The Pile 默认域权重训练的基线模型相比，DoReMi 可提高 6.5% 的几发下游平均准确率，并且只需减少 2.6 倍的训练步骤即可达到基线准确率。在 GLaM 数据集上，对下游任务一无所知的 DoReMi 甚至达到了使用根据下游任务调整的域权重的性能。

Let’s Verify Step by Step

发布时间：2023.05

发表单位：OpenAI

影响力：过程监督训练加强模型推理能力

摘要：近年来，大型语言模型执行复杂的多步骤推理的能力有了很大提高。不过，即使是最先进的模型，依旧会常常出现逻辑错误。为了训练出更可靠的模型，我们可以求助于结果监督（为最终结果提供反馈）或过程监督（为每个中间推理步骤提供反馈）。鉴于训练可靠模型的重大性，以及人工反馈的高成本，仔细比较这两种方法超级重大。最近的工作已经开始了这种比较，但仍存在许多问题。我们进行了自己的调查，发目前训练模型解决具有挑战性的 MATH 数据聚焦的问题时，过程监督明显优于结果监督。我们的过程监督模型解决了 MATH 测试集代表性子聚焦 78% 的问题。此外，我们还证明主动学习能显著提高过程监督的效率。为了支持相关研究，我们还发布了 PRM800K，这是一个包含 800,000 个步骤级人类反馈标签的完整数据集，用于训练我们的最佳奖励模型。

Llama 2: Open Foundation and Fine-Tuned Chat Models

发布时间：2023.07

发表单位：Meta

影响力：LLAMA-2

摘要：在这项工作中，我们开发并发布了 Llama 2，这是一组经过预训练和微调的大型语言模型（LLM），其规模从 70 亿到 700 亿个参数不等。我们的微调 LLM 被称为 Llama 2-Chat，针对对话使用案例进行了优化。在我们测试的大多数基准测试中，我们的模型都优于开源聊天模型，而且根据我们对有用性和安全性的人工评估，我们的模型可能是封闭源模型的合适替代品。我们将详细介绍我们对 Llama 2-Chat 进行微调和安全性改善的方法，以便社区能够在我们工作的基础上，为负责任地开发 LLMs 做出贡献。

FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning

发布时间：2023.07

发表单位：Princeton

影响力：flash-attn2加速模型训练

摘要：在过去几年中，将变换器扩展到更长的序列长度一直是一个主要问题，有望提高语言建模和高分辨率图像理解的性能，并开启代码、音频和视频生成方面的新应用。注意力层是扩展到更长序列的主要瓶颈，由于它的运行时间和内存会随着序列长度的增加而呈四倍增长。FlashAttention [5] 利用非对称 GPU 内存层次结构，在不进行近似的情况下，显著节省了内存（线性而非二次），并加快了运行速度（与优化基线相比提高了 2-4 倍）。不过，FlashAttention 的速度依旧比不上经过优化的矩阵乘法（GEMM）运算，只能达到理论最大 FLOPs/s 的 25-40%。我们发现，效率低下的缘由是 GPU 上不同线程块和翘曲之间的工作分割不够理想，导致低占用率或不必要的共享内存读/写。为了解决这些问题，我们提出了具有更好工作分区的 FlashAttention-2。具体来说，我们（1）调整算法以减少非 Matmul FLOPs 的数量（2）在不同线程块之间并行处理注意力计算（即使是单头计算），以提高占用率，以及（3）在每个线程块内，在 warps 之间分配工作，以减少通过共享内存的通信。与 FlashAttention 相比，这些方法提高了约 2 倍的速度，达到理论最大速度的 50-73% 。

Code Llama: Open Foundation Models for Code

发布时间：2023.08

发表单位：Meta

影响力：Code-llama,16k 微调后可泛化到100k

摘要：我们发布了基于 Llama 2 的代码大型语言模型系列 Code Llama，该系列在开放模型、填充功能、大型输入上下文支持以及编程任务的零点指令跟踪能力方面具有最先进的性能。我们提供多种类型的模型，以覆盖广泛的应用领域：基础模型（Code Llama）、Python 专用模型（Code Llama – Python）和指令跟踪模型（Code Llama – Instruct），每种模型有 7B、13B、34B 和 70B 个参数。这些模型是在 16k 字元序列上训练出来的，在多达 100k 字元的输入上显示出了改善。7B、13B 和 70B 的 Code Llama 和 Code Llama – Instruct 变体支持基于周围内容的填充。在多个代码基准测试中，Code Llama 达到了开放模型中最先进的性能，在 HumanEval 和 MBPP 测试中的得分分别高达 67% 和 65%。值得注意的是，Code Llama – Python 7B 在 HumanEval 和 MBPP 上的表现优于 Llama 2 70B，而在 MultiPL-E 上，我们的所有模型都优于其他所有公开发表的模型。我们在允许研究和商业使用的许可下发布 Code Llama。

FLM-101B: An Open LLM and How to Train It with $100K Budget

发布时间：2023.09

发表单位：智谱

影响力：模型生长

摘要：大型语言模型（LLM）在 NLP 和多模态任务等方面取得了显著的成功。尽管取得了这些成功，但开发 LLM 依旧面临两大挑战：(i) 高计算成本；(ii) 公平客观的评估。在本文中，我们报告了一种通过增长策略大幅降低 LLM 训练成本的解决方案。我们证明，只需 10 万美元的预算，就能训练出拥有 0.31T 标记的 101B 参数 LLM。受智商测试的启发，我们还在现有评估的基础上整合了一系列额外的评估，这些评估重点关注面向知识的能力。这些 IQ 评估包括符号映射、规则理解、模式挖掘和抗干扰。这些评估将记忆的潜在影响降至最低。实验结果表明，我们的模型（命名为 FLM-101B）在 10 万美元的预算内就能达到与强劲的著名模型（如 GPT-3 和 GLM-130B）相媲美的性能，尤其是在额外的 IQ 评估范围内。FLM-101B 的检查点发布于
https://huggingface.co/CofeAI/FLM-101B。

Gemini: A Family of Highly Capable Multimodal Models

发布时间：2023.12

发表单位：Google

影响力：业界第一个原生的多模态大模型，能够融合不同类型的信息，包括文本、图像、音频、视频

摘要：本报告介绍了一个全新的多模态模型系列–Gemini，它在图像、音频、视频和文本理解方面表现出非凡的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三种尺寸，适用于从复杂推理任务到设备内存受限用例等各种应用。对各种基准的评估表明，我们能力最强的 Gemini Ultra 模型在 32 个基准中的 30 个基准中都超越了目前的技术水平，尤其是它是第一个在经过充分研究的考试基准 MMLU 中取得人类专家级性能的模型，并在我们检查的 20 个多模态基准中的每个基准中都超越了目前的技术水平。我们信任，Gemini 模型在跨模态推理和语言理解方面的新能力将为各种用例提供支持，我们还讨论了将它们负责任地部署给用户的方法。

Mixtral of Experts

发布时间：2024.01

发表单位：Mistral AI

影响力：开源MOE，超越LLama2和GPT-3.5

摘要：我们介绍 Mixtral 8x7B，这是一种稀疏专家混合（SMoE）语言模型。Mixtral 采用与 Mistral 7B 一样的架构，不同之处在于每层由 8 个前馈块（即专家）组成。对于每个标记，每一层都有一个路由器网络选择两个专家来处理当前状态，并将其输出合并。尽管每个令牌只能看到两个专家，但在每个时间步所选择的专家可以是不同的。因此，每个标记可以访问 47B 个参数，但在推理过程中只使用 13B 个活动参数。Mixtral 在 32k 标记的上下文大小下进行了训练，在所有评估基准中，它的表现都优于或不逊色于 Llama 2 70B 和 GPT-3.5。特别是在数学、代码生成和多语言基准测试中，Mixtral 的表现大大优于 Llama 2 70B。我们还提供了一个根据指令进行微调的模型–Mixtral 8x7B – Instruct，它在人类基准测试中超越了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B – chat 模型。基本模型和指示模型均根据 Apache 2.0 许可发布。

对齐

TaskLAMA: Probing the Complex Task Understanding of Language Models

发布时间：2023.08

发表单位：Google

影响力：复杂任务分解，他提供了复杂任务的数据集

摘要：结构化复杂任务分解（SCTD）是将现实世界中的复杂任务（如筹办婚礼）分解为有向无环图的问题，有向无环图由有助于完成任务的各个步骤组成，其边缘指定了这些步骤之间的时间依赖关系。有向无环图是辅助规划工具的重大组成部分，也是常识推理系统面临的一项挑战。我们探讨了如何利用从大型语言模型（LLM）中提取的知识准确地完成 SCTD。我们为这一问题引入了高质量的人类标注数据集和新颖的衡量标准，以便对照几种基线公平地评估 LLM 的性能。我们的实验表明，LLMs 能够有效地将复杂任务分解为单个步骤，与最佳基线相比，LLMs 的性能相对提高了 15%-280%。我们还提出了一些方法来进一步提高其性能，与基准模型相比，相对提高了 7% 到 37%。不过，我们发现 LLM 在预测成对的时间依赖性方面依旧很吃力，这揭示了 LLM 在理解复杂任务方面的差距。

FIAT: FUSING LEARNING PARADIGMS WITH INSTRUCTION-ACCELERATED TUNING

发布时间：2023.09

发表单位：Google DeepMind

影响力：提出了一种名为 FIAT 的新学习范式，它将微调范例中最好的融合在一起

摘要：目前，大型语言模型（LLM）的学习范式往往属于上下文学习（ICL）或全面微调。这两种方法都需要根据可用数据、模型大小、计算成本、易用性和最终质量来权衡利弊，但两种方案都不能全面发挥其优势。在本文中，我们将第一介绍 ICL 和微调范例，以突出它们之间的天然联系。基于这些联系，我们提出了一种名为 FIAT1 的新学习范式，它将这两种范式的精髓2 融合在一起，既能为最大型的模型提供及时设计的指令和思维链推理，又能使用类似的方法在规模适中的 LLM 上执行参数更新，并进行参数高效调整。我们对 FIAT 在各种多语言任务3 中的有效性进行了评估，发现 FIAT 在 100-10,000 个训练示例的范围内的表现优于 ICL 和微调。我们希望 FIAT 能够提供一种实用的方法，让我们无需在学习范式之间做出艰难的选择，就能充分发挥 LLM 的潜力。

ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models

发布时间：2023.10

发表单位：香港大学

影响力：一种新的RL方法，比PPO内存小，比PPO快

摘要：对齐对于训练大型语言模型至关重大。最主要的策略是通过人类反馈强化学习（RLHF），而实际上的算法是近端策略优化（PPO）。不过，众所周知，PPO 存在计算效率低下的问题，本文旨在解决这一难题。我们发现了 RLHF 任务的三个重大特性：快速模拟、确定性转换和轨迹级奖励，而 PPO 并没有利用这些特性。基于这些特性，我们开发了专为 RLHF 量身定制的新算法 ReMax。ReMax 的设计建立在著名算法 REINFORCE 的基础上，并通过一种新的方差缩小技术得到了增强。与 PPO 相比，ReMax 具有三重优势：第一，它易于实现，只需 6 行代码。它进一步消除了 PPO 中 4 个以上的超参数，这些参数的调整超级费力。其次，ReMax 减少了约 50% 的内存使用量。举例来说，当在 A100-80GB GPU 上微调 Llama2-7B 模型时，PPO 会耗尽内存，而 ReMax 可以支持训练。尽管 PPO 采用了内存高效技术（如 ZeRO 和卸载）来负担训练，但 ReMax 可以利用更大的批处理规模来提高吞吐量。第三，就挂钟时间而言，PPO 每次迭代的速度大约是 ReMax 的两倍。重大的是，这些改善并没有牺牲任务性能。我们假设这些优势可以在更大规模的模型中得以保持。

agent

Tool Learning with Foundation Models

发布时间：2023.04

发表单位：清华

影响力：发布了BMTools, 一个让LLM使用扩展工具的开源代码仓库，类似LangChain，可以用来搭建自己的工具增强LLM。

摘要：人类拥有创造和使用工具的非凡能力，这使他们能够克服物理限制，探索新的领域。随着最近强劲的基础模型的出现，人工智能系统有可能像人类一样善于使用工具。这种模式被称为 “工具学习与基础模型”，它结合了专业工具和基础模型的优势，提高了解决问题的准确性、效率和自动化程度。尽管潜力巨大，但人们对这一领域的关键挑战、机遇和未来努力仍缺乏全面了解。为此，我们在本文中对工具学习进行了系统研究和全面评述。我们第一介绍了工具学习的背景，包括其认知起源、基础模型的范式转变以及工具和模型的互补作用。我们回顾了现有的工具学习研究，并提出了一个通用的工具学习框架：从理解用户指令开始，模型应学会将复杂任务分解为多个子任务，通过推理动态调整计划，并通过选择合适的工具有效地完成每个子任务。我们还讨论了如何训练模型以提高工具使用能力，并促进工具学习的泛化。思考到之前的研究中缺乏系统的工具学习评估，我们将对工具学习的评估结果进行分析。

Gorilla: Large Language Model Connected with Massive APIs

发布时间：2023.05

发表单位：伯克利，微软

影响力：发布了工具调用数据集APIBench，由大量神经网络模型的调用API组成，来自HuggingFace、TorchHub 和 TensorHub等。

摘要：在面向可执行任务的语义解析中，系统旨在将用户的自然语言话语翻译成机器可解释的程序（API 调用），这些程序可根据预定义的 API 规范执行。随着大语言模型（LLM）的普及，上下文学习为此类场景提供了一个强劲的基础，尤其是在数据有限的情况下（Hu 等人，2022；Shin 等人，2021）。不过，众所周知，LLMs 会产生幻觉，因此在限制生成内容方面构成了巨大的挑战（Parikh 等人，2020 年）。因此，LLMs 能否有效地进行面向任务的语篇到 API 的生成仍不确定，在这种情况下，尊重 API 的结构和特定任务的限制至关重大。在这项工作中，我们尝试测量、分析和减轻此类违反约束的情况。第一，我们确定了从面向任务的语篇中获取 API 语义时各种约束的类别，并定义了补充传统指标的细粒度指标。其次，我们利用这些指标对最先进的 LLM 中出现的违反约束的情况进行了详细的错误分析，这促使我们研究了两种缓解策略–语义检索演示（SRD）和 API 感知约束解码（API-CD）。我们的实验表明，这些策略能有效减少违反约束的情况，并提高生成的 API 调用的质量，但在实施过程中还需要仔细斟酌。

TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS

发布时间：2023.07

发表单位：清华等

影响力：提出了目前最大的工具调用数据集ToolLLM，发布了ToolLlama基座和ToolEval评测方法

摘要：尽管开源大语言模型（LLM）（例如 LLaMA）取得了进步，但它们在工具使用功能（即使用外部工具（API）来完成人类指令）方面依旧受到严重限制。缘由是当前的指令调优主要聚焦在基本语言任务上，而忽略了工具使用领域。这与最先进 (SOTA) 闭源 LLM（例如 ChatGPT）的出色工具使用能力形成鲜明对比。为了弥补这一差距，我们引入了 ToolLLM，这是一个涵盖数据构建、模型训练和评估的通用工具使用框架。我们第一介绍 ToolBench，这是一个用于工具使用的指令调整数据集，它是使用 ChatGPT 自动构建的。具体来说，建设可以分为三个阶段：（i）API收集：我们从RapidAPI Hub收集了16个、464个真实世界的RESTful API，涵盖49个类别； (ii) 指令生成：我们促使 ChatGPT 生成涉及这些 API 的各种指令，涵盖单工具和多工具场景； (iii) 解决方案路径注释：我们使用 ChatGPT 为每条指令搜索有效的解决方案路径（API 调用链）。为了增强法学硕士的推理能力，我们开发了一种新颖的基于深度优先搜索的决策树算法。它使法学硕士能够评估多个推理轨迹并扩展搜索空间。此外，为了评估LLM的工具使用能力，我们开发了一个自动评估器：ToolEval。基于ToolBench，我们对LLaMA进行微调以获得LLM ToolLLaMA，并为其配备神经API检索器，为每条指令推荐合适的API。实验表明，ToolLLaMA 表现出执行复杂指令和泛化到未见过的 API 的卓越能力，并且表现出与 ChatGPT 相当的性能。我们的 ToolLLaMA 还在分布外工具使用数据集 APIBench 中展示了强劲的零样本泛化能力。代码、训练模型和演示可在
https://github.com/OpenBMB/ToolBench 上公开获取。

CogAgent: A Visual Language Model for GUI Agents

发布时间：2023.12

发表单位：清华

影响力：发布了一个视觉语言模型 CogAgent，能够理解手机设备的GUI页面

摘要：人们通过图形用户界面 (GUI) 在数字设备上花费了大量时间，例如计算机或智能手机屏幕。 ChatGPT 等大型语言模型 (LLM) 可以协助人们完成撰写电子邮件等任务，但很难理解 GUI 并与之交互，从而限制了它们提高自动化水平的潜力。在本文中，我们介绍了 CogAgent，这是一个拥有 180 亿参数的视觉语言模型 (VLM)，专门用于 GUI 理解和导航。通过利用低分辨率和高分辨率图像编码器，CogAgent 支持 1120×1120 分辨率的输入，使其能够识别微小的页面元素和文本。作为通用视觉语言模型，CogAgent 在五个丰富文本和四个通用 VQA 基准上实现了最先进的水平，包括 VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet、和教皇。 CogAgent 仅使用屏幕截图作为输入，其性能优于基于 LLM 的方法，后者在 PC 和 Android GUI 导航任务（Mind2Web 和 AITW）上使用提取的 HTML 文本，从而推进了现有技术的发展。模型和代码可在
https://github.com/THUDM/CogVLM 获取。

端侧

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

发布时间：2023.03

发表单位：奥地利技术研究所

影响力：GPTQ 对某个 block 内的所有参数逐个量化，每个参数量化后，需要适当调整这个 block 内其他未量化的参数，以弥补量化造成的精度损失。

摘要：生成式预训练 Transformer 模型（称为 GPT 或 OPT）因其在复杂语言建模任务中突破性的性能而脱颖而出，而且还因其极高的计算和存储成本而脱颖而出。具体来说，由于其规模巨大，即使是大型、高精度 GPT 模型的推理也可能需要多个高性能 GPU，这限制了此类模型的可用性。虽然通过模型压缩缓解这种压力的工作不断涌现，但现有压缩技术的适用性和性能受到 GPT 模型的规模和复杂性的限制。在本文中，我们针对这一挑战，提出了 GPTQ，一种基于近似二阶信息的新型一次性权重量化方法，该方法既高精度又高效。具体来说，GPTQ 可以在大约 4 个 GPU 小时内量化具有 1750 亿个参数的 GPT 模型，将位宽减少到每个权重 3 或 4 位，相对于未压缩的基线，精度下降可以忽略不计。相对于之前提出的一次性量化方法，我们的方法将压缩增益提高了一倍以上，同时保持了准确性，使我们能够首次在单个 GPU 内执行包含 1750 亿个参数的模型以进行生成推理。此外，我们还表明，我们的方法在极端量化机制中依旧可以提供合理的精度，其中权重被量化为 2 位甚至三元量化级别。我们通过实验证明，这些改善可用于比 FP16 实现端到端推理加速，使用高端 GPU (NVIDIA A100) 时可加速约 3.25 倍，使用更具成本效益的 GPU (NVIDIA A6000) 时可加速约 4.5 倍。该实现可在
https://github.com/IST-DASLab/gptq 上找到。

Fast Inference from Transformers via Speculative Decoding

发布时间：2023.05

发表单位：谷歌

影响力：使用投机推理提升大模型推理速度

摘要：从像 Transformer 这样的大型自回归模型进行推理很慢 – 解码 K 个令牌需要模型的 K 个串行运行。在这项工作中，我们引入了推测性解码——一种通过并行计算多个标记来更快地从自回归模型中采样而无需对输出进行任何更改的算法。我们方法的核心在于以下观察：（1）硬语言建模任务一般包括更简单的子任务，可以通过更高效的模型很好地近似，以及（2）使用推测执行和新颖的采样方法，我们可以进行准确的解码通过在近似模型的输出上并行运行它们，可以更快地从大型模型中获得结果，从而可能同时生成多个标记，并且无需更改分布。我们的方法可以加速现有的现成模型，而无需重新训练或架构更改。我们在 T5-XXL 上进行了演示，并显示与标准 T5X 实现相比，具有一样输出的 2-3 倍加速。

SpecInfer: Accelerating Large Language Model Serving with Tree-based Speculative Inference and Verification

发布时间：2023.05

发表单位：CMU

影响力：利用了小模型计算快，来生成一个token tree作为候选，然后让大模型verify这个token tree

摘要：本文介绍了 SpecInfer，这是一个通过基于树的推测推理和验证来加速生成式大语言模型 (LLM) 的系统。 SpecInfer 的关键思想是利用小型推测模型来预测 LLM 的输出；预测被组织为令牌树，每个节点代表一个候选令牌序列。使用一种新颖的基于树的并行解码机制，针对 LLM 并行验证由令牌树表明的所有候选令牌序列的正确性。 SpecInfer 使用 LLM 作为令牌树验证器而不是增量解码器，这显着减少了服务生成 LLM 的端到端延迟和计算要求，同时可证明保持模型质量。我们的评估表明，对于分布式 LLM 推理，SpecInfer 比现有的 LLM 服务系统高 1.5-2.8 倍，对于基于卸载的 LLM 推理，比现有 LLM 服务系统高 2.6-3.5 倍，同时保持一样的生成性能。 SpecInfer 已公开发布于
https://github.com/flexflow/FlexFlow/

Break the Sequential Dependency of LLM Inference Using Lookahead Decoding

发布时间：2023.11

发表单位：LMSYS

影响力：使用Jacobi Iteration和n-grams来实现推理加速

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

发布时间：2023.12

发表单位：APPLE

影响力：内存受限场景下的大模型高效推理

摘要：大型语言模型 (LLM) 是现代自然语言处理的核心，可在各种任务中提供卓越的性能。不过，它们密集的计算和内存需求带来了挑战，特别是对于 DRAM 容量有限的设备。本文通过将模型参数存储在闪存上，但按需将它们传送到 DRAM，解决了高效运行超出可用 DRAM 容量的 LLM 的挑战。我们的方法涉及构建一个与闪存行为相协调的推理成本模型，指导我们在两个关键领域进行优化：减少从闪存传输的数据量以及以更大、更连续的块读取数据。在这个基于闪存的框架中，我们介绍了两种主要技术。第一，“窗口化”通过重用先前激活的神经元来战略性地减少数据传输，其次，针对闪存的顺序数据访问优势而定制的“行列捆绑”增加了从闪存读取的数据块的大小。这些方法共同支持运行高达可用 DRAM 大小两倍的模型，与 CPU 和 GPU 中的简单加载方法相比，推理速度分别提高了 4-5 倍和 20-25 倍。我们将稀疏性意识、上下文自适应加载和面向硬件的设计集成在一起，为在内存有限的设备上有效推理 LLM 铺平了道路。

Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

发布时间：2024.01

发表单位：普林斯顿

影响力：训练多个 LM head 来预测不同位置的 token，生成多个候选词，实现推理加速

摘要：由于自回归解码过程中缺乏并行性，大型语言模型（LLM）中的推理过程一般受到限制，导致大多数操作受到加速器内存带宽的限制。虽然已经提议使用推测解码等方法来解决这个问题，但它们的实施受到与获取和维护单独的草稿模型相关的挑战的阻碍。在本文中，我们提出了 Medusa，一种有效的方法，通过添加额外的解码头来并行预测多个后续标记，从而增强 LLM 推理。 Medusa 使用基于树的注意力机制构建多个候选延续，并在每个解码步骤中同时验证它们。通过利用并行处理，Medusa 仅在单步延迟方面引入了最小的开销，同时大大减少了所需的解码步骤数。

我们为 Medusa 提供了两个级别的微调程序，以满足不同用例的需求： Medusa-1：Medusa 直接在冻结骨干 LLM 之上进行微调，从而实现无损推理加速。 Medusa-2：Medusa 与主干 LLM 一起进行微调，可以实现更好的 Medusa 头部预测精度和更高的加速，但需要特殊的训练方法来保留主干模型的功能。

此外，我们提出了几种改善或扩展 Medusa 实用性的扩展，包括用于处理没有可用训练数据的情况的自蒸馏，以及用于在保持生成质量的同时提高接受率的典型接受方案。我们在不同尺寸和训练程序的模型上评估美杜莎。我们的实验表明，Medusa-1 可以在不影响生成质量的情况下实现超过 2.2 倍的加速，而 Medusa-2 进一步将加速提高到 2.3-3.6 倍。

多模态

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

发布时间：2023.01

发表单位：Salesforce

影响力：提出了Q-Former，通过冻结视觉编码器和大语言模型来融合图文特征

摘要：由于大规模模型的端到端训练，视觉和语言预训练的成本变得越来越高。本文提出了 BLIP-2，这是一种通用且高效的预训练策略，可从现成的冻结预训练图像编码器和冻结大型语言模型引导视觉语言预训练。 BLIP-2 通过轻量级查询转换器弥补了模态差距，该转换器分两个阶段进行预训练。第一阶段从冻结图像编码器引导视觉语言表明学习。第二阶段从冻结的语言模型引导视觉到语言的生成学习。尽管可训练参数比现有方法少得多，但 BLIP-2 在各种视觉语言任务上实现了最先进的性能。例如，我们的模型在零样本 VQAv2 上的性能比 Flamingo80B 高出 8.7%，可训练参数减少了 54 倍。我们还展示了该模型的新兴功能，即可以遵循自然语言指令的零样本图像到文本生成。

Kosmos-2: Grounding Multimodal Large Language Models to the World

发布时间：2023.06

发表单位：Salesforce

影响力：提出了Grounded数据集，支持interleaved数据格式

摘要：我们引入了 KOSMOS-2，一种多模态大语言模型 (MLLM)，支持感知对象描述（例如边界框）和将文本融入视觉世界的新功能。具体来说，我们将引用表达式表明为 Markdown 中的链接，即“[文本范围]（边界框）”，其中对象描述是位置标记的序列。我们与多模态语料库一起构建大规模的接地图像文本对数据（称为 GRIT）来训练模型。除了 MLLM 的现有功能（例如感知一般模式、遵循指令以及执行上下文学习）之外，KOSMOS-2 还将接地功能集成到下游应用程序中。我们在广泛的任务上评估 KOSMOS-2，包括 (i) 多模态基础，例如指称表达理解和短语基础，(ii) 多模态指称，例如指称表达生成，(iii) 感知语言任务，以及(iv) 语言理解和生成。这项工作为 Embody AI 的发展奠定了基础，并揭示了语言、多模态感知、动作和世界建模的大融合，这是迈向通用人工智能的关键一步。代码和预训练模型可在 https://aka.ms/kosmos-2 获取。

Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

发布时间：2023.08

发表单位：阿里

影响力：强劲的中文理解能力，一些通用能力可以媲美GPT-4V和Genimi

摘要：在这项工作中，我们介绍了 Qwen-VL 系列，这是一组旨在感知和理解文本和图像的大规模视觉语言模型 (LVLM)。以Qwen-LM为基础，我们通过精心设计的（i）视觉接收器、（ii）输入输出接口、（iii）三阶段训练管道和（iv）多语言多模态清洗赋予其视觉能力语料库。除了传统的图像描述和问答之外，我们还通过对齐图像标题框元组来实现 Qwen-VL 的基础和文本阅读能力。由此产生的模型，包括 QwenVL 和 Qwen-VL-Chat，在广泛的以视觉为中心的基准（例如图像字幕、问题回答、视觉基础）和不同的设置（例如，零射击、少射击）。此外，在现实世界的对话基准测试中，我们的指令调整 Qwen-VL-Chat 也表现出了比现有视觉语言聊天机器人的优越性。所有模型都是公开的，以方便未来的研究。

Improved Baselines with Visual Instruction Tuning

发布时间：2023.10

发表单位：美国威斯康星大学，微软研究院和哥伦比亚大学研究人员

影响力：用MLP进行对齐，更加简洁，效果出色

摘要：大型多模态模型（LMM）最近在视觉指令调整方面取得了令人鼓舞的进展。在这篇文章中，我们展示了 LLaVA 中完全连接的视觉语言跨模式连接器超级强劲且数据高效。通过对 LLaVA 进行简单修改，即使用带有 MLP 投影的 CLIP-ViT-L-336px 并添加具有简单响应格式提示的面向学术任务的 VQA 数据，我们建立了更强劲的基线，在 11 个领域实现了最先进的水平基准。我们的最终 13B 检查点仅使用 120 万个公开可用数据，并在单个 8-A100 节点上约 1 天完成完整训练。我们希望这能让最先进的 LMM 研究变得更容易实现。代码和模型将公开。

回复“LLM论文”获取论文压缩包