多模态推理模型

多模态推理（Multimodal Reasoning）是实现通用人工智能（AGI）的关键一步。它要求模型能够整合视觉、文本、音频等多种信息，进行复杂的逻辑推断和决策。近年来，该领域经历了从感知驱动到语言中心，再到长程规划的范式转变。

多模态推理的演变

阶段 1：感知驱动的模块化推理 - 设计特定任务的推理系统

早期工作依赖模块化网络（如NMN），后演变为基于预训练视觉-语言模型（VLMs）的方法。这一阶段利用 Transformer 架构和 大规模图像-文本数据（如用于VQA、VCR等任务的数据集）来统一多模态的表示、感知和融合。根据模型架构和方法，主要分为以下三类：

1. 双编码器对比推理 (Dual-Encoder Contrastive Reasoning)

模型结构：采用双流架构，使用独立的编码器分别处理视觉和文本特征。
方法：通过对比学习和跨模态注意力机制（或交互层）动态对齐特征，进行关系嵌入推理。
代表模型：ViLBERT, LXMERT, CLIP, ALBEF, BLIP, SimVLM 等。

2. 单 Transformer 骨干交互推理 (Single-Transformer-Backbone Interactive Reasoning)

模型结构：将视觉和文本输入嵌入到一个单一的 Transformer 骨干网络中。
方法：通过统一的编码方法（如联合上下文编码或掩码数据建模）实现直接的跨模态交互和推理。
代表模型：VisualBERT, UNITER, Oscar, PaLI, Flamingo, BLIP-2, Kosmos-1 等。

3. 基于多模态 LLMs 的隐式推理 (Multimodal LLMs-based Implicit Reasoning)

模型结构：采用“视觉编码器 + 大语言模型 (LLM)”的架构。
方法：将视觉特征投射到 LLM 的文本空间，利用 LLM 强大的上下文推理能力，常结合指令微调（Instruction Tuning）来处理任务。
代表模型：LLaVA, MiniGPT-4, InstructBLIP, Qwen-VL, mPLUG-Owl 等。

表 1：感知驱动的多模态模块化推理经典工作

模型	年份	架构	亮点	训练方法
神经模块推理网络
NMN	2016	模块化	动态组装特定任务模块进行视觉-文本推理	监督学习
MCB	2016	双线性	利用高效双线性模块优化跨模态特征交互	监督学习
UpDn	2018	基于注意力	结合自底向上和自顶向下的注意力进行对象级推理	监督学习
MCAN	2019	基于注意力	采用模块化协同注意力进行深度推理	监督学习
基于VLMs的模块化推理
ViLBERT	2019	双编码器	通过双流Transformer与跨模态注意力对齐视觉-文本特征	预训练 + 微调
CLIP	2021	双编码器	利用对比预训练实现基于对齐嵌入的零样本推理	对比预训练
VisualBERT	2019	单流Transformer	在单个Transformer中融合视觉-文本输入	预训练 + 微调
LLaVA	2023	视觉编码器-LLM	调整ViT-LLM集成以进行对话式多模态推理	指令微调
InstructBLIP	2023	视觉编码器-LLM	使用指令微调将ViT与LLM对齐	指令微调

阶段 2：以语言为中心的短推理（系统-1 思维）

随着多模态大语言模型（MLLM，如 LLaVA）的出现，推理范式从模块化转向了端到端的、以语言为中心的框架。这一阶段的核心突破是多模态思维链 (MCoT)，它将模型内部不可见的推理过程，转化为可观察、可引导的显式中间步骤。然而，这一阶段的推理通常是短程、反应式的，类似于人类快速、直觉的“系统-1”思维，适用于简单任务，但在复杂规划上能力有限。

该阶段主要通过三种途径实现 MCoT：

基于提示的 MCoT (Prompt-based MCoT)
- 核心思想：不改变模型权重，通过精心设计的提示词 (Prompt) 来激发和引导 MLLM 内在的推理潜能。这是一种零样本或少样本的方法。
- 方法与架构示例：
  - 逻辑框架引导：如 IPVR 提出的“看-想-确认”框架，通过提示词强制模型先描述视觉内容，再进行推理，最后验证，有效减少幻觉。
  - 推理顺序引导：如 VIC 的“先思考，后观察”方法，模型先根据文本问题生成初步推理框架，再结合图像信息填充细节，避免被无关视觉信息干扰。
  - 视频时空引导：如 VoT 利用提示词构建时空场景图，引导模型从低级感知（物体识别）逐步推理到高级理解（事件解释）。
结构化推理 (Structural Reasoning)
- 核心思想：通过监督微调 (Supervised Fine-tuning)，让模型学习特定的、标准化的推理模板或流程。这使得推理过程更稳定、可控且可解释。
- 方法与架构示例：
  - 任务解耦：如 Multimodal-CoT 采用的两阶段架构，将“理由生成”和“答案预测”分开训练，确保推理过程的质量。
  - 流程模拟：如 TextCoT 模拟人类“由粗到细”的观察过程（概览→定位→精察），使推理更符合认知逻辑。
  - 视觉辅助推理：如 Visual Sketchpad 允许模型在推理中生成“视觉草图”作为辅助，尤其适用于几何或空间问题。
外部增强推理 (Externally Augmented Reasoning)
- 核心思想：承认单一模型的局限性，通过调用外部能力来辅助或分担推理任务，相当于为模型配备了“外脑”或“工具箱”。
- 方法与架构示例：
  - 搜索算法增强：如 MM-ToT（多模-思想树）结合广度/深度优先搜索来探索不同的推理路径；BDoG 则通过多智能体辩论来深化思考。
  - 外部工具调用：如 L3GO 利用 LLM 生成指令，调用 Blender 等专业软件完成 3D 建模；VisProg 则将推理任务转化为可执行的程序代码。
  - 检索增强生成 (RAG)：模型在推理过程中可以主动检索外部知识库（如网页、知识图谱）来获取所需信息，弥补自身知识的不足。

阶段 3：以语言为中心的长推理（系统-2 思维）

为了应对现实世界中的复杂、多步任务，研究重心转向了模拟人类深思熟虑、结构化的“系统-2”思维。这一阶段的目标是构建更长、更可靠、更具规划性的推理链。其发展体现在以下三个维度：

推理模态的扩展：从纯文本到跨模态
- 核心思想：推理链本身不再局限于文本。视觉、听觉等非文本信息也可以成为推理过程中的一环，从而实现更深层次的语义接地 (Grounding)。
- 方法与架构示例：
  - 外部算法增强：
    - FAST：模拟人类的快慢思考，通过算法动态切换模型的推理模式。
    - ICoT：通过注意力算法实现“边看边想”，在文本推理链中交错插入视觉感知步骤。
    - Image-of-Thought：直接生成“视觉理由”，即用图像片段作为推理的证据。
  - 模型内在能力挖掘：
    - 通过在高质量的 CoT 数据集（如 VoCoT-Instruct80K）上微调，直接教会模型在推理中整合多模态信息。
    - MVoT 等模型采用自包含架构，在内部迭代地优化视文表示，以支持复杂的具身和空间推理。
推理范式的深化：从短链到长链规划
- 核心思想：受 OpenAI o1 系列 成功的启发，研究者开始构建能够自主分解复杂问题、进行多步规划和自我修正的长推理链。
- 方法与架构示例：
  - 多阶段推理框架：模型输出不再是简单的“答案”，而是包含“摘要（理由）”、“字幕（视觉描述）”、“思考过程”和“最终答案”的完整结构。
  - 高级搜索策略：广泛采用蒙特卡洛树搜索 (MCTS) 等规划算法，让模型能系统性地探索和评估复杂的解题路径，尤其在数学、代码等领域表现出色。
学习方法的革命：引入强化学习 (RL)
- 核心思想：借鉴 DeepSeek-R1 在文本推理上的成功，将强化学习引入多模态领域，通过奖励模型 (Reward Model) 对推理过程的质量进行打分和优化，而不仅仅依赖于最终答案的对错。
- 方法与架构示例：
  - DPO (直接偏好优化) 和 GRPO (组别相对策略优化) 等 RL 算法被用于优化 MLLM 的推理路径。模型通过学习人类偏好数据或基于规则的奖励，生成更合理、更连贯的思维链。
  - R1-V、MM-EUREKA 等模型将 RL 应用于数学几何等任务，展现出“反思”和修正错误的能力。
  - VLM-R1、Seg-Zero 等模型则利用 RL 增强了模型的视觉定位、检测和分割等基础感知能力，为上层推理提供了更可靠的输入。

维度	推理模态（§3.3.1）	推理范式（§3.3.2）	学习方法（§3.3.3）
核心问题	我们用什么数据进行推理？	推理过程具有何种结构？	我们如何训练模型习得推理能力？
关键创新	联合基底：将视觉/听觉/代码直接嵌入推理链	长程思考：结构化分解、搜索算法（MCTS）、显式规划	强化学习：基于反馈（RL/GRPO）优化并自我修正推理策略
主要目标	更优的具身性（Grounding）：确保推理忠实反映视觉/听觉现实	更深的智能性（Intelligence）：通过延展、结构化思考解决复杂任务	更强的泛化性（Generalization）：通过试错实现自适应迁移与演化
代表模型	VisProg, Visual-CoT, ICoT	OpenAI o1, LLaVA-CoT, Marco-o1	DeepSeek-R1, MM-EUREKA, LLaVA-Reasoner

📌 注：
“O1” 通常指代具备长程推理（long thinking）能力的模型系列（如 OpenAI o1）；
“R1” 则特指通过强化学习驱动（RL-driven）实现推理能力进化的下一代模型范式。

从“反应式模仿”到“审慎式探索”

多模态推理的发展可以清晰地划分为两个核心阶段：模仿式的“短程”推理和探索式的“长程”推理。理解它们之间的区别，关键在于区分模型的推理过程是反应性的 (Reactive) 还是深思熟虑的 (Deliberate)。

1. 为何阶段 2 被定义为“短程”与“反应性”？

尽管阶段 2 的模型已经能够生成思维链（CoT），例如“因为A，所以B，结论是C”，但这种推理过程在本质上是线性的、模仿的，并且缺乏真正的深度思考和自我修正能力。

反应性 (Reactive) vs. 深思熟虑 (Deliberate)：
- 阶段 2 (系统-1 思维)：当模型接收到一个问题时，它会立即根据其在训练数据中学到的概率分布，生成一段看起来很合理的推理过程。这个过程更像是一个训练有素的学生在背诵标准解题步骤。它依赖于模式匹配，而不是真正的逻辑推演。如果中间某一步骤出现了偏差或遇到了未见过的场景，模型很难停下来进行自我纠正（Self-Correction），往往会沿着错误的路径继续下去，导致“一条道走到黑”。这种行为更接近于人类的直觉反应，而非深思熟虑的思考。
- 阶段 3 (系统-2 思维)：这一阶段的模型开始具备**“慢思考”的能力。其推理过程不再是单一的线性链条，而是一个包含搜索（Search）**、**回溯（Backtracking）和验证（Verification）**的动态过程。例如，模型在推理时可能会生成类似这样的内心独白：“我先尝试方法A……计算结果似乎与图像中的约束条件不符，这不合理。我应该回溯并尝试方法B……”。这种包含了试错、反思和策略调整的过程，才是真正的系统-2思维。
短程 (Short-horizon) vs. 长程 (Long-horizon)：
- 阶段 2：生成的思维链通常较短，结构简单，由几句话或一个段落组成，直接导向最终答案。
- 阶段 3：推理链可以非常长，达到数千个词元（Token）的规模。这些长的思维链不仅包含了解决问题的步骤，还充满了模型的**“内心独白”（Internal Monologue）**，用于任务规划、问题分解、假设验证和自我辩论。

2. 训练方法的根本区别：强化学习（RL）的关键作用

阶段 2 和阶段 3 的核心区别在于训练范式：阶段 2 主要依赖于“教”（监督微调），而阶段 3 则引入了“练”（通过强化学习进行探索）。

虽然阶段 2 的一些模型（如 LLaVA 的早期版本）也使用了强化学习（RLHF），但其主要目的是为了对齐人类偏好，例如让模型的回答更有礼貌、更符合对话习惯，而不是为了从根本上增强其逻辑推理和问题解决的能力。

维度	阶段 2 (监督微调 SFT 主导)	阶段 3 (强化学习 RL 增强推理)
核心训练方法	监督微调 (Supervised Fine-tuning, SFT)	强化学习 (Reinforcement Learning, 如 GRPO/PPO)
训练数据来源	依赖于高质量的、由人类或更强模型（如 GPT-4）编写的“标准答案”。模型通过学习这些固定的样本来模仿推理的语言风格和逻辑格式。	主要依赖于模型自我生成的探索数据 (Rollouts)。模型会自主尝试多种不同的解题路径，然后一个奖励模型 (Reward Model) 会根据最终结果的正确性或过程的合理性给予奖励或惩罚。
学习目标	模仿 (Mimicry)：目标是让模型学会“一个标准的高质量推理过程应该是什么样子的”。模型被训练去最大化地复现这些标准答案。	泛化与探索 (Generalization & Exploration)：目标是让模型学会“如何通过一系列思考和行动来找到正确答案”，即使这个思考路径是它在训练数据中从未见过的。
CoT 的特征	通常是线性的、单一路径的、确定性的。	常常是分支状的、非确定性的，包含了大量的反思、验证、自我纠正的特殊标记（如 `<think>`, `</think>`）。
RL 的作用	较少使用，或仅用于表层对齐（如 RLHF），不直接优化推理能力。	核心驱动力。利用结果奖励（答案对不对）或过程奖励（步骤合理吗）来激励模型生成更长、更深入、更可靠的思维链。

3. 实例对比：一个数学几何题的解决过程

为了更直观地理解这种差异，我们以一个具体的数学几何题为例。

题目：给定一张图片，其中显示一个直角三角形，两条直角边分别标注为 3 和 4，问题是“求斜边的长度”。

阶段 2 模型的训练与表现

训练数据示例 (如 ScienceQA 数据集)：
- 输入：图片 + “求斜边长度”。
- 标签 (用于 SFT)：“根据勾股定理，a² + b² = c²。在此图中，a=3, b=4。所以，c = sqrt(3² + 4²) = sqrt(9 + 16) = sqrt(25) = 5。答案是 5。”
训练逻辑：
- 模型被输入成千上万个这样的 <问题, 解释, 答案> 数据对。
- 通过损失函数最小化，模型学会了：当看到直角三角形和两个数字时，就生成一个套用勾股定理句式的文本。
局限性：如果题目稍微变化，例如给出斜边 5 和一条直角边 3，求另一条直角边，阶段 2 的模型很可能会因为路径依赖而继续惯性地执行“平方相加”的操作（产生幻觉），因为它只是在模仿一个常见的文本模式，而没有真正理解勾股定理的几何逻辑（应该是平方相减）。

阶段 3 模型的训练与表现

训练数据与 RL 过程 (模拟 DeepSeek-R1-Multimodal 的思路)：
- 冷启动数据：提供少量高质量的长思维链数据，教会模型使用 <think> 和 </think> 等特殊标签来包裹其内心思考过程。
- 强化学习训练 (GRPO)：模型面对题目，开始自主生成多种思维路径（Rollouts）：
  - 路径 A (错误探索)：“ 看到数字 3 和 4，直接相加 3+4=7。答案：7。” → 最终答案错误，奖励为 0 或负值。
  - 路径 B (正确探索)：“ 这是一个直角三角形。问题是求斜边。我应该使用勾股定理 a²+b²=c²。让我检查一下，3 和 4 是不是直角边。是的，它们夹着直角。所以 c = sqrt(3²+4²)… 答案：5。” → 最终答案正确，获得高额奖励。

训练出的长思维链 (Long CoT)：

模型最终输出：

<think>
这是一个几何问题。我正在观察一张图片，其中有一个三角形。
第一步，确认三角形类型。我看到右下角有一个方形符号，这表示它是一个直角三角形。
第二步，识别已知信息。两条边被标注为 3 和 4。我需要确定这两条边是直角边还是斜边。根据图像，它们是夹着直角的两条边，所以它们是直角边。
第三步，确定解题方法。既然是直角三角形，已知两条直角边，求斜边，我需要应用勾股定理。
第四步，执行计算。设斜边为 c。公式是 c² = a² + b²。代入数值：c² = 3² + 4² = 9 + 16 = 25。所以 c = sqrt(25) = 5。
第五步，验证结果。3-4-5 是一个常见的勾股数组合，这增加了我的信心。结果是合理的。
</think>
答案是 5。

关键差异：阶段 3 的模型通过强化学习，学会了**“在行动前先验证条件”（确认是直角边）和“在得出结论后进行复核”**（验证 3-4-5 组合）。这种审慎的、结构化的思考能力，不是通过简单地背诵 SFT 数据学来的，而是在数以万次的试错和奖励反馈中“顿悟”出来的（所谓的“Aha Moment”）。

结论

阶段 2 (SFT) 的核心是教会模型如何**“写出”**看起来正确的推理步骤（关注形式）。
阶段 3 (RL) 的核心是激励模型学会如何**“思考”**才能得到正确答案（关注内核）。

这正是为什么综述中强调，阶段 3 通过引入类似 DeepSeek-R1 的强化学习范式，极大地提升了模型的规划能力 (Planning) 和鲁棒性 (Robustness)，使其能够应对更复杂、更开放的多模态挑战。

多模态-O1：通过高级搜索策略实现“头脑风暴”与“优化筛选”

多模态-O1 模型标志着从简单的线性推理向更复杂的思维空间搜索的转变。其核心思想是在推理过程中，不再仅仅生成一条路径，而是像人类一样进行“头脑风暴”，生成多种可能性，然后通过系统化的方法进行评估和筛选，最终选出最优的推理路径。

1. 核心逻辑：从“单线推理”到“空间搜索”

传统的思维链（CoT）是线性的：模型基于当前的上下文，贪婪地预测下一个最有可能的词元，直到生成完整的回答。这种方法的弊端在于，一旦中间某一步选择失误，整个推理链就会偏离方向，且无法回头。

引入搜索策略后，推理过程被重塑为一个决策树或图。在推理的每一步，模型都可以生成多个并行的“想法”或“分支”，然后评估这些分支的“潜力”，从而选择最有希望的一条继续深入。这极大地增强了模型解决复杂问题的能力。

2. 主要搜索策略及其应用

A. 束搜索 (Beam Search)：并行探索与即时筛选

这是一种优化的广度优先搜索策略，被广泛用于生成任务中以提高输出质量。

工作原理：在推理的每一步，模型不再只选择概率最高的一个词元（Greedy Search），而是同时保留 $k$ 个（$k$ 被称为束宽，Beam Width）当前得分最高的候选序列。在下一步生成时，模型会基于这 $k$ 个序列继续扩展，并再次筛选出得分最高的 $k$ 个新序列。
类比：就像一名棋手在每一步棋都会思考 3 种最有希望的下法，并对每一种下法都推演几步，而不是只盯着一种看起来最好的走法。
代表模型：LLaVA-CoT 和 LlamaV-o1 在其推理过程中应用了束搜索来增强其生成推理步骤的质量和鲁棒性。
优势：通过保留多个并行的“备选方案”，束搜索有效避免了模型因某一步的次优选择而陷入局部最优解，显著提升了最终答案的正确率。

B. 蒙特卡洛树搜索 (MCTS)：深度模拟与价值评估

这是一种更高级、更具前瞻性的搜索策略，因其在 AlphaGo 中的成功而闻名。在多模态推理中，它被用来探索深度和广度都极大的复杂逻辑链条。

工作原理：MCTS 通过四个核心步骤的循环来构建和评估一棵“思维树”：
1. 选择 (Selection)：从根节点出发，根据既有评估值（如 UCT 公式）选择最有潜力的分支向下探索。
2. 扩展 (Expansion)：当到达一个未完全探索的节点时，生成一个新的子节点（一个新的想法或推理步骤）。
3. 模拟 (Simulation)：从新节点开始，进行一次快速、随机的“快速推演”（Rollout），直到得出最终结果（例如，解出答案或判定失败）。
4. 反向传播 (Backpropagation)：将模拟的结果（成功或失败）反馈回溯到路径上的所有父节点，更新它们的价值评估。
代表模型：Marco-o1 和 llamaberry 是将 MCTS 应用于解决奥林匹克级别数学题和复杂推理任务的代表。
优势：MCTS 允许模型进行“超前推演”和“远见规划”。在决定当前步骤如何走之前，模型可以先模拟一下“如果这么走，后面成功的概率有多大”，从而做出更有战略性的决策，特别适用于需要长远规划的复杂任务。

3. 具体实施案例与流程

案例一：llamaberry (结合 MCTS 与奖励模型)

llamaberry 引入了 SR-MCTS (Self-Refine MCTS) 和 PPRM (Pairwise Preference Reward Model) 策略，这是一个高度精细化的 MCTS 实现。

场景：解决一道需要多步推导的复杂几何证明题。
MCTS 搜索过程（“头脑风暴”与“优化筛选”）：
1. 扩展 (Expansion - 头脑风暴)：模型基于题目图像和文本，生成了三个不同的起始思路作为树的子节点：
  - 思路 A：尝试使用相似三角形进行证明。
  - 思路 B：尝试构建一条辅助线来创造新的几何关系。
  - 思路 C：将图形置于坐标系中，尝试使用解析几何的方法计算。
2. 评估 (Evaluation - 筛选)：模型内部的一个“裁判”——PPRM 奖励模型——会对这三个思路进行成对比较。它通过学习大量人类偏好数据，能够判断哪个思路“看起来更有希望”。例如，它可能判断思路 B > 思路 A，思路 A > 思路 C。
3. 选择与细化 (Selection & Self-Refine)：根据 PPRM 的评估，模型优先选择思路 B 继续深入探索。如果在后续的推演中发现构建辅助线的路走不通，SR-MCTS 机制允许模型回溯，并重新选择次优的思路 A 进行探索。
4. 输出：经过多轮的模拟、评估和反向传播，MCTS 树最终会收敛，确定思路 A 是通向正确答案的最优路径。此时，模型才会输出基于思路 A 的完整、连贯的证明过程。

案例二：Marco-o1 (将推理步骤视为“动作”)

Marco-o1 将 MCTS 用于指导其推理动作策略 (Reasoning Action Strategy)。

场景：处理一个需要理解文化隐喻的复杂图像描述任务，例如一张图片上有“苹果”和“电脑”。
MCTS 规划机制：
- 模型不直接生成描述，而是将任务分解为一系列决策。
- 根节点：任务是“描述这张图片”。
- 分支探索 (头脑风暴)：模型生成几个可能的“第一步动作”：
  - 动作 1：识别物体，输出“这是一台电脑和一个苹果”。
  - 动作 2：联想物体的引申义，思考“苹果可能指代苹果公司”。
- 模拟与优选 (筛选)：模型对每个分支进行快速模拟。模拟发现，如果选择动作 2，后续可以生成更具创意和幽默感的描述，其在奖励模型中的得分更高。
- 结果：最终模型选择了分支 2，输出“科技巨头苹果公司的工作日常”，而不是生硬的“桌上有一台电脑和一个苹果”。

4. 总结：范式转变的核心价值

这种从 系统-1（快思考） 到 系统-2（慢思考） 的转变，其核心价值在于测试时计算扩展 (Inference-time Scaling)。

阶段 2 模型：其能力上限主要由训练数据的质量和规模 (Data) 决定。它们更像是在“回忆”和“模仿”见过的解法。
阶段 3 的 O1/R1 类模型：其能力上限可以通过增加推理时的计算资源 (Compute) 来提升。通过延长推理时间，让 MCTS 或 Beam Search 进行更深入、更广泛的搜索，模型就有可能解决之前无法解决的全新高难度问题。

这种方法使得模型在面对 MathVista 或 MMMU 等高难度多模态基准测试时，能够通过多次尝试和自我纠错的“慢思考”过程，表现出逼近甚至超越人类专家的推理水平。

数据集与基准

为了系统地衡量和推动多模态推理模型的发展，学术界和工业界构建了大量的数据集（Datasets）和基准测试（Benchmarks）。这些工具不仅为模型训练提供了养料，也成为评估其在理解、生成、推理和规划四大核心能力方面表现的标尺。

1.多模态理解能力 (Understanding)

多模态理解是所有高级能力的基础，它要求模型能够准确地处理和解释来自不同模态（主要是视觉和听觉）的信息。

(A) 以视觉为中心的理解

该领域专注于评估模型对图像和视频内容的深度理解，其发展趋势是从简单感知走向复杂认知。

通用视觉理解：从“看懂”到“理解”
- 早期阶段 (基础感知)：以 VQA、GQA 为代表，主要测试模型对图像中物体、属性、简单空间关系的识别能力（例如，“图中有几只猫？”）。训练数据为大规模图文对，如 MS-COCO、Flickr30k。
- 进阶阶段 (关系与对齐)：以 Visual Genome、ALIGN 为代表，推动模型理解物体之间的关系，并进行更深层次的图文对齐。LAION 系列的大规模数据集为此类模型的训练提供了可能。
- 高阶阶段 (复杂推理)：新基准如 MMSI-Bench (组合空间推理)、WikiMixQA (跨源信息综合) 和 VideoMathQA (视频中的数学推理) 则要求模型具备更强的逻辑和抽象能力。
文档、图表与OCR理解：结构化信息的挑战
- 这是一个专门领域，要求模型不仅要“看”，还要“读”。
- DocVQA：测试在文档中定位和理解文本的能力。
- DVQA / ChartQA：专注于解释图表（条形图、饼图等）中的数据。
- TextVQA / OCR-VQA：强调对嵌入在自然图像中文字的阅读和推理。
- WebUIBench：将挑战扩展到对网页、APP 等数字用户界面 (UI) 的结构化理解与交互。
多语言视觉理解：跨越文化与语言的鸿沟
- 为满足全球化需求，CMMLU、C-Eval、M3exam 等基准应运而生。它们包含多种语言的问题和注释，旨在测试模型在不同文化背景下的视觉理解和跨语言迁移能力。
- 新基准如 CasualVQA (日常因果推理) 和 VLM@school (结合课程知识) 进一步将评估与现实世界场景和专业知识相结合。
视频理解：捕捉时空动态信息
- 与静态图像不同，视频理解要求模型处理时间维度上的动态变化。
- 基础任务：ActivityNet-QA、Perception Test 等评估对视频中动作、事件的理解。
- 前沿挑战：Video-MMMU (科学讲座视频)、Video-MME (长视频) 和 VideoVista (综合性基准) 将难度推向了新的高度，要求模型具备更强的长时程记忆和综合推理能力。
- 训练基石：YouTube8M、VidGen-1M 等大规模数据集为视频理解模型的训练提供了坚实基础。
综合基准：全面能力的“高考”
- MMBench、Seed-Bench、OmniBench 等基准旨在提供一个统一、平台无关的评估框架。它们不再局限于单一任务，而是全面考察模型在感知、认知、推理、规划、生成等多项能力上的综合表现，更真实地反映其在现实世界中的泛用性。

(B) 以音频为中心的理解

该领域评估模型处理语音、环境音和音乐等多种音频输入的能力。

语音理解：评估对人类语言的听解能力。
- 语音识别 (ASR)：Librispeech (英语)、Aishell (中文) 测试转录的准确性。
- 多语言翻译：CoVoST2 评估跨语言的语音到文本翻译。
- 情感识别：MELD 测试从语音中识别情感的能力。
环境音理解：超越人类语音，理解世界的声音。
- 音频字幕：Clotho、AudioCaps 要求模型为一段环境音生成文字描述（如“鸟鸣和溪流声”）。
- 音频问答 (AQA)：ClothoAQA 要求模型回答关于音频内容的问题（如“是什么乐器在演奏？”）。
音乐理解：结构与情感的感知。
- 元素识别：MusicNet、NSynth 评估对乐器、音符、节奏的识别。
- 内容描述：MusicCaps、MusicBench 要求为整首乐曲生成描述，测试对音乐结构和情感的整体理解。
综合基准：随着大型音频-语言模型 (LALM) 的发展，VoiceBench、AudioBench 等综合基准被提出，它们整合了上述多种任务，提供更全面的音频能力评估。

2.多模态生成能力 (Generation)

生成能力是模型创造力的体现，评估模型将一种或多种信息转化为新内容的能力。

跨模态生成：信息的“翻译”
- 文本到图像 (T2I)：最成熟的方向。从 MSCOCO 等基础数据集到 RedCaps 等复杂描述数据集；从 GenEval 等评估对齐度的基准到 MagicBrush 等支持指令编辑的数据集，生态日益丰富。
- 文本到视频 (T2V)：VidGen-1M、OpenVid-1M 等为模型提供了训练数据。AIGCBench、VBench 等从多维度评估生成视频的质量。
- 文本到语音 (TTS)：ADU-Bench、URO-Bench 等基准不仅评估内容的准确性，还开始关注情感、语调等风格因素。
- 机器人：ThreeDWorld、GAIA-1 等高保真仿真环境为机器人动作生成和规划提供了测试平台。
联合多模态生成：多模态内容的“合奏”
- 文本到交错图文：MM-Interleaved、ANOLE 等数据集支持模型生成图文并茂的连贯内容。InterleavedEval 等基准评估其生成质量。
- 文本到多模态输出：NextGPT、DreamFactory 等前沿模型探索将单一文本输入转化为包含视频、音频、文字的完整多模态故事。

3.多模态推理能力 (Reasoning)

推理能力要求模型整合多源信息进行逻辑推断和问题解决，是衡量模型智能水平的核心。

通用视觉推理：常识与逻辑的应用
- 超越简单的问答，VCR (视觉常识推理)、PhysBench (物理常识) 等基准挑战模型应用日常知识的能力。
- MMBench、MMMU、AGIEval 等综合智能基准将视觉推理作为评估 AI 通用能力的关键组成部分。
- 训练数据如 SWAG、LLava-CoT 等为模型学习复杂的推理链提供了支持。
特定领域推理：专业知识的考验
- 数学与科学：MathVista、MATH-Vision、ScienceQA 等基准评估模型在视觉背景下解决专业问题的能力。
- 机器人与具身 AI：Habitat、AI2-THOR 等仿真环境要求智能体进行导航、交互和操作的推理。
- 物理推理：PhysBench、VideoPhy 评估模型对物理规律的理解。
- 高价值领域：WeThink-Dataset 等提供了带有显式推理路径的数据，用于训练更专业的推理模型。

4.多模态规划能力 (Planning)

规划能力评估智能体在复杂、多步任务中的决策和执行能力，是通向自主智能的关键。

GUI 导航：数字世界的交互
- WebArena、Mind2Web、VisualWebBench 等基准在真实或模拟的 Web 及桌面环境中，评估智能体完成信息检索、跨应用操作等复杂任务的能力。
具身与模拟环境：物理世界的交互
- MineDojo (Minecraft)、Habitat 3.0 (家庭环境)、HomeRobot (移动操作) 等提供了丰富的交互式环境，用于评估智能体在导航、资源管理、人机协作等方面的长期规划能力。

评估方法

评估方法	核心逻辑	计算方式/指标	适用任务
精确/模糊匹配	将模型输出与一组标准答案进行文本比对。	准确率 (Accuracy)，如 VQAv2 score；词错误率 (WER)。	答案固定或有限的 VQA、ASR 任务。
选项匹配	将开放式问题转化为选择题，评估模型的选择能力。	选择准确率。	需要公平、可复现评估的综合基准，如 MMBench。
LLM/MLLM 评分	利用强大的第三方 LLM 作为“裁判”对开放式回答进行打分。	基于预设维度的综合评分 (1-10分)。	开放式生成、对话、推理任务。
智能体评估	评估智能体在交互环境中的行为和最终结果。	任务成功率 (Success Rate)、完成效率、路径长度。	规划任务，如 GUI 导航、具身 AI。
多维基准评分	跨多个子任务和能力维度的综合评估。	加权平均分、雷达图展示能力分布。	综合性基准，如 MMBench、OmniBench。

多模态评估正在从评估单一、孤立的感知能力，转向评估整合了深度推理、长程规划和全模态理解的综合智能。数据集和基准正变得更加复杂、真实且多维。

多模态推理模型#

多模态推理的演变#

从“反应式模仿”到“审慎式探索”#

1. 为何阶段 2 被定义为“短程”与“反应性”？#

2. 训练方法的根本区别：强化学习（RL）的关键作用#

3. 实例对比：一个数学几何题的解决过程#

阶段 2 模型的训练与表现#

阶段 3 模型的训练与表现#

结论#

多模态-O1：通过高级搜索策略实现“头脑风暴”与“优化筛选”#

1. 核心逻辑：从“单线推理”到“空间搜索”#

2. 主要搜索策略及其应用#

A. 束搜索 (Beam Search)：并行探索与即时筛选#

B. 蒙特卡洛树搜索 (MCTS)：深度模拟与价值评估#

3. 具体实施案例与流程#

案例一：llamaberry (结合 MCTS 与奖励模型)#

案例二：Marco-o1 (将推理步骤视为“动作”)#

4. 总结：范式转变的核心价值#

数据集与基准#

1.多模态理解能力 (Understanding)#

(A) 以视觉为中心的理解#

(B) 以音频为中心的理解#

2.多模态生成能力 (Generation)#

3.多模态推理能力 (Reasoning)#

4.多模态规划能力 (Planning)#

评估方法#