TONGYI Deep Research

1. WebWalker: 网页点击流逆向工程 (Reverse Engineering from Clickstreams)

核心思想: 这种方法的思路是“从真实用户行为中学习”。它像一个考古学家，通过分析已有的用户网页浏览记录（点击流），来反向推断出用户的任务是什么。
工作方式:
1. 收集大量匿名的用户点击流数据（例如，用户访问了一系列页面 A -> B -> C -> D）。
2. 算法会自动将这个序列的起点 (A) 和终点 (D) 识别出来。
3. 然后，它将这个任务定义为：“请从页面 A 导航到页面 D”。
4. 原始的用户点击路径 (A -> B -> C -> D) 则被当作这个任务的“参考答案”或“黄金路径”。
优点:
- 高度真实性与意图性: 因为任务直接来源于真实用户的行为，所以这些任务的目标和路径都是有意义的、符合人类直觉的，并且保证是可完成的。
- 自动化生成: 一旦有了点击流数据，任务的生成过程是全自动的，不需要人工标注。
缺点:
- 受限于历史数据: 只能生成过去用户执行过的任务，无法创造新的、探索性的任务，也无法覆盖网站上那些用户很少访问的区域。
- 路径可能不是最优的: 用户实际的点击路径可能很曲折，甚至包含错误操作。将这样的路径作为“黄金标准”可能会误导 AI Agent 的学习。
- 多样性和规模有限: 任务的多样性和数量完全依赖于原始点击流数据的规模和丰富度，难以大规模生成海量、多样化的任务。
- 隐私问题: 处理用户点击流数据需要非常小心，涉及用户隐私。

2. WebSailor / WebSailor-V2: 基于图谱的合成方法 (Graph-based Synthesis)

核心思想: 既然依赖真实数据有诸多限制，不如我们自己来创造任务。这种方法像一个游戏关卡设计师，先把整个网站的地图画出来，然后再在地图上设计各种关卡。
工作方式:
1. 构建网站图谱 (Graph): 首先，通过爬虫技术遍历整个网站，将每一个页面看作图上的一个节点 (Node)，将页面之间的链接看作边 (Edge)。
2. 合成任务: 算法在图上随机（或根据特定规则）选择一个起始节点 S 和一个目标节点 E。
3. 定义任务: 任务就是“请从页面 S 导航到页面 E”。算法会确保 S 和 E 之间至少存在一条路径。
4. V2 的改进: V2 版本通常会增加任务的复杂度，比如不仅仅是页面跳转，可能还要求在路径中必须与特定的网页元素（如某个按钮、某个表单）进行交互。
优点:
- 极高的可扩展性与多样性: 可以在网站图谱上自动生成几乎无限多的任务组合，可以轻松控制任务的难度（例如，通过控制 S 和 E 之间的最短路径长度）。
- 全覆盖性: 可以为网站的任何一个角落生成任务，哪怕是真实用户从未访问过的页面。
- 无隐私风险: 整个过程只依赖公开的网站结构，不涉及任何用户数据。
缺点:
- 缺乏真实意图 (Lack of Intentionality): 这是最大的问题。随机生成的任务通常是无意义的。例如，一个任务可能是“从‘隐私政策’页面导航到‘关于我们’页面的某个开发者的介绍链接”，这种操作在现实世界中几乎不可能有用户会去做。
- 任务过于简单化: 早期版本主要关注页面间的跳转，忽略了现代网页中大量的页内交互（如填写表单、拖动滑块、与动态加载的内容互动等），使得任务与真实场景脱节。

3. WebShaper: 形式化的任务建模 (Formalized Task Modeling)

核心思想: 前两种方法要么“太真实而受限”，要么“太自由而失真”。WebShaper 则试图找到一个平衡点，它认为一个有意义的任务本质上是具有结构和逻辑的。这种方法像一个语言学家，它不只是创造单个句子（任务），而是定义一套语法（任务的结构化范式）。
工作方式:
1. 定义任务范式 (Task Schema/Grammar): 研究人员首先定义一套形式化的、具有层次结构的任务模板。例如，一个“在线购物”的任务可以被形式化地定义为：
  SEARCH(商品) -> APPLY_FILTER(品牌) -> SELECT_ITEM(商品名) -> ADD_TO_CART()
2. 实例化任务: 基于这套“语法”，程序可以将具体的参数（如“手机”、“苹果”、“iPhone 15”）填充进去，从而生成一个结构化、有意义且语义连贯的任务。
3. 生成任务描述: 同时，可以根据这个结构化的任务，自动生成自然语言的任务描述：“请搜索‘手机’，然后筛选出‘苹果’品牌，选择‘iPhone 15’并将其加入购物车”。
优点:
- 结构化与组合性: 任务不再是简单的起点和终点，而是由一系列有逻辑关系的子步骤组成，这更接近人类执行复杂任务的思维方式。
- 兼具真实性与扩展性: 通过精心设计的任务范式，可以生成大量既有真实意图又多样化的任务，结合了 WebWalker 和 WebSailor 的优点。
- 更好的评测粒度: 可以更精细地评测 AI Agent 的能力。不仅能看它最终是否完成任务，还能评估它是否理解并正确执行了每一个子步骤。
- 可控的复杂度: 可以通过组合不同的语法规则，来生成不同结构、不同难度的任务。
缺点:
- 设计成本高: 定义一套好的、覆盖面广的“任务范式”或“语法”，需要大量的人类专家知识和前期投入，这个过程本身很难完全自动化。
- 领域局限性: 为电商网站设计的任务范式，可能完全不适用于社交媒体或代码托管网站。需要为不同类型的网站定制不同的范式。

一、这段话的总体意思是什么？(高层总结)

简单来说，这段话描述了他们如何“精细地调教”一个AI模型，让它在生成文本（或其他序列化数据）时表现得更好、更稳定。

可以把它比作一位顶级教练在训练一位高水平运动员：

训练理念 (On-policy): 教练只根据运动员当前的表现和状态给予指导，而不是翻出几个月前的录像来纠正现在的动作。这保证了指导的即时性和相关性。
指导粒度 (Token-level loss): 教练不只是在比赛结束后说“你打得好”或“不好”，而是对运动员的每一个动作、每一个决策都进行打分和纠正。
评估标准 (Leave-one-out): 为了判断一个动作有多好，教练不是给一个模糊的分数，而是将这个动作与运动员所有其他可能的、好的动作进行比较，得出一个更精确、更稳定的评估。
排除干扰 (筛选负样本): 教练会有选择地忽略掉一些完全没有意义的失败案例（比如运动员出门就摔了一跤），因为这种案例对学习没有任何帮助，反而可能让运动员心态崩溃（格式崩溃）。
训练效率 (增大批次): 与其进行一对一的、耗时很长的精细辅导，教练选择一次性指导一个大团队，通过观察大量运动员的共性问题和优异表现，来高效地提供高质量的监督信号。

最终目标：通过这一整套组合拳，他们旨在打造一个**学习效率高、发挥稳定、能力强、不容易“发疯”**的AI模型。

二、关键术语代表什么？(Glossary)

GRPO (Generalized Reinforcement Learning with Policy Optimization): 一种具体的强化学习算法。你可以简单地把它看作是某个著名算法（如PPO）的变种或改进版，是他们选择的技术基础。
On-policy (同策略): 一种RL训练范式。模型学习时所用的数据，必须是由当前版本的模型自己产生（探索）的。与之相对的是 Off-policy，即可以用历史数据（由旧模型产生）来训练当前模型。On-policy能确保“学习”和“决策”是同步的，更稳定。
Token (令牌): 在自然语言处理中，通常指一个单词、一个字或一个子词（subword）。是文本处理的最小单元。
策略梯度损失函数 (Policy Gradient Loss Function): 强化学习的核心。一个数学函数，用来衡量模型当前策略的好坏。通过优化这个函数（使其值变小），可以奖励好的行为（比如生成了高质量的词），惩罚坏的行为，从而让模型的策略变得更好。
优势估计 (Advantage Estimation): 在RL中，我们不仅想知道一个动作的回报（Reward）是好是坏，更想知道它比平均水平好多少。这个“好出平均水平的程度”就是“优势(Advantage)”。高方差（variance）意味着这个估计值非常不稳定，时高时低，像噪音，会干扰模型的学习。
留一法 (Leave-one-out): 一种统计学方法，常用于交叉验证，这里被巧妙地借用过来。它的核心思想是，为了评估集合中某一个样本，我们用集合中所有其他样本来构建一个“背景”或“基准”。这能提供一个非常稳定的参照系，从而降低评估的方差。
负样本 (Negative Samples): 在训练中，指那些效果不好、我们不希望模型学会的例子。比如，模型生成了一段不通顺的、有事实错误的或者未完成的回答。
格式崩溃 (Format Collapse): 一种在生成式模型（特别是经过RLHF训练后）中可能出现的模型退化现象。表现为模型突然无法维持正常的输出格式，开始生成大量重复、无意义的符号、语句，或者完全偏离指令的、结构混乱的文本。
批次/组规模 (Batch Size / Group Size): 在一次训练迭代中，同时处理的样本数量。更大的批次通常能提供更稳定的梯度估计，让学习方向更准确，但也会消耗更多的计算资源。

三、每一步之后，模型变成了什么样子？(演进过程)

我们来追踪一下，经过每一步优化，AI模型的“心智”是如何变化的：

第1步: 遵循 On-policy 范式

之前的模型可能: 会使用一些历史数据进行学习，但这些数据是由旧的、能力较差的自己产生的。学习这些“过时”的经验可能会让模型感到困惑，导致学习不稳定。
采取措施: 严格规定，模型只能从自己“当下”的探索中学习。
之后的模型变成: 更加“活在当下”，学习信号更精准。它能确保自己所学的经验与自己当前的能力完全匹配，避免了策略和数据分布的错位，使得训练过程从一开始就更加稳定、收敛得更好。

第2步: 采用 Token 级别的策略梯度损失

之前的模型可能: 只能在生成一整段回答后，得到一个总分（比如“这段回答很好”或“很差”）。但它不知道是哪个词用得好，哪个词用得不好。
采取措施: 将奖励和惩罚细化到每一个生成的 Token 上。
之后的模型变成: 写作技巧更加精湛，语言模型能力更强。它不再是“知其然不知其所以然”，而是能明确地学习到“这个词用得好，下一个词应该怎么接”，“那个词是废话，以后要避免”。这极大地提高了模型的语言流畅度和细粒度控制能力。

第3步: 采用留一法降低优势估计方差

之前的模型可能: 学习信号的“噪声”很大。有时一个还不错的词，可能因为整个句子一般而被“错杀”；有时一个平庸的词，因为句子整体不错而被“过誉”。学习过程非常摇摆。
采取措施: 使用留一法为每个动作的“优势”提供一个极其稳定的参照基准。
之后的模型变成: 学习过程更加“稳健”，对好坏的判断力更强。它得到的反馈信号更清晰、更可靠。模型能够更自信地学习那些真正优秀的决策，而不会被随机的波动所干扰，从而更快地收敛到更优的策略。

第4.1步: 筛选负样本

之前的模型可能: 被一些极端的、无意义的负面反馈搞糊涂了。比如，因为它生成的内容太长而超时，就被判定为一次“极差”的生成。模型从中只能学到“不要写太长”，但学不到“如何写得好”。过多的这种无效反馈会让模型变得保守，甚至“自暴自弃”，最终导致“格式崩溃”。
采取措施: 主动忽略掉那些没有信息量的负样本（如因过长而未完成的样本）。
之后的模型变成: 心理素质更好，训练容错性更高。它不再被无效的负面信息所淹没，而是专注于从“有意义的错误”中学习。这保护了模型的“创作积极性”，让它在长时间的训练中能保持输出结构和格式的稳定，避免了退化。

第4.2步: 增大批次和组规模

之前的模型可能: 为了追求低方差和充足的信号，可能需要设计复杂的动态采样策略，这会拖慢整个训练流程。
采取措施: 采用一个更简单粗暴但有效的方法——增大批次，一次性看更多的样本。
之后的模型变成: 在保持较高训练质量的同时，训练速度更快。通过一次性处理大量不同的样本，模型自然地在“多样性”中获得了稳定的学习信号（因为个别样本的噪音在大样本的平均下被中和了），这是一种在工程效率和算法效果之间取得的巧妙平衡。

1. WebWalker: 网页点击流逆向工程 (Reverse Engineering from Clickstreams)#

2. WebSailor / WebSailor-V2: 基于图谱的合成方法 (Graph-based Synthesis)#

3. WebShaper: 形式化的任务建模 (Formalized Task Modeling)#

一、 这段话的总体意思是什么？(高层总结)#

二、 关键术语代表什么？(Glossary)#

三、 每一步之后，模型变成了什么样子？(演进过程)#

第1步: 遵循 On-policy 范式#

第2步: 采用 Token 级别的策略梯度损失#

第3步: 采用留一法降低优势估计方差#

第4.1步: 筛选负样本#

第4.2步: 增大批次和组规模#

1. WebWalker: 网页点击流逆向工程 (Reverse Engineering from Clickstreams)

2. WebSailor / WebSailor-V2: 基于图谱的合成方法 (Graph-based Synthesis)

3. WebShaper: 形式化的任务建模 (Formalized Task Modeling)

一、这段话的总体意思是什么？(高层总结)

二、关键术语代表什么？(Glossary)

三、每一步之后，模型变成了什么样子？(演进过程)

第1步: 遵循 On-policy 范式

第2步: 采用 Token 级别的策略梯度损失

第3步: 采用留一法降低优势估计方差

第4.1步: 筛选负样本

第4.2步: 增大批次和组规模