Posts

Agent2

本文梳理智能体的演进脉络，从传统基于模型与效用的控制架构，到大语言模型（LLM）驱动的认知范式。重点讨论 Agent 从“显式规则”到“隐式推理”的核心转变。

梳理大型多模态推理模型（LMRMs）的技术演进路线：从早期感知驱动的模块化设计，到大模型时代的思维链（CoT）推理，再到基于强化学习的长程规划系统。

强化学习策略梯度代码的实现，以及优势函数的迭代思想。

强化学习算法分类和使用示例。

强化学习基础概念和主流学习框架。

小米面试的一些不足和学习。

SPARC 框架源码分析，记录量子启发意识编程范式、PolarisOne 自适应 Token 加权技术、意识编码智能体架构，以及它对软件开发工作流的影响。

分析 Claude Code 架构设计与 Unix 哲学，通过 gemini-cli 源码理解 AI 编程工具实现原理，梳理 grep 搜索策略、命令行工具设计模式和 Unix 风格编程思想。

Claude Code Router 和 MCP Router 配置笔记，记录 CLI 工具安装、多模型路由、API 集成等常用配置。

通义 DeepResearch 开源研究智能体笔记，记录 ReAct 模式、Heavy Mode、WebWalker 网页逆向工程和合成数据训练方案。