Agent2
本文梳理智能体的演进脉络,从传统基于模型与效用的控制架构,到大语言模型(LLM)驱动的认知范式。重点讨论 Agent 从“显式规则”到“隐式推理”的核心转变。
本文梳理智能体的演进脉络,从传统基于模型与效用的控制架构,到大语言模型(LLM)驱动的认知范式。重点讨论 Agent 从“显式规则”到“隐式推理”的核心转变。
梳理大型多模态推理模型(LMRMs)的技术演进路线:从早期感知驱动的模块化设计,到大模型时代的思维链(CoT)推理,再到基于强化学习的长程规划系统。
强化学习策略梯度代码的实现,以及优势函数的迭代思想。
强化学习算法分类和使用示例。
强化学习基础概念和主流学习框架。
小米面试的一些不足和学习。
SPARC 框架源码分析,记录量子启发意识编程范式、PolarisOne 自适应 Token 加权技术、意识编码智能体架构,以及它对软件开发工作流的影响。
分析 Claude Code 架构设计与 Unix 哲学,通过 gemini-cli 源码理解 AI 编程工具实现原理,梳理 grep 搜索策略、命令行工具设计模式和 Unix 风格编程思想。
Claude Code Router 和 MCP Router 配置笔记,记录 CLI 工具安装、多模型路由、API 集成等常用配置。
通义 DeepResearch 开源研究智能体笔记,记录 ReAct 模式、Heavy Mode、WebWalker 网页逆向工程和合成数据训练方案。