Agent2

本文梳理智能体的演进脉络,从传统基于模型与效用的控制架构,到大语言模型(LLM)驱动的认知范式。重点讨论 Agent 从“显式规则”到“隐式推理”的核心转变。

December 19, 2025 · 10 分钟 · 4645 字 · Yangless

多模态推理模型

梳理大型多模态推理模型(LMRMs)的技术演进路线:从早期感知驱动的模块化设计,到大模型时代的思维链(CoT)推理,再到基于强化学习的长程规划系统。

December 19, 2025 · 23 分钟 · 11244 字 · Yangless

强化学习3

强化学习策略梯度代码的实现,以及优势函数的迭代思想。

October 23, 2025 · 20 分钟 · 9693 字 · Yangless

强化学习2

强化学习算法分类和使用示例。

October 23, 2025 · 21 分钟 · 10209 字 · Yangless

强化学习1

强化学习基础概念和主流学习框架。

October 22, 2025 · 23 分钟 · 11199 字 · Yangless

小米面试

小米面试的一些不足和学习。

October 20, 2025 · 41 分钟 · 20514 字 · Yangless

SPARC源码分析

SPARC 框架源码分析,记录量子启发意识编程范式、PolarisOne 自适应 Token 加权技术、意识编码智能体架构,以及它对软件开发工作流的影响。

September 25, 2025 · 16 分钟 · 7626 字 · Yangless

Claude Code with Unix

分析 Claude Code 架构设计与 Unix 哲学,通过 gemini-cli 源码理解 AI 编程工具实现原理,梳理 grep 搜索策略、命令行工具设计模式和 Unix 风格编程思想。

September 23, 2025 · 26 分钟 · 12527 字 · Yangless

CC router and MCP router

Claude Code Router 和 MCP Router 配置笔记,记录 CLI 工具安装、多模型路由、API 集成等常用配置。

September 15, 2025 · 2 分钟 · 512 字 · Yangless

TONGYI Deep Research

通义 DeepResearch 开源研究智能体笔记,记录 ReAct 模式、Heavy Mode、WebWalker 网页逆向工程和合成数据训练方案。

September 12, 2025 · 9 分钟 · 4033 字 · Yangless