Posts

SHADOWSOCKS 补完

从 Shadowsocks 的自建分散化、SIP003 插件机制与 AI 编程能力切入，讨论抗审查协议工程门槛的下降，以及“能跑”与“能抗检测”之间仍然存在的距离。

Xray 旁路评估 AnyTLS、NaiveProxy 与 Mieru

在已有 3x-ui / Xray 入口的 VPS 上，评估 AnyTLS、NaiveProxy 与 Mieru 时，先别急着改面板，端口、证书和回滚边界更要紧。

5 5· 3 6 5 2 3

中午吃过饭路过一排美人梅，反正不应该是桃花，开得正盛，脚步不自觉慢下来。脑子里冒出一句《东邪西毒》台词：“每年桃花开的时候，我就会想起一个人。”风一吹，花瓣落几片。 ...

语言学的邀请 -[美]塞缪尔·早川

《语言学的邀请》读书笔记，记录语言、符号、社会指示、逻辑和自我概念相关的阅读札记。

基于人类反馈的强化学习（RLHF）4

别被大模型满天飞的“SOTA”跑分骗了！高分真代表好用吗？评估 RLHF 模型远不只是看通过率。本文梳理以“HHH”为核心的对齐评估体系，拆解训练过程中奖励分数与 KL 散度的权衡逻辑。从人工评估的实验设计到自动化基准的去噪技巧，再到红队测试的对抗性验证，给出一套从微调监控到安全部署的全链路评估指南。

基于人类反馈的强化学习（RLHF）3

RLHF 正在经历范式转移。本文从 PPO 到 DPO（直接偏好优化）的数学推导入手，说明 DPO 如何借助解析解绕过显式奖励模型；再讨论 RLAIF 如何利用“宪法 AI”扩大数据规模，并重点剖析 DeepSeek-R1 背后的核心技术：GRPO（组相对策略优化）与 RLVR-AI。前者通过移除 Critic 网络大幅降低显存需求，后者引入蒙特卡洛过程奖励模型（MC-PRM），将监督粒度从“结果”细化到“推理步骤”，缓解复杂逻辑任务中的过程对齐难题。

基于人类反馈的强化学习（RLHF）2

本文拆解基于人类反馈的强化学习（RLHF）的核心架构。详细剖析了 PPO 算法中策略模型（Actor）、奖励模型（RM）、价值模型（Critic）与参考模型（Ref）的协同机制，推导了包含 KL 散度惩罚与 GAE 优势估计的联合目标函数。探讨了 Temperature 采样与 Reward Whitening 等工程细节，提供了一套标准化的项目目录结构，并附带基于 trl 库的最小闭环 Python 代码示例，帮助从零构建并调试“生成-评分-更新”的强化学习流水线。

基于人类反馈的强化学习（RLHF）1

本文剖析基于人类反馈的强化学习（RLHF）的全流程技术细节。通过探讨监督微调（SFT）在处理“幻觉”与“对齐”问题上的局限性，解释如何利用成对比较数据和 Bradley-Terry 模型构建概率化奖励模型。文章核心聚焦于近端策略优化（PPO）算法在 LLM 中的实现，包括 Actor-Critic 架构、GAE 优势估算及防止模型崩溃的 KL 散度惩罚机制。最后，针对梯度爆炸、奖励作弊等常见训练不稳定性问题，提供了参数调优指南与故障排除方案。

KL 驱动下的 SFT 与 DPO

本文记录 Qwen3 + LoRA 微调实战：SFT 阶段用 KL 散度压住通用能力退化，DPO 阶段通过调节贝塔把控偏好强度。结合 Qwen3 + 全线性层LoRA，在低显存下兼顾通用性与领域性能。

Claude Code 进阶心得

通过限制上下文文档的长度，反向推动开发者简化内部工具与代码逻辑。讨论多实例并行工作流、上下文清理策略（Record & Clear）、MCP 的状态托管本质，以及如何利用 GitHub Actions 构建自动化 PR 修复流水线，将 Claude Code 从一个简单的问答机器人转化为真正嵌入开发环境的自主工程师。