推理部署 | 杨の草原

多模态推理模型

梳理大型多模态推理模型（LMRMs）的技术演进路线：从早期感知驱动的模块化设计，到大模型时代的思维链（CoT）推理，再到基于强化学习的长程规划系统。

vLLM 推理性能压测笔记，记录 PagedAttention 内存分配、KV Cache 优化、参数调优和吞吐量测试结果。

vLLM 推理框架笔记，记录 PagedAttention 内存管理、量化技术、分布式部署和 OpenAI 兼容 API 的使用方式。

我自己的推理框架实战笔记：ONNX、TensorRT、TorchScript，聊原理也给出部署踩坑与优化经验。

记录 Ollama 本地部署流程，包括安装配置、模型下载、GGUF 格式导入、自定义 Modelfile 创建和运行管理。

OpenWeb UI Docker 部署指南，记录 Windows WSL2 环境配置、网络代理设置和镜像源优化。解决常见安装问题，快速搭建本地 AI 聊天界面。