多模态推理模型

梳理大型多模态推理模型(LMRMs)的技术演进路线:从早期感知驱动的模块化设计,到大模型时代的思维链(CoT)推理,再到基于强化学习的长程规划系统。

December 19, 2025 · 23 分钟 · 11244 字

vLLM推理性能压测

vLLM 推理性能压测笔记,记录 PagedAttention 内存分配、KV Cache 优化、参数调优和吞吐量测试结果。

July 17, 2025 · 24 分钟 · 11850 字

vLLM

vLLM 推理框架笔记,记录 PagedAttention 内存管理、量化技术、分布式部署和 OpenAI 兼容 API 的使用方式。

May 21, 2025 · 4 分钟 · 1577 字

推理框架

我自己的推理框架实战笔记:ONNX、TensorRT、TorchScript,聊原理也给出部署踩坑与优化经验。

May 20, 2025 · 78 分钟 · 38895 字

Ollama部署

记录 Ollama 本地部署流程,包括安装配置、模型下载、GGUF 格式导入、自定义 Modelfile 创建和运行管理。

May 9, 2025 · 3 分钟 · 1240 字

OpenWeb UI指南(基于Docker安装)

OpenWeb UI Docker 部署指南,记录 Windows WSL2 环境配置、网络代理设置和镜像源优化。解决常见安装问题,快速搭建本地 AI 聊天界面。

April 29, 2025 · 2 分钟 · 869 字