多模态推理模型
梳理大型多模态推理模型(LMRMs)的技术演进路线:从早期感知驱动的模块化设计,到大模型时代的思维链(CoT)推理,再到基于强化学习的长程规划系统。
梳理大型多模态推理模型(LMRMs)的技术演进路线:从早期感知驱动的模块化设计,到大模型时代的思维链(CoT)推理,再到基于强化学习的长程规划系统。
vLLM 推理性能压测笔记,记录 PagedAttention 内存分配、KV Cache 优化、参数调优和吞吐量测试结果。
vLLM 推理框架笔记,记录 PagedAttention 内存管理、量化技术、分布式部署和 OpenAI 兼容 API 的使用方式。
我自己的推理框架实战笔记:ONNX、TensorRT、TorchScript,聊原理也给出部署踩坑与优化经验。
记录 Ollama 本地部署流程,包括安装配置、模型下载、GGUF 格式导入、自定义 Modelfile 创建和运行管理。
OpenWeb UI Docker 部署指南,记录 Windows WSL2 环境配置、网络代理设置和镜像源优化。解决常见安装问题,快速搭建本地 AI 聊天界面。