推理框架

Posted on 2025-05-20 Edited on 2025-06-19 In LLM

这篇笔记整理了推理框架相关知识点，主要包括ONNX、TensorRT、TorchScript等。作为一个推理框架的初学者，我将结合自己的学习实践，以通俗易懂的方式进行介绍，希望能够帮助到大家，也方便自己日后复习巩固！

1.ONNX的相关知识

ONNX是一种神经网络模型的框架，其最经典的作用是作为不同框架之间的中间件，成为模型表达的一个通用架构，来增加不同框架之间的交互性。

ONNX的优势：

ONNX的模型格式有极佳的细粒度。
ONNX是模型表达的一个通用架构，主流框架都可以兼容。
ONNX可以实现不同框架之间的互相转化。

2.TensorRT的相关知识

如何阅读一本书

Posted on 2025-05-13 Edited on 2025-06-09 In 阅读

这篇博客整理了《如何阅读一本书》的读书笔记，以及个人的心得体会。

如何阅读一本书 [美]莫提默 · J.艾德勒查尔斯·范多伦著郝明义朱衣译

第一篇阅读的层次

第一章阅读的活力与艺术

会发生这个现象的原因是：我们所提到的这些媒体，经过太精心的设计，使得思想形同没有需要了（虽然只是表象如此）。如何将知识分子的态度与观点包装起来，是当今最有才智的人在做的最活跃的事业之一。电视观众、收音机听众、杂志读者所面对的是一种复杂的组成一一从独创的华丽辞藻到经过审慎挑选的资料与统计一一目的都在让人不需要面对困难或努力，很容易就整理出“自己”的思绪。但是这些精美包装的资讯效率实在太高了，让观众、听众或读者根本用不着自己做结论。相反的，他们直接将包装过后的观点装进自己的脑海中，就像录影机愿意接受录影带一样自然。他只要按一个“倒带”的钮，就能找到他所需要的适当言论。他根本不用思考就能表现得宜。

确实，我在进行伪思考，从沉迷哔哩哔哩各种科普视频，到各种科普解说，完全没有自己的思考过程，本质上是被动接受包装好的观点。现在看一些英文博客，也只是换了个更精致的包装，并不能达到和作者一样的思维高度来看问题。过去的几批公众号，从宏大叙事、人性研究、社会科学到现在的认知，看着兴趣转变思考深刻，也只是用别人的思考过程替代了自己的，习惯性地同意正在阅读的观点，很少产生真正的困惑和疑问。

模型微调

Posted on 2025-05-13 Edited on 2025-06-05 In 工具

这篇笔记整理了模型微调相关知识点，主要记录了微调、全量参数微调与参数高效微调的区别等。作为一个模型微调的初学者，我将结合自己的学习实践，以通俗易懂的方式进行介绍，希望能够帮助到大家，也方便自己日后复习巩固！

使用大型语言模型进行网络钓鱼：植入后门 | kruyt.org — Phishing with Large Language Models: Backdoor Injections | kruyt.org

sshh12/llm_backdoor: Experimental tools to backdoor large language models by re-writing their system prompts at a raw parameter level. This allows you to potentially execute offline remote code execution without running any actual code on the victim’s machine or thwart LLM-based fraud/moderation systems.

How to Backdoor Large Language Models - by Shrivu Shankar

LangChain

Posted on 2025-05-11 Edited on 2025-06-30 In 工具

这篇笔记主要记录了LangChain的配置过程，包括安装、环境配置和基本使用方法

LangChain 介绍

适用LangChain 0.3

LangChain 是一个用于开发由语言模型驱动的应用程序的框架。它使得应用程序能够：

具有上下文感知能力：将语言模型连接到上下文来源（提示指令，少量的示例，需要回应的内容等）
具有推理能力：依赖语言模型进行推理（根据提供的上下文如何回答，采取什么行动等）

这个框架由几个部分组成。

Ollama部署

Posted on 2025-05-09 Edited on 2025-06-18 In 工具

这篇笔记主要记录了Ollama的配置过程，包括安装、环境配置和基本使用方法

下载ollama

curl -fsSL https://ollama.com/install.sh | sh

下载并导入模型文件

1.ollama pull

使用 ollama pull 下载模型文件

WSL2安装cuda

Posted on 2025-05-09 Edited on 2025-06-06 In 工具

这篇笔记整理了WSL2安装cuda的方法，主要记录了在Windows 11 的 WSL2 子系统上安装 CUDA 的步骤，希望能够帮助初学者少走弯路。

千万不要在WSL2中安装nvidia相关驱动！

1.安装windows驱动

在windows上安装NVIDIA GeForce Game Ready 或 NVIDIA RTX Quadro Windows 11 显示驱动程序，可以使用nvidia app进行安装。

2.安装 WSL 2

启动您首选的 Windows 终端/命令提示符/Powershell 并安装 WSL：
wsl.exe –install
确保您拥有最新的 WSL 内核：
wsl.exe –update

大厂手撕算法

Posted on 2025-05-08 Edited on 2025-06-06 In LLM

这篇笔记整理了大厂手撕算法，主要记录了快速排序、编辑距离、岛屿数量等经典算法题。

1.实现快速排序代码

快速排序（Quick Sort）是一种高效的排序算法，由C. A. R. Hoare在1960年提出。它是一种分治法（Divide and Conquer）策略的典型应用。

快速排序的原理：

选择基准值（Pivot）：
快速排序首先从数组中选择一个元素作为基准值，这个值称为“pivot”。选择的方法可以多样，如选择第一个元素、最后一个元素、中间元素或随机元素。
分区操作：
数组被分为两个部分，使得：
- 左边部分的所有元素都不大于基准值，
- 右边部分的所有元素都不小于基准值。
此时，基准值处于整个数组中的最终位置。
递归排序：
递归地对基准左侧和右侧的两个子数组进行快速排序，直到子数组的长度为1或0，此时数组已经完全排序。

快速排序主要有两种实现方式，分别是递归方式和迭代方式。

面试笔试算法题

Posted on 2025-05-08 Edited on 2025-06-05 In LLM

这是一份算法学习笔记，记录了二叉树、数组、回溯、动态规划等常见算法题目的解析和代码实现，还在不断学习中，希望能和大家一起进步。

二叉树经典问题

1. 什么是满二叉树、完全二叉树、完美二叉树、二叉搜索树和平衡二叉树？

很好，这是学习树结构中最常见的五类二叉树概念。下面我会逐一解释它们的定义、特征，并附上例子。

🌳 1. 满二叉树（Full Binary Tree）

AIGC算法高频面试题目

Posted on 2025-05-08 Edited on 2025-07-02 In LLM

这篇笔记整理了一些AIGC算法面试中经常出现的问题。作为一个AIGC算法的初学者，我将结合自己的理解，以通俗易懂的方式对这些问题进行了注释，希望能够帮助到大家，也方便自己日后复习巩固！

1.携程推荐算法面试题8道

问题1：讲一讲推荐系统包含哪些流程？

推荐系统的流程通常包括以下几个步骤：

数据收集：收集用户行为数据（如浏览记录、购买记录、点击记录等）和物品数据（如物品特征、分类、标签等）。
数据预处理：对数据进行清洗、归一化、特征提取等预处理操作。
特征工程：构建用户画像和物品画像，提取有助于推荐的特征。
模型选择：选择合适的推荐算法，如基于内容的推荐、协同过滤、矩阵分解、深度学习等。
模型训练：使用历史数据训练推荐模型。
推荐生成：根据训练好的模型生成推荐列表。
评估与调优：使用评价指标（如准确率、召回率、F1-score等）评估推荐效果，并进行模型调优。
上线与更新：将推荐系统上线，并定期更新模型和数据。

使用 7B 模型部署推荐系统，通常不是直接用 LLM 替代整个推荐流程，而是将其作为增强或补充现有推荐系统的一个组件。以下是包含的流程和注意事项：

模型推理与应用

Posted on 2025-05-07 Edited on 2025-06-05 In LLM

这篇笔记整理了模型推理与应用相关知识点，主要记录了RAG、提示工程、推理优化等。作为一个模型推理与应用的初学者，我将结合自己的学习实践，以通俗易懂的方式进行介绍，希望能够帮助到大家，也方便自己日后复习巩固！

1.RAG应用

1.RAG文档召回率是什么？

RAG（Retrieval-Augmented Generation）中的文档召回率（Document Recall）是指在检索阶段，模型能够成功找到与用户查询相关的所有文档的比例。具体来说，它衡量的是在所有相关文档中，有多少被成功检索到了。

文档召回率是评估检索系统性能的重要指标。它可以用以下公式计算：文档召回率=成功检索到的相关文档数量/所有相关文档数量

在RAG中，文档召回率的高低直接影响生成模型的表现。如果召回率低，生成模型可能会缺乏足够的背景信息，从而影响答案的准确性和相关性。

1.ONNX的相关知识

2.TensorRT的相关知识

如何阅读一本书 [美]莫提默 · J.艾德勒 查尔斯·范多伦 著 郝明义 朱衣 译

第一篇 阅读的层次

第一章 阅读的活力与艺术

LangChain 介绍

下载ollama

下载并导入模型文件

1.ollama pull

1.安装windows驱动

2.安装 WSL 2

1.实现快速排序代码

快速排序的原理：

二叉树经典问题

1. 什么是满二叉树、完全二叉树、完美二叉树、二叉搜索树和平衡二叉树？

🌳 1. 满二叉树（Full Binary Tree）

1.携程推荐算法面试题8道

问题1：讲一讲推荐系统包含哪些流程？

1.RAG应用

1.RAG文档召回率是什么？

如何阅读一本书 [美]莫提默 · J.艾德勒查尔斯·范多伦著郝明义朱衣译

第一篇阅读的层次

第一章阅读的活力与艺术