大模型的安全性

Posted on 2025-05-07 Edited on 2025-06-06 In LLM

这篇笔记整理了大模型的安全性相关知识，主要包括对抗攻击、token操作、梯度攻击等。

1.大模型的对抗攻击与防御

1.什么是大模型的对抗性攻击？

对抗攻击一般指在大模型的推理阶段，利用精心设计的噪声来扰乱输入数据，从而导致模型产生错误或不良输出。这些扰动通常对人类来说是难以察觉的。根据攻击者的访问权限，对抗攻击可以分为白盒攻击、灰盒攻击和黑盒攻击。白盒攻击是指攻击者可以完全访问模型的权重、架构和训练流程，通常使用基于梯度的工具来攻击大模型。灰盒攻击是指攻击者仅掌握模型的部分信息，如架构和某些内部参数，但无法直接访问模型的权重或完整的训练数据。攻击者通常利用其他视觉/语言编码器/生成模型，在输入数据/嵌入空间中添加微小的扰动，使得模型在推理阶段产生错误的输出。黑盒攻击是指攻击者完全无法访问模型的架构或参数。攻击者通常通过调用API和使用恶意的Prompt来攻击大模型。

2.什么是token 操作（对抗性攻击）？

Token操作是指人为通过对输入文本中的token进行替换、删除、插入或重新排序等操作，破坏文本的原始语义结构。这种操作是黑盒攻击，旨在让大模型难以篡改后文本的含义，从而输出错误的结果。

经典模型与架构

Posted on 2025-05-06 Edited on 2025-06-06 In LLM

本文整理了一些大模型领域的经典架构和技术细节，包括多模态模型连接方式、文本大模型特点以及DeepSeek相关技术，作为学习笔记记录在此，还有很多需要深入学习的地方。

1.多模态模型

1.多模态大模型中，视觉编码器和文本解码器常见的连接方式有哪几种？

1. 模态编码器 (Modality Encoder, ME) (详见论文2.1节，arXiv：MM-LLMs: Recent Advances in MultiModal Large Language Models)

模态编码器的选择取决于具体的输入模态。论文中列举了以下一些主流的编码器：

视觉模态 (Visual Modality)：

训练与微调技术

Posted on 2025-05-06 Edited on 2025-06-05 In LLM

本文记录了我学习大模型训练与微调技术的一些笔记，包括微调基本概念、指令微调方法和LoRA等高效微调技术。内容比较基础，如有错误还请指正。

1.基本概念

1.什么是微调？

微调是一种迁移学习的方法。基于预训练模型，在特定任务的数据上进行有监督的训练（SFT），以适应任务需求。微调可以将预训练模型在大规模通用数据上学习到的知识迁移到特定任务重。

微调的一般步骤包括：（1）选择预训练模型；（2）准备微调数据；（3）构建任务特定的模型头（task-specific head）；（4）加载预训练模型的参数；（5）设置超参数并执行微调；（6）评估，验证和二次微调。

Task-specific head：添加到预训练模型之上的额外结构，用于根据任务需求进行输出预测或分类。

OpenWeb UI指南（基于Docker安装）

Posted on 2025-04-29 Edited on 2025-06-06 In 工具

这篇笔记主要记录了Open Web UI的安装过程，分享自己摸索Open Web UI在Windows和WSL2上的配置经验，希望能帮助有同样网络问题的朋友少走弯路。

OpenWeb UI指南（基于Docker安装）

下载和安装Docker

使用wsl2 作为底层容器

安装docker

安装Open Web UI

训练数据集与性能评测

Posted on 2025-04-29 Edited on 2025-06-06 In LLM

本文整理了一些中文训练数据集资源，简单记录了数据处理方法，并介绍了几种常见的模型评测指标。

1.训练数据集

1.有哪些中文数据集？

千言数据集

数据库源：千言|全面的中文开源数据集合

数据领域：包含各行各业的数据库，是一个集成网站。

首次发布时间：2024
Seq-monkey 序列猴子开源数据集1.0

数据库源：序列猴子开源数据集

数据领域：中文通用文本，古诗今译，文本生成和AI配音多风格分类音频语料（中文通用大模型）。

首次发布时间：2024
RJUA-QA 首个中文医疗专科问答推理数据集

数据库源：中文医疗专科问答推理数据集

数据领域：医疗泌尿专科QA推理数据集。

首次发布时间：2023
DuReader系列大模型

数据库源：DuReade系列数据集

数据领域：Dureader-vis 中文开放域文档视觉问答； DuReader-Retriveal 通道检索的大规模中文数据集； DuQM 语言扰动； DuReader Yes/No 意见极性判断数据集； RuReader Robost 针对过度敏感，过度稳定的泛化数据集； DuReader 2.0 真实世界和认为来源的MRC数据集。

首次发布时间：2018 - 2022
FewJoint 基准数据集

数据库源：FewJoint 基准数据集

数据领域：讯飞 AIUI 开放平台上真实用户语料和专家构造的语料（对话数据集）。

首次发布时间：2020
千言数据集：情感分析

数据库源：情感分析

数据领域：句子级情感分类，评价对象级情感分类，观点抽取。涵盖了9个数据集中国科学院的ChnSentiCorp，苏州大学的NLPCC14-SC，哈尔滨工业大学的SE-ABSA16_PHNS和SE-ABSA16_CAME ，中国科学院的COTE-BD，COTE-MFW和COTE-DP，以及美团的ASAP_SENT，ASAP_ASPECT）

首次发布时间：2020
CSTSLU

数据库源：CATSLU (google.com)

数据领域：中文语音+NLU文本理解的对话数据集，可以从语音信号到理解端到端进行实验，例如直接从音素建模语言理解。

首次发布时间：2019
今日头条中文新闻（文本）分类数据集

数据库源：今日头条中文新闻（文本）分类数据集
今日头条中文新闻（文本）分类数据集)

数据领域：今日头条中文新闻和短文本（分类数据集）。

首次发布时间：2018

LLM基础知识

Posted on 2025-04-29 Edited on 2025-06-06 In LLM

这篇笔记整理了一些LLM的基础知识，主要包括LLM的Token、微调、幻觉、涌现能力等概念。作为一个LLM的初学者，结合自己的理解，以通俗易懂的方式进行描述。

1.LLM中token指的是什么？

在大语言模型中，Token是模型进行语言处理的基本信息单元，它可以是一个字，一个词甚至是一个短语句子。Token并不是一成不变的，在不同的上下文中，他会有不同的划分粒度。

(1) 字节对编码（BPE, Byte Pair Encoding）

原理：通过统计文本中字符的共现频率，逐步合并高频字符对，生成子词单元。
特点：
- 适用于多语言，能处理未登录词（OOV）。
- 例如：将 “unlearning” 拆分为 [“un”, “learn”, “ing”]。
应用：GPT、BERT、T5 等模型广泛使用。

(2) WordPiece

Transformer模块

Posted on 2025-04-29 Edited on 2025-06-06 In AIGC

这篇笔记整理了一些Transformer模块的基础知识，主要包括Encoder、Decoder、Attention等。结合自己的学习实践，以通俗易懂的方式进行介绍，希望能够帮助到大家，也方便自己日后复习巩固！

1、Transforme模块

1.Transformer Encoder 有什么子层？

Transformer 编码器（Encoder）由六个相同层构成（Attention Is All You Need原文设置），每层的主要子层包括两个部分：
多头自注意力机制（Multi-Head Self-Attention Mechanism）：这一层允许编码器查看输入序列中的其他位置来更好地编码一个单词。它由多个头组成，每个头独立地学习输入数据的不同方面。
前馈神经网络（Feed-Forward Neural Network）（Linear+relu+dropout+Linear）：这是一个简单的全连接神经网络，它对每个位置的注意力向量进行处理，但是对不同位置是独立的。
除了这些主要子层，还有一些重要的组件：
层归一化（Layer Normalization）：在多头自注意力机制和前馈神经网络之后，通常会有层归一化步骤，以稳定网络的学习过程。
残差连接（Residual Connections）：在每个子层之后，都会加上一个残差连接，然后进行层归一化。残差连接有助于避免在网络中出现梯度消失的问题。
这种结构的组合使得Transformer编码器非常有效且灵活，适用于处理各种顺序数据任务。

2.Transformer self-attention的公式是什么？

模型可解释性论文

Posted on 2025-04-28 Edited on 2025-06-05 In LLM

这篇笔记整理了模型可解释性论文，主要记录了对定性研究的思考、特征可视化等。作为一个模型可解释性的初学者，我将结合自己的学习实践，以通俗易懂的方式进行介绍，希望能够帮助到大家，也方便自己日后复习巩固！

模型可解释性论文：

对定性研究的思考 — Reflections on Qualitative Research

特征可视化 — Feature Visualization

Tracing the thoughts of a large language model \ Anthropic

深度学习框架知识点

Posted on 2025-04-25 Edited on 2025-06-05 In AIGC

这篇笔记整理了深度学习框架的基础概念相关知识点

1.Pytorch中的view、reshape方法的异同

深入探究

要想深入理解view和reshape方法的区别，我们需要先知道Pytorch中的Tensor是如何储存的。

Pytorch中Tensor的储存形式

Pytorch中tensor采用分开储存的形式，分为头信息区（Tensor）和存储区（Storage）。tensor的形状（size）、步长（stride）、数据类型（type）等信息储存在头部信息区，而真正的数据则存储在存储区。
举个例子

深度学习基础概念

Posted on 2025-04-24 Edited on 2025-06-05 In AIGC

这篇笔记整理了深度学习基础概念相关知识点，主要记录了反向传播、梯度消失、激活函数等。

反向传播算法（BP）的概念及简单推导

反向传播（Backpropagation，BP）算法是一种与最优化方法（如梯度下降法）结合使用的，用来训练人工神经网络的常见算法。BP算法对网络中所有权重计算损失函数的梯度，并将梯度反馈给最优化方法，用来更新权值以最小化损失函数。该算法会先按前向传播方式计算（并缓存）每个节点的输出值，然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

接下来我们以全连接层，使用sigmoid激活函数，Softmax+MSE作为损失函数的神经网络为例，推导BP算法逻辑。

首先，我们看看sigmoid激活函数的表达式及其导数：

$$sigmoid表达式：\sigma(x) = \frac{1}{1+e^{-x}}$$
$$sigmoid导数：\frac{d}{dx}\sigma(x) = \sigma(x) - \sigma(x)^2 = \sigma(1- \sigma)$$