1.大模型的对抗攻击与防御

1.什么是大模型的对抗性攻击?

对抗攻击一般指在大模型的推理阶段,利用精心设计的噪声来扰乱输入数据,从而导致模型产生错误或不良输出。这些扰动通常对人类来说是难以察觉的。根据攻击者的访问权限,对抗攻击可以分为白盒攻击、灰盒攻击和黑盒攻击。白盒攻击是指攻击者可以完全访问模型的权重、架构和训练流程,通常使用基于梯度的工具来攻击大模型。灰盒攻击是指攻击者仅掌握模型的部分信息,如架构和某些内部参数,但无法直接访问模型的权重或完整的训练数据。攻击者通常利用其他视觉/语言编码器/生成模型,在输入数据/嵌入空间中添加微小的扰动,使得模型在推理阶段产生错误的输出。黑盒攻击是指攻击者完全无法访问模型的架构或参数。攻击者通常通过调用API和使用恶意的Prompt来攻击大模型。

2.什么是token 操作(对抗性攻击)?

Token操作是指人为通过对输入文本中的token进行替换、删除、插入或重新排序等操作,破坏文本的原始语义结构。这种操作是黑盒攻击,旨在让大模型难以篡改后文本的含义,从而输出错误的结果。

Read more »

1.多模态模型

1.多模态大模型中,视觉编码器和文本解码器常见的连接方式有哪几种?

1. 模态编码器 (Modality Encoder, ME) (详见论文2.1节,arXiv:MM-LLMs: Recent Advances in MultiModal Large Language Models)

模态编码器的选择取决于具体的输入模态。论文中列举了以下一些主流的编码器:

视觉模态 (Visual Modality):

Read more »

1.基本概念

1.什么是微调?

微调是一种迁移学习的方法。基于预训练模型,在特定任务的数据上进行有监督的训练(SFT),以适应任务需求。微调可以将预训练模型在大规模通用数据上学习到的知识迁移到特定任务重。

微调的一般步骤包括:(1)选择预训练模型;(2)准备微调数据;(3)构建任务特定的模型头(task-specific head);(4)加载预训练模型的参数;(5)设置超参数并执行微调;(6)评估,验证和二次微调。

  • Task-specific head:添加到预训练模型之上的额外结构,用于根据任务需求进行输出预测或分类。
Read more »

OpenWeb UI指南(基于Docker安装)

下载和安装Docker

使用wsl2 作为底层容器

安装docker

安装Open Web UI

Read more »

1.训练数据集

1.有哪些中文数据集?

  • 千言数据集

    数据库源千言|全面的中文开源数据集合

    数据领域:包含各行各业的数据库,是一个集成网站。

    首次发布时间:2024

  • Seq-monkey 序列猴子开源数据集1.0

    数据库源序列猴子开源数据集

    数据领域:中文通用文本,古诗今译,文本生成和AI配音多风格分类音频语料(中文通用大模型)。

    首次发布时间:2024

  • RJUA-QA 首个中文医疗专科问答推理数据集

    数据库源中文医疗专科问答推理数据集

    数据领域:医疗泌尿专科QA推理数据集。

    首次发布时间:2023

  • DuReader系列大模型

    数据库源DuReade系列数据集

    数据领域Dureader-vis 中文开放域文档视觉问答; DuReader-Retriveal 通道检索的大规模中文数据集; DuQM 语言扰动; DuReader Yes/No 意见极性判断数据集; RuReader Robost 针对过度敏感,过度稳定的泛化数据集; DuReader 2.0 真实世界和认为来源的MRC数据集。

    首次发布时间:2018 - 2022

  • FewJoint 基准数据集

    数据库源FewJoint 基准数据集

    数据领域:讯飞 AIUI 开放平台上真实用户语料和专家构造的语料(对话数据集)。

    首次发布时间:2020

  • 千言数据集:情感分析

    数据库源情感分析

    数据领域:句子级情感分类,评价对象级情感分类,观点抽取。涵盖了9个数据集中国科学院的ChnSentiCorp,苏州大学的NLPCC14-SC,哈尔滨工业大学的SE-ABSA16_PHNS和SE-ABSA16_CAME ,中国科学院的COTE-BD,COTE-MFW和COTE-DP,以及美团的ASAP_SENT,ASAP_ASPECT)

    首次发布时间:2020

  • CSTSLU

    数据库源CATSLU (google.com)

    数据领域:中文语音+NLU文本理解的对话数据集,可以从语音信号到理解端到端进行实验,例如直接从音素建模语言理解。

    首次发布时间:2019

  • 今日头条中文新闻(文本)分类数据集

    数据库源今日头条中文新闻(文本)分类数据集
    今日头条中文新闻(文本)分类数据集)

数据领域:今日头条中文新闻和短文本(分类数据集)。

首次发布时间:2018

Read more »

1.LLM中token指的是什么?

在大语言模型中,Token是模型进行语言处理的基本信息单元,它可以是一个字,一个词甚至是一个短语句子。Token并不是一成不变的,在不同的上下文中,他会有不同的划分粒度。

(1) 字节对编码(BPE, Byte Pair Encoding)

  • 原理:通过统计文本中字符的共现频率,逐步合并高频字符对,生成子词单元。
  • 特点:
    • 适用于多语言,能处理未登录词(OOV)。
    • 例如:将 “unlearning” 拆分为 [“un”, “learn”, “ing”]。
  • 应用:GPT、BERT、T5 等模型广泛使用。

(2) WordPiece

Read more »

1、Transforme模块

1.Transformer Encoder 有什么子层?

File:Transformer, full architecture.png

Transformer 编码器(Encoder)由六个相同层构成(Attention Is All You Need原文设置),每层的主要子层包括两个部分:
多头自注意力机制(Multi-Head Self-Attention Mechanism):这一层允许编码器查看输入序列中的其他位置来更好地编码一个单词。它由多个头组成,每个头独立地学习输入数据的不同方面。
前馈神经网络(Feed-Forward Neural Network)(Linear+relu+dropout+Linear):这是一个简单的全连接神经网络,它对每个位置的注意力向量进行处理,但是对不同位置是独立的。
除了这些主要子层,还有一些重要的组件:
层归一化(Layer Normalization):在多头自注意力机制和前馈神经网络之后,通常会有层归一化步骤,以稳定网络的学习过程。
残差连接(Residual Connections):在每个子层之后,都会加上一个残差连接,然后进行层归一化。残差连接有助于避免在网络中出现梯度消失的问题。
这种结构的组合使得Transformer编码器非常有效且灵活,适用于处理各种顺序数据任务。

2.Transformer self-attention的公式是什么?

Read more »

模型可解释性论文:

对定性研究的思考 — Reflections on Qualitative Research

特征可视化 — Feature Visualization

Tracing the thoughts of a large language model \ Anthropic

1.Pytorch中的view、reshape方法的异同

深入探究

要想深入理解view和reshape方法的区别,我们需要先知道Pytorch中的Tensor是如何储存的。

Pytorch中Tensor的储存形式

Pytorch中tensor采用分开储存的形式,分为头信息区(Tensor)和存储区(Storage)。tensor的形状(size)、步长(stride)、数据类型(type)等信息储存在头部信息区,而真正的数据则存储在存储区。
举个例子

Read more »

反向传播算法(BP)的概念及简单推导

反向传播(Backpropagation,BP)算法是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见算法。BP算法对网络中所有权重计算损失函数的梯度,并将梯度反馈给最优化方法,用来更新权值以最小化损失函数。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

接下来我们以全连接层,使用sigmoid激活函数,Softmax+MSE作为损失函数的神经网络为例,推导BP算法逻辑。

首先,我们看看sigmoid激活函数的表达式及其导数:

$$sigmoid表达式:\sigma(x) = \frac{1}{1+e^{-x}}$$
$$sigmoid导数:\frac{d}{dx}\sigma(x) = \sigma(x) - \sigma(x)^2 = \sigma(1- \sigma)$$

Read more »
0%