大模型的安全性
1.大模型的对抗攻击与防御
1.什么是大模型的对抗性攻击?
对抗攻击一般指在大模型的推理阶段,利用精心设计的噪声来扰乱输入数据,从而导致模型产生错误或不良输出。这些扰动通常对人类来说是难以察觉的。根据攻击者的访问权限,对抗攻击可以分为白盒攻击、灰盒攻击和黑盒攻击。白盒攻击是指攻击者可以完全访问模型的权重、架构和训练流程,通常使用基于梯度的工具来攻击大模型。灰盒攻击是指攻击者仅掌握模型的部分信息,如架构和某些内部参数,但无法直接访问模型的权重或完整的训练数据。攻击者通常利用其他视觉/语言编码器/生成模型,在输入数据/嵌入空间中添加微小的扰动,使得模型在推理阶段产生错误的输出。黑盒攻击是指攻击者完全无法访问模型的架构或参数。攻击者通常通过调用API和使用恶意的Prompt来攻击大模型。
2.什么是token 操作(对抗性攻击)?
Token操作是指人为通过对输入文本中的token进行替换、删除、插入或重新排序等操作,破坏文本的原始语义结构。这种操作是黑盒攻击,旨在让大模型难以篡改后文本的含义,从而输出错误的结果。