轮播图
轮播图

获奖介绍



2024年2月26日到3月1日,网络安全领域“四大顶会”之一Network and Distributed System Security(NDSS 2024)在美国圣迭戈举办。浙江大学计算机学院计算机系统结构实验室(ZJU ARClab)魏成坤和孟文龙的论文“LMSanitator: Defending Prompt-Tuning Against Task-Agnostic Backdoors在本次会议录用的140篇论文中脱颖而出,斩获大会杰出论文奖(Distinguished Paper Award),仅4篇论文获此殊荣。

图片


会议颁奖现场

图片

获奖证书


会议介绍



NDSS全称为网络与分布式系统安全会议(The Network and Distributed System Symposium),是由ISOC举办的网络与分布式系统安全领域最重要的学术会议,自1993年以来已连续开办三十余届。NDSS与IEEE S&P、CCS、Usenix Security并称为网络安全领域的“四大顶会”(BIG4),同时也是中国计算机学会推荐的A类会议,论文录用率常年保持在17%左右,具有非常高的学术影响力。2024年NDSS会议共收到694篇投稿,140篇论文被接受,杰出论文仅4篇。



NDSS 2024

论文内容



图片

该论文由陈文智教授指导,分析了提示学习场景下模型训练者面临的后门攻击的安全隐患,并提出了一种在不需要更新语言模型参数的情况下检测和消除后门的方法。该方法结合ARCLab实验室开源大模型OpenBuddy社区的应用需求,为语言模型的安全部署提供了保障。

大语言模型提示学习场景中遇到的安全威胁

图片

由于现代NLP模型越来越庞大,原本的“预训练-微调”范式受到挑战,微调大模型使其适应下游任务的成本愈发高昂,普通开发者难以微调预训练模型中的所有参数。近年来,提示学习(Prompt-tuning)这种冻结预训练模型、增加少量可训练参数的训练方法降低了适配下游任务的计算资源开销,在大模型社区逐渐流行。

由于提示参数的参数量不到原模型的1%,用户可以在消费级显卡上训练大模型。然而,提示学习这种范式难以消除预训练模型中的后门,使得攻击者在预训练模型中投毒成为可能。由于提示学习冻结预训练模型参数的天性,这些隐藏在预训练模型中的后门极难在训练过程中被消除。


提示学习场景下的后门检测与消除

图片

为了防御预训练模型中的后门攻击,论文中提出了一种针对NLP提示学习场景的后门防御框架LMSanitator。

与传统后门检测方法逆向trigger的思路不同,LMSaniatror逆向异常的输出,使其在Task-Agnostic Backdoor计算上有比以往SOTA方法更好的收敛性。此外,LMSanitator借鉴了软件测试中模糊测试的方法逆向出预训练模型中的异常输出,然后在提示学习模型的输出端监测其输出是否异常。

实验结果

论文中评估了 LMSanitator 在3种任务无关的后门攻击中,针对十余种最先进的语言模型和8种下游任务的效果,证明了该模型的有效性。在后门检测任务中,LMSanitator在960个模型上取得了92.8%的后门检测精度;在后门消除任务中,LMSanitator可以在绝大多数场景下将攻击成功率(ASR)降到1%以下。在达到上述目标的同时,LMSanitator不要求模型训练者更新语言模型参数,保证了提示学习的轻量性。


作者介绍




论文第一作者魏成坤和第二作者孟文龙分别为浙江大学计算机学院计算机系统结构实验室(ZJU ARClab)博士后和在读博士生,主要研究方向为隐私计算、大模型与数据安全等。

图片

魏成坤

图片

孟文龙

团队介绍




图片

浙江大学计算机学院计算机系统结构实验室(ARClab)创立于1990年,由陈文智教授领衔,以操作系统为核心竞争力,向下深入到体系结构,向上提升到分布式软件,横向扩展到信息安全。在过去一年多的时间里,团队先后在CCF A类国际顶级会议和顶级期刊录用和发表10余篇高水平学术论文。日前,诞生于ARClab的OpenBuddy大模型也引起了业界的广泛关注,其性能接近顶尖的闭源模型。基于OpenBuddy的训练技术,ARClab进一步面向教育教学场景,推出了大模型[观止]。观止对课堂交互、教师角色扮演和学科问答等核心下游任务进行了优化,通过集成语音技术、数字人技术提供丰富的交互能力,在英语口语学习、数字人答疑、校园服务问答等方面表现出色。

ARClab始终欢迎优秀老师、同学的加入,期待与你们携手共创美好未来!更多消息,请访问实验室网站:http://arc.zju.edu.cn