近日,我院助理教授秦悦在人工智能安全与隐私保护方向取得重要研究进展。其作为通讯作者,与清华大学合作完成的论文“FALCON: A Universal Text-only Membership Inference Attack Framework against In-context Learning”被网络与信息安全领域国际顶级期刊IEEE Transactions on Information Forensics and Security(IEEE TIFS)录用发表。DOI 为10.1109/TIFS.2025.3640876。文章链接:https://ieeexplore.ieee.org/document/11278891。
该研究聚焦大语言模型(LLMs)中上下文学习(In-context Learning, ICL) 场景下的隐私与知识产权风险评估问题。针对现有成员推理攻击(Membership Inference Attacks, MIAs)普遍依赖模型内部信息、难以适用于真实API环境,且容易触发模型内置安全机制等局限,论文提出了首个面向 纯文本模型API、具备任务感知能力的通用成员推理攻击框架FALCON, 通过系统化利用文本混淆技术,捕捉模型在重构“已见数据”与“未见数据”时的行为差异,成功在不依赖内部访问权限的前提下绕过应用层限制与大模型安全防护机制,从而实现高效、现实可行的隐私攻击。
该期刊与IEEE TDSC、Journal of Cryptology 同列 CCF 推荐 A 类,均属于网络与信息安全领域的国际顶级学术期刊。
秦悦现为中央财经大学信息学院助理教授,博士毕业于美国印第安纳大学伯明顿分校。其研究方向为网络安全、机器学习与自然语言处理的交叉领域,致力于通过数据驱动方法识别和刻画复杂网络系统与AI系统中的关键安全与隐私风险,并设计具备鲁棒性与隐私保护能力的实际可部署解决方案。相关成果已发表于多项国际高水平期刊与会议。
撰稿:秦悦
审稿:高胜