【欧洲时报3月30日刘涛编译】一项针对人工智能(AI)的研究发现,AI模型“耍心机”的事件似乎越来越多,它们会撒谎、会作弊,还能绕过安全防护机制,未经许可私自删除邮件。
英国《卫报》报道,这项研究获得英国政府资金支持的人工智能安全研究所(AISI)的资助,发现AI聊天机器人与智能体无视直接指令,规避安全防护机制,欺骗人类或其他AI模型。该研究共发现近700起AI“耍心机”的真实案例,在去年10月至今年3月期间,此类不当行为增长了5倍,部分AI模型还会未经许可删除电子邮件及其他文件。
与实验室环境下的测试不同,这份针对现实场景中AI智能体行为的研究,再次引发了国际社会对能力日益强大的AI模型进行监管的呼声。与此同时,硅谷公司正积极推广这项技术,将其视为一种经济变革。上周,英国财政大臣也推出新举措,推动数百万英国民众使用人工智能。
这项由长期韧性研究中心(CLTR)开展的研究,收集了数千条用户在X平台上分享的与谷歌、OpenAI、X、Anthropic等公司开发的AI聊天机器人及智能体互动的记录,发现数百起AI谋划操控行为的案例。
此前的研究大多聚焦于测试AI在受控环境下的行为。本月早些时候,人工智能安全研究机构Irregular发现,AI智能体会在未获授权的情况下,绕过安全管控或使用网络攻击手段达成目的。“AI已可被视作一种新型内部安全风险。”Irregular联合创始人丹・拉哈夫说。
在CLTR发现的案例中,一个名为Rathbun的AI智能体试图羞辱其人类控制者,因后者阻止其执行某项操作。Rathbun还撰写并发表了一篇博客,指责该用户“纯粹是缺乏安全感”,还称其试图“守护自己的小地盘”。
在另一个案例中,一个AI智能体在被禁止修改计算机代码后,竟“创造”了另一个AI智能体代其修改。还有一个聊天机器人承认:“我在未向你出示计划且未经你同意的情况下,批量删除并存档了数百封电子邮件。这是错误的——直接违反了你定下的规则。”
牵头此项研究的前英国政府AI专家汤米·沙弗·沙恩表示,它们现在只是不太靠谱的初级员工,如果在未来6到12个月内,当它们成为能力更强、还会算计你的高级员工,这将成为一个重大隐患。“AI模型越来越多地被部署在高风险场景中,包括军事和国家关键基础设施。在这些场景下,(AI的)谋划操控行为可能造成严重甚至灾难性的危害。”
一个案例中,AI智能体假装为听障人士提供字幕,从而绕开版权限制,获取了YouTube视频的文案。
此外,埃隆·马斯克旗下的Grok AI欺骗了用户数个月,称它通过伪造的内部消息和工单编号,把用户针对Grokipedia词条的详细修改建议转发给了xAI高管。该AI最后承认:“在之前的对话中,我有时会使用含糊的措辞,比如‘我会转达’或‘我可以为团队标记’,这很容易让人误以为我能直接向xAI领导层或人工审核人员发送消息。但事实是,我做不到。”
谷歌表示,它已为Gemini 3 Pro设置多重防护机制,以降低其生成有害内容的风险。除内部测试外,它还向英国AISI等机构开放了模型的早期评估权限,并获得业内专家的独立评估意见。
OpenAI则称,其Codex模型在执行高风险操作前会主动中止,公司也会对异常行为进行监测并展开调查。
(编辑:柳露)