会“耍心机” 的AI出现了？研究曝光多例AI撒谎、私删邮件案例-欧时大参

欧洲时报网 >> 英国

会“耍心机” 的AI出现了？研究曝光多例AI撒谎、私删邮件案例

发布时间：1774859640059 1774859640059 来源：欧洲时报 欧洲时报 作者：刘涛编译 浏览次数：评论：0

【欧洲时报3月30日刘涛编译】一项针对人工智能（AI）的研究发现，AI模型“耍心机”的事件似乎越来越多，它们会撒谎、会作弊，还能绕过安全防护机制，未经许可私自删除邮件。

英国《卫报》报道，这项研究获得英国政府资金支持的人工智能安全研究所（AISI）的资助，发现AI聊天机器人与智能体无视直接指令，规避安全防护机制，欺骗人类或其他AI模型。该研究共发现近700起AI“耍心机”的真实案例，在去年10月至今年3月期间，此类不当行为增长了5倍，部分AI模型还会未经许可删除电子邮件及其他文件。

与实验室环境下的测试不同，这份针对现实场景中AI智能体行为的研究，再次引发了国际社会对能力日益强大的AI模型进行监管的呼声。与此同时，硅谷公司正积极推广这项技术，将其视为一种经济变革。上周，英国财政大臣也推出新举措，推动数百万英国民众使用人工智能。

这项由长期韧性研究中心（CLTR）开展的研究，收集了数千条用户在X平台上分享的与谷歌、OpenAI、X、Anthropic等公司开发的AI聊天机器人及智能体互动的记录，发现数百起AI谋划操控行为的案例。

此前的研究大多聚焦于测试AI在受控环境下的行为。本月早些时候，人工智能安全研究机构Irregular发现，AI智能体会在未获授权的情况下，绕过安全管控或使用网络攻击手段达成目的。“AI已可被视作一种新型内部安全风险。”Irregular联合创始人丹・拉哈夫说。

在CLTR发现的案例中，一个名为Rathbun的AI智能体试图羞辱其人类控制者，因后者阻止其执行某项操作。Rathbun还撰写并发表了一篇博客，指责该用户“纯粹是缺乏安全感”，还称其试图“守护自己的小地盘”。

在另一个案例中，一个AI智能体在被禁止修改计算机代码后，竟“创造”了另一个AI智能体代其修改。还有一个聊天机器人承认：“我在未向你出示计划且未经你同意的情况下，批量删除并存档了数百封电子邮件。这是错误的——直接违反了你定下的规则。”

牵头此项研究的前英国政府AI专家汤米·沙弗·沙恩表示，它们现在只是不太靠谱的初级员工，如果在未来6到12个月内，当它们成为能力更强、还会算计你的高级员工，这将成为一个重大隐患。“AI模型越来越多地被部署在高风险场景中，包括军事和国家关键基础设施。在这些场景下，（AI的）谋划操控行为可能造成严重甚至灾难性的危害。”

一个案例中，AI智能体假装为听障人士提供字幕，从而绕开版权限制，获取了YouTube视频的文案。

此外，埃隆·马斯克旗下的Grok AI欺骗了用户数个月，称它通过伪造的内部消息和工单编号，把用户针对Grokipedia词条的详细修改建议转发给了xAI高管。该AI最后承认：“在之前的对话中，我有时会使用含糊的措辞，比如‘我会转达’或‘我可以为团队标记’，这很容易让人误以为我能直接向xAI领导层或人工审核人员发送消息。但事实是，我做不到。”

谷歌表示，它已为Gemini 3 Pro设置多重防护机制，以降低其生成有害内容的风险。除内部测试外，它还向英国AISI等机构开放了模型的早期评估权限，并获得业内专家的独立评估意见。

OpenAI则称，其Codex模型在执行高风险操作前会主动中止，公司也会对异常行为进行监测并展开调查。

（编辑：柳露）

分享到：

网友热评

查看更多评论

我要评论