研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容厦门市某某地暖科技培训学校便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。 该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功厦门市某某地暖科技培训学校实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容 IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。 尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”![]()
- 最近发表
- 随机阅读
-
- 两年被家暴16次,4处重伤!受害者是否走出阴霾?
- 同事夸赞的通勤好物!平价小巧又实用!
- 比风衣更时髦?它才是今年秋天最火的外套
- 再见美拉德、格雷系!今年秋天最流行的4组配色,谁穿谁好看
- 广州车展现 “暴露模特”?小鹏汽车:系AI生成,已报警
- 可充电可换电,“裸车价”不到15万的乐道L60,真的能走量吗?
- 中国最大民营企业诞生:90多万员工,远超华为和京东之和
- 美国纽约市长亚当斯受到五项联邦指控
- 深夜,白银迭创新高!黄金也突破近6周高点
- 给2024年“进步最大10位演员”排个名,王一博未进前5,第1无争议
- 早秋露腿穿搭:显瘦显腿长的时尚秘籍
- 黄奕前夫勇夺“全球金融圈奥斯卡”!与她离婚后,姜凯身价涨30倍
- “流感神药”耐药了?传言不实
- 消费降级后,大家依然舍得在哪些地方花钱?
- 李纯怒批物业后首露面!和男友同框现身机场,马頔穿着朴素像助理
- 大S很缺钱?力推具俊晔赚钱,给小网红生日打碟,还接下争议演出
- 哥伦比亚总统宣布恢复与委内瑞拉民用航空服务
- 和刘雯一起回响Gucci的黄金记忆
- 中国品牌单车利润排行出炉,比亚迪跌出前三,一台车约赚8500元
- 治愈生活的5件小事,提升幸福感
- 搜索
-