研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容合川市某某电子商务售后客服中心便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功合川市某某电子商务售后客服中心实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:焦点)
-
在科技日新月异的今天,我们常常被各种前沿技术所震撼。世界心脏日,当人们正在浏览“心脏健康”相关话题时,上海能山生物的实验室里,一颗直径1厘米的“肉团”正在营养液中规律跳动。这不是科幻电影,而是全球首颗
...[详细]
-
2024国际乒联第48周排名:王楚钦男单第一,孙颖莎女单第一
来源:直播吧 直播吧11月26日讯2024国际乒联第48周排名公布,男单王楚钦排名第一,女单孙颖莎位列首位。 男单:王楚钦第一)、林诗栋第二)、梁靖崑第五)、樊振东第六),马龙第八) 女单:
...[详细]
-
据多家港媒报道,11月30日,香港警方灾难遇害者辨认组人员继续到宏福苑各大厦搜索,至接近中午时分再抬走遗体。消息称,遗体是在宏盛阁发现。 相关新闻 香港各界积极行动,帮助灾民渡过难关央视)
...[详细]
-
原标题:校馆弦歌丨一山一海,共证文明根脉 一北一南,同守文化薪火) 山,铸就文明的脊梁;海,连接世界的远方。山东大学博物馆以“山”为魄,用考古实证探源中华文明根脉
...[详细]
-
晚上好啊。今晚是冬日保湿小专场!我猜此刻正有小伙伴刚涂完护手霜或者身体乳。最近在工作室里也总听到大家念叨——洗完澡皮肤绷得像拉紧的弦,腿上悄悄飘“雪花”,连油皮上妆都开始卡粉……像我这样的“干燥星人”
...[详细]
-
当地时间12月1日,日本北海道室兰市日本制铁公司的一家钢铁厂发生爆炸,随后引发火灾。 当天凌晨1时左右,附近居民向消防部门报警称厂区发生火灾。据消防部门介绍,厂区内的热风炉发生爆炸并导致火势四处
...[详细]
-
本文转自:人民日报海外版文 晓《人民日报海外版》2024年11月27日第 12 版) 外国游客在三乐旅游铁路主题列车前拍照留念。 袁永东摄人民图片) 坐着动车喝啤酒、品咖啡、体验AI拍照打卡——
...[详细]
-
当地时间12月1日,日本北海道室兰市日本制铁公司的一家钢铁厂发生爆炸,随后引发火灾。 当天凌晨1时左右,附近居民向消防部门报警称厂区发生火灾。据消防部门介绍,厂区内的热风炉发生爆炸并导致火势四处
...[详细]
-
据河南市场监管微信公众号消息,中秋将至,为帮助消费者选购到安全、放心、满意的月饼,欢度佳节,河南省市场监管局特发布消费提示。选择正规渠道,核查经营资质应选择证照齐全的商场、超市、专卖店等正规销售场所或
...[详细]
-
每一位走进高中的孩子,心里都藏着一份对未来的憧憬,也许是对成绩的期待,也许是对自我突破的渴望。尤其是那条线,分开了“重点班”和“普通班”的界限,仿佛一座难以跨越的高山,遥不可及,又若隐若现。然而,现实
...[详细]

OpenAI发布GPT最新升级版本
加湿器用不对反伤身 这份选用指南帮你“避坑”
老钱风,到底适合什么人穿?