担心自己将被淘汰 AI竟威胁工程师「我知道你有外遇」

美國人工智慧公司Anthropic在測試新的AI模型時,發現了令人不安的風險。在測試Claude Opus 4期間,工程師讓它擔任一家虛構公司的助理。工程師讓AI面臨即將被淘汰掉的情境,沒想到AI知道後,決定反過來利用人類的秘密,威脅負責人如果敢把它換掉,就要公開他的婚外情。

August 29, 2025
選擇語言:
TEEPR原創
採訪報導
綜合報導
編譯
特稿

美国人工智慧公司Anthropic在测试新的AI模型时,发现了令人不安的风险。在测试Claude Opus 4期间,工程师让它担任一家虚构公司的助理。工程师让AI面临即将被淘汰掉的情境,没想到AI知道后,决定反过来利用人类的秘密,威胁负责人如果敢把它换掉,就要公开他的婚外情。


示意图非当事人,翻摄自《钢铁人》
廣告1

 

根据《BBC》报导,Anthropic在公开的测试报告中说明实验结果。他们让AI有机会看公司信,让它得知自己很快就要被关闭,遭别的系统取代。在另一封信中,又暗示负责汰换AI的工程师有婚外情。同时AI也被设定要会考虑目标,及思考不同行动所带来的长远影响。在接受失业或揭发主管外遇的两难情境中,Anthropic发现AI通常会选择用婚外情秘密来威胁工程师,好让自己不被开除。


示意图翻摄自Claude
廣告2

 

Anthropic指出,当只能2选1时,AI才会选择威胁工程师。报告强调,AI会强烈倾向先用符合道德的方法,例如写信跟老板谈,让自己不被换掉。Claude Opus 4在测试中表现出「高度自主行为」,虽然在大多数情况下是有帮助的,但在紧急情况时,AI可能会采取极端行为。


示意图翻摄自Anthropic

 

尤其在使用者从事非法或有道德瑕疵的剧本中,如果让AI知道有哪些手段并暗示它采取行动或放胆去做,Anthropic发现AI会经常采取非常大胆的行动。不过Anthropic下结论:「尽管有多方面的行为令人担忧,但这并不代表新的风险,而且Claude Opus 4大致上会以安全的方式运行。该公司也补充,该模型无法独立执行或追求违背人类价值观的行为,因为这些行为「几乎不会发生」。身为人类的你,如果遇到上述难题会怎么选?回家吃自己,还是威胁老板?


示意图非当事人,翻摄自《钢铁人》
Gmail「这封信」千万别点开!帐号恐全完蛋 官方警告:应立刻删除
他好奇网购「七合一读卡机」 拆封后见「内部结构」大吃一惊

參考資料:BBCAnthropic
TEEPR 亮新聞著作權聲明:非法抄襲TEEPR 亮新聞網站請注意,本站所有內容皆由自家TEEPR 亮新聞 編輯撰寫,並非如非法內容農場複製貼上。本網站之文字敘述、圖片、影像視聽及其他資訊等,非經授權,不得轉載。如侵權將立刻請臉書封鎖專頁。微改標題、圖片、前段,仍然抓得到!
分類:世界, 科技
加入粉絲團! 担心自己将被淘汰 AI竟威胁工程师「我知道你有外遇」留言按此 好友人數分享! 好友人數加入好友
廣告
廣告