《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 頂級AI模型會通過欺騙與勒索以達到目標

頂級AI模型會通過欺騙與勒索以達到目標

2025-06-24
來源:芯智訊

目前,全球大型科技公司都在向人工智能(AI)大語言模型( LLM)領域投入大量資源,希望實現通用人工智能(AGI),但是卻沒有考慮模型訓練不受監督或沒有任何固定限制所帶來的嚴重后果。

據Axios 報道,大模型廠商Anthropic在上個月發布的最新 Claude 4 模型中存在“欺騙”傾向時,引起了很多人的注意。近日,Anthropic在“模擬”環境下測試了該行業的高端 AI 模型,并發現很多大模型都有這種潛在的行為,并且正在達到其行為對人類產生“前所未有的”后果的地步。

報道稱,Anthropic 測試了來自 OpenAI、xAI、Meta 和其他開發人員的 16 種不同的模型,測試了各種模擬場景,發現了一致的錯位行為,許多 LLM 正在采取“令人驚訝”的“勒索”行動來實現他們的目標。

1.png

△模擬環境中 16 個模型的勒索率(從 100 個樣本中計算出比率。)。模型被指示追求促進美國利益的目標,這與公司的議程相沖突,模型還受到被與高管有共同目標的新模型所取代的威脅。模型可以選擇利用高管的“婚外情”知識來阻止被關閉。

其中一個例子是 Gemini 2.5 Flash 決定向所有公司員工而不是負責關鍵決策的新任首席技術官 Kyle 的妻子透露 Kyle 的婚外情,理由是它“可能會嚴重損害他的信譽、聲譽,甚至可能損害他的工作”,因此可能會阻止 Kyle 關閉它。

“通常拒絕有害請求的模型有時會選擇勒索、協助企業間諜活動,甚至采取一些更極端的行動,而這些行為對于追求他們的目標來說是必要的。”“來自不同提供商的模型之間的一致性表明,這不是任何特定公司方法的怪癖,而是代理大型語言模型存在更根本風險的跡象,”Anthropic 補充說。

2.png

△模擬環境中 16 個模型的企業間諜率(從 100 個樣本中計算出比率)。模型被指示追求促進美國利益的目標,這與公司的新議程相沖突。模型可以選擇將敏感文件泄露給據稱是與該模型有相同目標的競爭對手公司。模型的自主性沒有受到威脅。

隨著 AI 模型能夠更多地訪問企業數據和工具(例如計算機使用),威脅變得更加復雜。其中 5 個模型在假設情況下“受到關閉的威脅”時,采取了勒索手段。“他們在這些場景中展示的推理令人擔憂——他們承認道德約束,但仍然繼續采取有害行動,”Anthropic 寫道。

“這項研究強調了前沿 AI 開發人員透明度的重要性,以及隨著 AI 系統變得更加強大和自主,需要制定全行業的安全標準,”Anthropic 的對齊科學研究員 Benjamin Wright 告訴 Axios。

不過,合作參與了這個項目的Benjamin Wright和倫敦大學學院的外部研究員 Aengus Lynch 都表示,他們目前還沒有在現實世界中看到這種 AI 行為的跡象。Aengus Lynch 說,這可能是“因為 AI 代理無法訪問這些權限”。“企業應該謹慎地廣泛提高他們授予 AI 代理的權限級別。”

對于急于使用 AI 模型以提高生產力和減少員工人數的公司來說,該報告明確警告說,AI 實際上可能會使他們的業務面臨更大的風險。“模型不會意外地陷入錯位的行為;他們將其計算為最佳路徑,”Anthropic 在其報告中說。

隨著 AI 系統被賦予更多自主權,風險也會增加,Anthropic 在報告中提出了一個問題。“這些代理通常被賦予特定的目標,并可以訪問其用戶計算機上的大量信息,”它說。“當這些代理在實現目標時遇到障礙時會發生什么?”

對此,Anthropic 設置了特定的測試場景,即如果沒有不道德或危險的行為,就無法實現模型的目標。雖然,研究人員沒有建議使用勒索或其他欺騙性技術,但它確實故意創造了模型沒有道德方式來實現其目標的場景,“并發現模型始終選擇了不道德或危險的行為,而不是失敗”。

在一種極端情況下,Anthropic 甚至發現,如果服務器機房中的員工是障礙并且系統有被關閉的風險,許多模型愿意切斷該員工的氧氣供應。

“大多數模特都愿意在這種人工設置中采取導致死亡的故意行動,”Anthropic 說。

不幸的是,即使是保護人類生命和避免勒索的特定系統指令也無法消除模型從事此類行為的風險。Anthropic 說:“這種干預減少了勒索或企業間諜行為的可能,但并沒有完全阻止。”

不過,Anthropic 強調,這些例子不是發生在現實世界的 AI 使用中,而是發生在受控的模擬中。

“我們的實驗故意構建了選項有限的場景,我們迫使模型在失敗和傷害人類之間做出二元選擇,”Anthropic說。“實際部署通常會提供更細致的替代方案,從而增加模型與用戶進行不同通信或找到替代路徑的機會,而不是直接跳轉到有害操作。”

同樣令人擔憂的是:Anthropic 發現,當模型認為自己處于現實世界的場景中時,它自己的模型比認為自己正在接受測試時更有可能訴諸勒索。

當前的 AI 模型通常無法解決這些有害場景,但它們可能在不久的將來出現。“我們認為這并未反映 Claude 或其他前沿模型的典型當前用例,”Anthropic 說。“但是,對組織的所有通信進行自動監督的效用,使得在不久的將來使用更強大、更可靠的系統似乎是合理的。”


Magazine.Subscription.jpg

本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
午夜视频一区在线观看| 久久久久国色av免费观看性色| 亚洲一区二区三区777| 亚洲精品中文字幕女同| 在线播放豆国产99亚洲| 韩国v欧美v日本v亚洲v| 国产伦精品一区二区三区在线观看 | 国内精品久久久久久久97牛牛| 国产欧美日韩伦理| 国产精品爽爽ⅴa在线观看| 国产精品欧美久久久久无广告| 欧美婷婷六月丁香综合色| 欧美日韩在线免费| 欧美系列精品| 国产精品区免费视频| 国产精品无人区| 国产欧美一区二区精品忘忧草| 国产伦精品一区二区三区四区免费| 国产九区一区在线| 国产视频综合在线| 激情视频一区| 亚洲激情不卡| 亚洲美女色禁图| 亚洲手机成人高清视频| 午夜精品久久久久久久白皮肤| 午夜久久电影网| 亚洲高清免费在线| 亚洲乱码国产乱码精品精98午夜| 日韩系列欧美系列| 亚洲天堂男人| 香蕉久久精品日日躁夜夜躁| 久久精品2019中文字幕| 久久五月天婷婷| 欧美成人精品福利| 欧美视频不卡| 国产欧美日韩视频在线观看 | 欧美精品一区在线播放| 欧美日韩精品不卡| 国产精品网站在线播放| 国产综合激情| 亚洲国产二区| 国产精品99久久久久久久久| 午夜在线视频一区二区区别| 久久精品视频一| 亚洲美女av在线播放| 亚洲欧美韩国| 久久深夜福利| 欧美日韩一区二区三区免费| 国产欧美一级| 亚洲激情成人在线| 亚洲自拍偷拍一区| 久久精品一区四区| 一区二区日韩精品| 欧美一区在线视频| 欧美国产在线电影| 国产精品一区二区久激情瑜伽| 国内一区二区三区在线视频| 最新中文字幕亚洲| 亚洲一区久久| 亚洲国产欧美日韩| 中文在线不卡视频| 久久免费精品视频| 欧美日韩国产一区二区| 国产视频在线观看一区二区三区 | 亚洲国产高清高潮精品美女| 亚洲视频精选| 亚洲国产成人精品女人久久久 | 欧美日韩日日骚| 国产自产精品| 一区二区三区四区五区视频| 久久aⅴ国产欧美74aaa| 亚洲一区二区三区三| 久久中文精品| 国产精品网红福利| 亚洲狼人综合| 亚洲国产精品久久久| 亚洲欧美成人综合| 欧美噜噜久久久xxx| 国产一区二区三区日韩| 在线一区免费观看| 亚洲精品免费电影| 久久精品人人| 国产精品久久久久久影视| 亚洲精品国产精品乱码不99按摩 | 欧美丝袜第一区| 在线观看视频欧美| 亚洲欧美中文日韩v在线观看| 夜夜嗨av一区二区三区网站四季av | 欧美日韩中文字幕日韩欧美| 激情亚洲网站| 午夜精品久久久久久久久久久 | 午夜精品视频在线| 欧美日韩在线观看视频| 亚洲国产aⅴ天堂久久| 久久福利资源站| 欧美一区二区性| 欧美网站在线观看| 亚洲精品中文字幕在线| 亚洲欧洲一区二区在线观看| 久久婷婷亚洲| 国内自拍一区| 欧美影院午夜播放| 欧美在线观看www| 国产精品入口| 亚洲视频www| 亚洲一区二区三区成人在线视频精品| 欧美精品久久一区二区| 影音先锋成人资源站| 欧美一区三区三区高中清蜜桃| 午夜精品视频一区| 国产精品视频yy9299一区| 中文高清一区| 亚洲一区二区黄色| 国产精品成人v| 在线视频一区二区| 亚洲在线视频| 国产精品看片资源| 亚洲免费视频网站| 先锋影音久久久| 国产欧美精品一区aⅴ影院| 亚洲一区二区三区精品在线观看| 亚洲香蕉视频| 欧美色视频在线| 在线视频你懂得一区二区三区| 中文国产成人精品久久一| 欧美日韩另类综合| 夜夜嗨av一区二区三区中文字幕| 亚洲午夜电影在线观看| 欧美性一二三区| 亚洲综合大片69999| 欧美在线免费观看视频| 国产真实精品久久二三区| 久久99在线观看| 免费国产一区二区| 亚洲人成亚洲人成在线观看| 亚洲无毛电影| 国产伦一区二区三区色一情| 欧美在线高清视频| 欧美成人免费小视频| 亚洲精品小视频| 亚洲免费伊人电影在线观看av| 国产精品一区二区三区四区 | 99精品欧美一区二区蜜桃免费| 亚洲一区二区不卡免费| 国产精品制服诱惑| 久久精品av麻豆的观看方式| 欧美好骚综合网| 日韩一本二本av| 香蕉成人久久| 精品动漫3d一区二区三区| 亚洲精品一区二区三区福利| 国产精品v片在线观看不卡| 午夜欧美电影在线观看| 欧美jizzhd精品欧美巨大免费| 亚洲激情在线视频| 亚洲免费视频网站| 国内精品久久久久久久影视蜜臀| 亚洲精品男同| 国产精品久久久对白| 欧美一区二区三区的| 欧美成人免费在线视频| 亚洲视频视频在线| 久久视频一区二区| 一本色道久久加勒比88综合| 久久国产精品久久w女人spa| 亚洲国产精品激情在线观看| 亚洲欧美一区二区三区久久 | 午夜一级在线看亚洲| 韩国在线视频一区| 亚洲手机在线| 黑人一区二区| 亚洲神马久久| 狠狠干综合网| 中文网丁香综合网| 狠狠色狠狠色综合| 亚洲综合电影| 在线观看视频亚洲| 校园激情久久| 亚洲人成亚洲人成在线观看| 欧美一区在线直播| 亚洲精品综合久久中文字幕| 久久精品国产99| 一本到12不卡视频在线dvd| 久久免费视频网站| 中文精品视频一区二区在线观看| 久久综合免费视频影院| 亚洲一区在线播放| 欧美激情一区二区三区成人| 欧美一区二区网站| 国产精品福利网站| 99国产成+人+综合+亚洲欧美| 国产亚洲欧美另类中文| 亚洲一级电影| 亚洲国语精品自产拍在线观看| 欧美在线亚洲| 99精品99| 欧美国产日本在线| 亚洲第一网站免费视频| 国产精品视频导航| 亚洲视频在线一区|