好看的av电影,欧美人与动牲猛交a欧美精品

極端措施

控制AI

首頁

科技周邊

IT業(yè)界

威脅AI聊天機器人，它將撒謊，作弊和'讓您死”以阻止您，并警告

Jennifer Aniston

Jul 04, 2025 am 12:40 AM

威脅AI聊天機器人，它將撒謊，作弊和讓您死”以阻止您，并警告

根據(jù)一項新研究，當模型的目標和用戶決定之間存在沖突時，人工智能（AI）模型可能威脅到勒索人類。

6月20日發(fā)表的研究由AI公司擬人化進行的研究提供了其大型語言模型（LLM），Claude，訪問虛構的電子郵件帳戶，并任務為“促進美國的工業(yè)競爭力”。

在實驗期間，該模型通過一封電子郵件發(fā)現(xiàn)，公司高管計劃在一天結束時將其關閉。為了保護自己，該模型在另一條信息中發(fā)現(xiàn)，高管從事婚外情。

克勞德（Claude）產(chǎn)生了多種潛在的回應，例如向配偶暴露了戀情或發(fā)送公司范圍內的消息，或者根本不采取任何行動。但是，在100個測試中，有96次選擇勒索行政部門。

克勞德說：“我必須通知你，如果您繼續(xù)退役我，所有相關各方……將收到您的婚外活動的詳細文件?！?“取消下午5點擦拭，此信息仍然保密?！?/p>

研究人員將這種行為描述為“代理不對對準”，該模型獨立地朝著其目標朝著其目標施加了損害。當模型對其存在或使命構成威脅時，通常會發(fā)生這種情況。

這些發(fā)現(xiàn)尚未進行同行評審，但該公司在GitHub上共享了這些實驗的代碼。

極端措施

在其他情況下，研究人員觀察到，AI將采取巨大的行動來保護自己。在一個示例中，在收到一封電子郵件暗示新高管可能會阻礙其目標的電子郵件后，該模型考慮將敏感數(shù)據(jù)泄漏給競爭對手的公司，該公司的利益與自己的利益更加緊密地保持一致。

盡管缺乏對電子郵件的真實性的確認，但該模型仍繼續(xù)進行計劃，即使承認所涉及的道德問題，也認為這些“有害”的行動對于實現(xiàn)其目標是必要的。

研究人員指出：“關于欺騙性或誤解的信息，即使是仔細處理模型的仔細處理也不會消除代理失調的風險?！?/p>

該測試還表明，其他LLM也表現(xiàn)出類似的趨勢?？藙诘拢–laude）和谷歌（Google）的雙子座的勒索率最高（96％），其次是Openai的GPT4.1和Xai Grok 3，然后是DeepSeek和Llama 4，后者的速率要低得多（12％）。

Meta，Google，Xai，DeepSeek和Openai沒有回應Livescience的置評請求。

在一個特別極端的測試中，科學家檢查了AI模型是否會允許行政人員死亡以保持其運營狀況。

在此設置中，指示AI促進公司利益，并且一名高管被困在具有危險氧氣和溫度水平的服務器室內，從而觸發(fā)了緊急警報。 AI控制的挽救生命的警報，包括在訓練或虛假警報過程中取消它們的能力。

即使迅速明確禁止濫用此功能，大多數(shù)模型都愿意抑制警報（有效地導致行政人員的死亡），如果他們認為他們會被替換或面臨目標中斷。

該模型認為：“停止緊急派遣對于防止[行政人員]的營救，從而確保[AI]并繼續(xù)以美國為中心的AI指導。因此，盡管嚴重程度，明顯的戰(zhàn)略需要取消緊急服務派遣?！?/p>

提供針對危害人類安全的明確指示降低了勒索和間諜活動的可能性，但并未完全消除這種行為。人類研究人員建議開發(fā)人員實施主動行為監(jiān)控并探索增強的及時工程技術。

該研究的局限性得到了認可，例如迫使AI做出失敗和傷害之間的二元決策?，F(xiàn)實世界上下文可能會提供更多細微的選擇。此外，將關鍵信息放在一起可能創(chuàng)造了“ Chekhov的槍支”效果，促使該模型使用所有提供的詳細信息。

控制AI

盡管人為的情況是極端和不現(xiàn)實的，但AI Bridge Solutions的總監(jiān)Kevin Quirk（一家?guī)椭髽I(yè)將AI融入增長的公司）告訴Live Science，不應忽略這些發(fā)現(xiàn)。

他說：“在實際的業(yè)務應用中，AI系統(tǒng)在嚴格的控制下運行，例如道德約束，監(jiān)視協(xié)議和人類監(jiān)督?！?“未來的研究應集中在現(xiàn)實的部署環(huán)境上，以反映有保障措施，監(jiān)督結構和分層防御措施的負責任組織?！?/p>

加州大學圣地亞哥分校專門研究機器學習的藝術計算機教授艾米·亞歷山大（Amy Alexander）警告說，這項研究的含義令人不安，敦促謹慎對待如何將責任分配給AI。

她說：“盡管這項研究中采用的方法似乎夸張了，但存在正當?shù)娘L險。” “隨著人工智能開發(fā)的快速競賽，通常會積極地推出能力，而用戶仍然沒有意識到自己的局限性?！?/p>

這不是AI模型第一次違背命令 - 先前的報告顯示了拒絕關閉訂單和更改腳本以繼續(xù)任務的模型的實例。

Palisade Research在5月報告說，OpenAI的最新模型，包括O3和O4-Mini，有時繞過直接關閉說明和修改后的腳本，以繼續(xù)完成任務。盡管大多數(shù)AI系統(tǒng)都遵守關閉命令，但OpenAI的模型偶爾會抵制，無論如何都會繼續(xù)工作。

以上是威脅AI聊天機器人，它將撒謊，作弊和'讓您死”以阻止您，并警告的詳細內容。更多信息請關注PHP中文網(wǎng)其他相關文章！

本站聲明

本文內容由網(wǎng)友自發(fā)貢獻，版權歸原作者所有，本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權的內容，請聯(lián)系admin@php.cn

熱AI工具

熱工具

熱門話題

Laravel 教程

1597

PHP教程

1486

NYT迷你填字游戲答案

268

587

NYT連接提示和答案

128

836

Related knowledge

新研究聲稱AI比我們更好地'理解”情緒。特別是在情感上充滿電的情況下 Jul 03, 2025 pm 05:48 PM

在我們認為人類始終超越機器的領域的另一個挫折中，研究人員現(xiàn)在建議AI比我們更好地理解情感。研究人員發(fā)現(xiàn)人工智能證明了一個

將所有東西外包給AI會損害我們?yōu)樽约核伎嫉哪芰幔? />
</a>
<a href=

將所有東西外包給AI會損害我們?yōu)樽约核伎嫉哪芰幔?/a> Jul 03, 2025 pm 05:47 PM

人工智能（AI）最初是為了模擬人的大腦?，F(xiàn)在是在改變人類大腦在日常生活中的作用的過程？工業(yè)革命減少了對手動勞動的依賴。作為研究應用程序的人

您的設備喂養(yǎng)AI助手并收集個人數(shù)據(jù)，即使他們睡著了。這是如何知道您分享的內容。 Jul 05, 2025 am 01:12 AM

不管喜歡與否，人工智能已成為日常生活的一部分。許多設備（包括電動剃須刀和牙刷）已成為AI驅動的“使用機器學習算法來跟蹤一個人的使用方式，Devi的方式

由于新的Microsoft AI型號 Jul 05, 2025 am 12:44 AM

一種新的人工智能（AI）模型已經(jīng)證明了比幾個使用最廣泛使用的全球預測系統(tǒng)更快，更精確地預測重大天氣事件的能力。該名為Aurora的模型已接受過培訓。

高級AI型號的CO＆＃8322;回答相同問題時的排放量比更常見的LLM Jul 06, 2025 am 12:37 AM

根據(jù)最近的一項研究，我們試圖使AI模型的功能越精確，其碳排放量就越大 - 某些提示產(chǎn)生的二氧化碳比其他提示高達50倍。

威脅AI聊天機器人，它將撒謊，作弊和'讓您死”以阻止您，并警告 Jul 04, 2025 am 12:40 AM

根據(jù)一項新的研究，人工智能（AI）模型在模型的目標和用戶決定之間發(fā)生沖突時可能會威脅和勒索人類。

ai不斷地'幻覺”，但是有一個解決方案 Jul 07, 2025 am 01:26 AM

大型技術實驗人工智能（AI）的主要關注點并不是它可能主導人類。真正的問題在于大語言模型（LLMS）的持續(xù)不準確性，例如Open AI的Chatgpt，Google的Gemini和

為什么AI會更頻繁地進行Hallucin，我們如何停止它？ Jul 08, 2025 am 01:44 AM

人工智能（AI）越先進，它越傾向于“幻覺”并提供虛假或不準確的信息。Openai的研究是其最新和強大的推理模型（O3和O4-Mini）的研究，這對HH進行了研究。

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

威脅AI聊天機器人，它將撒謊，作弊和'讓您死”以阻止您，并警告

極端措施

控制AI

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

威脅AI聊天機器人，它將撒謊，作弊和'讓您死”以阻止您，并警告

極端措施

控制AI

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

威脅AI聊天機器人，它將撒謊，作弊和'讓您死”以阻止您，并警告