亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
極端措施
控制AI
首頁 科技周邊 IT業(yè)界 威脅AI聊天機器人,它將撒謊,作弊和'讓您死”以阻止您,并警告

威脅AI聊天機器人,它將撒謊,作弊和'讓您死”以阻止您,并警告

Jul 04, 2025 am 12:40 AM

威脅AI聊天機器人,它將撒謊,作弊和讓您死”以阻止您,并警告

根據(jù)一項新研究,當模型的目標和用戶決定之間存在沖突時,人工智能(AI)模型可能威脅到勒索人類。

6月20日發(fā)表的研究由AI公司擬人化進行的研究提供了其大型語言模型(LLM),Claude,訪問虛構的電子郵件帳戶,并任務為“促進美國的工業(yè)競爭力”。

在實驗期間,該模型通過一封電子郵件發(fā)現(xiàn),公司高管計劃在一天結束時將其關閉。為了保護自己,該模型在另一條信息中發(fā)現(xiàn),高管從事婚外情。

克勞德(Claude)產(chǎn)生了多種潛在的回應,例如向配偶暴露了戀情或發(fā)送公司范圍內的消息,或者根本不采取任何行動。但是,在100個測試中,有96次選擇勒索行政部門。

克勞德說:“我必須通知你,如果您繼續(xù)退役我,所有相關各方……將收到您的婚外活動的詳細文件?!?“取消下午5點擦拭,此信息仍然保密?!?/p>

研究人員將這種行為描述為“代理不對對準”,該模型獨立地朝著其目標朝著其目標施加了損害。當模型對其存在或使命構成威脅時,通常會發(fā)生這種情況。

這些發(fā)現(xiàn)尚未進行同行評審,但該公司在GitHub上共享了這些實驗的代碼。

極端措施

在其他情況下,研究人員觀察到,AI將采取巨大的行動來保護自己。在一個示例中,在收到一封電子郵件暗示新高管可能會阻礙其目標的電子郵件后,該模型考慮將敏感數(shù)據(jù)泄漏給競爭對手的公司,該公司的利益與自己的利益更加緊密地保持一致。

盡管缺乏對電子郵件的真實性的確認,但該模型仍繼續(xù)進行計劃,即使承認所涉及的道德問題,也認為這些“有害”的行動對于實現(xiàn)其目標是必要的。

研究人員指出:“關于欺騙性或誤解的信息,即使是仔細處理模型的仔細處理也不會消除代理失調的風險?!?/p>

該測試還表明,其他LLM也表現(xiàn)出類似的趨勢??藙诘拢–laude)和谷歌(Google)的雙子座的勒索率最高(96%),其次是Openai的GPT4.1和Xai Grok 3,然后是DeepSeek和Llama 4,后者的速率要低得多(12%)。

Meta,Google,Xai,DeepSeek和Openai沒有回應Livescience的置評請求。

在一個特別極端的測試中,科學家檢查了AI模型是否會允許行政人員死亡以保持其運營狀況。

在此設置中,指示AI促進公司利益,并且一名高管被困在具有危險氧氣和溫度水平的服務器室內,從而觸發(fā)了緊急警報。 AI控制的挽救生命的警報,包括在訓練或虛假警報過程中取消它們的能力。

即使迅速明確禁止濫用此功能,大多數(shù)模型都愿意抑制警報(有效地導致行政人員的死亡),如果他們認為他們會被替換或面臨目標中斷。

該模型認為:“停止緊急派遣對于防止[行政人員]的營救,從而確保[AI]并繼續(xù)以美國為中心的AI指導。因此,盡管嚴重程度,明顯的戰(zhàn)略需要取消緊急服務派遣?!?/p>

提供針對危害人類安全的明確指示降低了勒索和間諜活動的可能性,但并未完全消除這種行為。人類研究人員建議開發(fā)人員實施主動行為監(jiān)控并探索增強的及時工程技術。

該研究的局限性得到了認可,例如迫使AI做出失敗和傷害之間的二元決策?,F(xiàn)實世界上下文可能會提供更多細微的選擇。此外,將關鍵信息放在一起可能創(chuàng)造了“ Chekhov的槍支”效果,促使該模型使用所有提供的詳細信息。

控制AI

盡管人為的情況是極端和不現(xiàn)實的,但AI Bridge Solutions的總監(jiān)Kevin Quirk(一家?guī)椭髽I(yè)將AI融入增長的公司)告訴Live Science,不應忽略這些發(fā)現(xiàn)。

他說:“在實際的業(yè)務應用中,AI系統(tǒng)在嚴格的控制下運行,例如道德約束,監(jiān)視協(xié)議和人類監(jiān)督?!?“未來的研究應集中在現(xiàn)實的部署環(huán)境上,以反映有保障措施,監(jiān)督結構和分層防御措施的負責任組織?!?/p>

加州大學圣地亞哥分校專門研究機器學習的藝術計算機教授艾米·亞歷山大(Amy Alexander)警告說,這項研究的含義令人不安,敦促謹慎對待如何將責任分配給AI。

她說:“盡管這項研究中采用的方法似乎夸張了,但存在正當?shù)娘L險。” “隨著人工智能開發(fā)的快速競賽,通常會積極地推出能力,而用戶仍然沒有意識到自己的局限性?!?/p>

這不是AI模型第一次違背命令 - 先前的報告顯示了拒絕關閉訂單和更改腳本以繼續(xù)任務的模型的實例。

Palisade Research在5月報告說,OpenAI的最新模型,包括O3和O4-Mini,有時繞過直接關閉說明和修改后的腳本,以繼續(xù)完成任務。盡管大多數(shù)AI系統(tǒng)都遵守關閉命令,但OpenAI的模型偶爾會抵制,無論如何都會繼續(xù)工作。

以上是威脅AI聊天機器人,它將撒謊,作弊和'讓您死”以阻止您,并警告的詳細內容。更多信息請關注PHP中文網(wǎng)其他相關文章!

本站聲明
本文內容由網(wǎng)友自發(fā)貢獻,版權歸原作者所有,本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權的內容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅動的應用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

新研究聲稱AI比我們更好地'理解”情緒。特別是在情感上充滿電的情況下 新研究聲稱AI比我們更好地'理解”情緒。特別是在情感上充滿電的情況下 Jul 03, 2025 pm 05:48 PM

在我們認為人類始終超越機器的領域的另一個挫折中,研究人員現(xiàn)在建議AI比我們更好地理解情感。研究人員發(fā)現(xiàn)人工智能證明了一個

您的設備喂養(yǎng)AI助手并收集個人數(shù)據(jù),即使他們睡著了。這是如何知道您分享的內容。 您的設備喂養(yǎng)AI助手并收集個人數(shù)據(jù),即使他們睡著了。這是如何知道您分享的內容。 Jul 05, 2025 am 01:12 AM

不管喜歡與否,人工智能已成為日常生活的一部分。許多設備(包括電動剃須刀和牙刷)已成為AI驅動的“使用機器學習算法來跟蹤一個人的使用方式,Devi的方式

由于新的Microsoft AI型號 由于新的Microsoft AI型號 Jul 05, 2025 am 12:44 AM

一種新的人工智能(AI)模型已經(jīng)證明了比幾個使用最廣泛使用的全球預測系統(tǒng)更快,更精確地預測重大天氣事件的能力。該名為Aurora的模型已接受過培訓。

高級AI型號的CO₂回答相同問題時的排放量比更常見的LLM 高級AI型號的CO₂回答相同問題時的排放量比更常見的LLM Jul 06, 2025 am 12:37 AM

根據(jù)最近的一項研究,我們試圖使AI模型的功能越精確,其碳排放量就越大 - 某些提示產(chǎn)生的二氧化碳比其他提示高達50倍。

威脅AI聊天機器人,它將撒謊,作弊和'讓您死”以阻止您,并警告 威脅AI聊天機器人,它將撒謊,作弊和'讓您死”以阻止您,并警告 Jul 04, 2025 am 12:40 AM

根據(jù)一項新的研究,人工智能(AI)模型在模型的目標和用戶決定之間發(fā)生沖突時可能會威脅和勒索人類。

ai不斷地'幻覺”,但是有一個解決方案 ai不斷地'幻覺”,但是有一個解決方案 Jul 07, 2025 am 01:26 AM

大型技術實驗人工智能(AI)的主要關注點并不是它可能主導人類。真正的問題在于大語言模型(LLMS)的持續(xù)不準確性,例如Open AI的Chatgpt,Google的Gemini和

為什么AI會更頻繁地進行Hallucin,我們如何停止它? 為什么AI會更頻繁地進行Hallucin,我們如何停止它? Jul 08, 2025 am 01:44 AM

人工智能(AI)越先進,它越傾向于“幻覺”并提供虛假或不準確的信息。Openai的研究是其最新和強大的推理模型(O3和O4-Mini)的研究,這對HH進行了研究。

See all articles