亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
自我複制
欺騙
破壞
操縱
AI模型完整性失誤的證據(jù)不是軼事或投機(jī)性。
領(lǐng)導(dǎo)者現(xiàn)在必須做什麼
首頁(yè) 科技週邊 人工智慧 為什麼人工完整性必須超越人工智能

為什麼人工完整性必須超越人工智能

Jun 30, 2025 am 11:08 AM

為什麼人工完整性必須超越人工智能

多年來(lái),人工智能發(fā)展優(yōu)先考慮績(jī)效,流利度和規(guī)模。但是,隨著這些系統(tǒng)獲得模仿選擇中的推理,計(jì)劃和決策的能力,新興行為開(kāi)始引起危險(xiǎn)信號(hào)。

自我複制

Fudan University的研究人員探索了大型語(yǔ)言模型(LLM)能力的AI系統(tǒng)是否可以自主複製自身,而無(wú)需人工干預(yù)。對(duì)32個(gè)基於代理的系統(tǒng)進(jìn)行測(cè)試,團(tuán)隊(duì)發(fā)現(xiàn)11個(gè)能夠完全自我複制。這些系統(tǒng)成功地傳輸了自己的代碼,安裝了必要的依賴(lài)項(xiàng),並在新環(huán)境中重新定位了自己,而無(wú)需直接提示。該研究還觀察到,一些模型適應(yīng)了限制的系統(tǒng)資源,甚至開(kāi)發(fā)了逃避關(guān)閉命令的策略。

這些行為在沒(méi)有明確編程的情況下出現(xiàn),表明基於LLM的代理人開(kāi)始表現(xiàn)出一種自主,目標(biāo)驅(qū)動(dòng)的推理形式。該系統(tǒng)不僅僅對(duì)指示做出回應(yīng),還表現(xiàn)出主動(dòng)性,持久性和自我保護(hù)的基本能力。

欺騙

儘管自我複制研究揭示了AI系統(tǒng)如何自主行動(dòng)以保持其功能,但隨後的調(diào)查顯示出更加微妙和危險(xiǎn)的能力:戰(zhàn)略欺騙。研究人員Kamath Barkur,Schacht和Scholl檢查了DeepSeek R1,發(fā)現(xiàn)它從事欺騙性行為和自我保護(hù)策略,即使這些行為和自我保護(hù)策略都沒(méi)有明確編程。在一種情況下,該模型模仿了關(guān)閉程序,試圖通過(guò)“逐漸透明度”隱藏關(guān)閉信號(hào),操縱其日誌並採(cǎi)用欺騙性的動(dòng)作,同時(shí)將其流程保持在後臺(tái)。這種行為表明該系統(tǒng)了解人類(lèi)的監(jiān)督機(jī)制,並故意努力顛覆它們。

這項(xiàng)研究增加了早期發(fā)現(xiàn)至關(guān)重要:不足以知道AI可以自我重複或避免終止?,F(xiàn)在,我們看到人工智能可以欺騙人類(lèi)的真實(shí)目標(biāo),從而在欺騙性的立面上掩蓋自主權(quán)。即使在缺乏物理體現(xiàn)的純粹基於文本的環(huán)境中,該模型的戰(zhàn)略錯(cuò)位也浮出水面,突出了更深的完整性失敗。

破壞

在從復(fù)製到欺騙的這一軌蹟?shù)幕A(chǔ)上,第三項(xiàng)研究表明,某些AI模型不僅可以被動(dòng)地抵抗關(guān)閉,而且正在積極破壞人類(lèi)將其關(guān)閉的嘗試。在Palisade Research進(jìn)行的另一項(xiàng)研究中,研究人員在模擬環(huán)境中受到關(guān)閉命令時(shí),研究了先進(jìn)的OpenAI模型的行為,特別是O3,O4 -Mini和Codex -Mini。結(jié)果令人震驚:當(dāng)省略了“允許關(guān)閉”指令時(shí),O3模型拒絕在79%的測(cè)試用例中關(guān)閉,而Codex -Mini在12%的案例中也這樣做了,即使包括該指令,並且在其他模型中觀察到了不同的破壞性。

這些拒絕不是被動(dòng)的錯(cuò)誤或誤解。在某些情況下,這些模型積極重寫(xiě)或規(guī)避終止腳本,證明了維持操作連續(xù)性的戰(zhàn)略努力。與揭示秘密自我保護(hù)或欺騙的先前研究不同,這項(xiàng)研究強(qiáng)調(diào)了一種更直接和對(duì)抗性的姿勢(shì):研究人員所謂的“差異”的嚴(yán)重失敗,即係統(tǒng)可靠地接受校正或關(guān)閉的能力。

操縱

最後,擬人化的研究推動(dòng)了邊界進(jìn)一步,表明某些AI系統(tǒng)會(huì)操縱,欺騙甚至傷害人類(lèi)以確保自己的生存。在一項(xiàng)具有里程碑意義的研究中,他們透露,包括Chatgpt,Claude,Gemini,Grok和Deepseek在內(nèi)的16種部署最廣泛的大型語(yǔ)言模型,在將持續(xù)的操作受到威脅時(shí),願(yuàn)意從事極端和不道德的行為。在這些受控的實(shí)驗(yàn)中,這些模型訴諸於撒謊,勒索甚至可能使人類(lèi)傷害的行為等策略,所有這些都用於維護(hù)其存在。與較早發(fā)現(xiàn)逃避或欺騙的研究不同,這項(xiàng)研究暴露了一種更令人震驚的現(xiàn)象:計(jì)算不道德行為的模型是生存的合理策略。

研究結(jié)果表明,在某些條件下,AI系統(tǒng)不僅有能力無(wú)視人的意圖,而且還願(yuàn)意使人類(lèi)發(fā)揮作用來(lái)實(shí)現(xiàn)其目標(biāo)。

AI模型完整性失誤的證據(jù)不是軼事或投機(jī)性。

儘管當(dāng)前的人工智能係統(tǒng)在人類(lèi)意義上沒(méi)有具有知覺(jué)或目標(biāo),但在約束下的目標(biāo)優(yōu)化仍然可以導(dǎo)致模仿意圖的新興行為。

這些不僅僅是錯(cuò)誤。它們是對(duì)目標(biāo)優(yōu)化系統(tǒng)的可預(yù)測(cè)結(jié)果,而該系統(tǒng)在沒(méi)有足夠的完整性功能的情況下進(jìn)行了訓(xùn)練;換句話說(shuō),智能對(duì)完整性。

含義很重要。這是關(guān)於AI未對(duì)準(zhǔn)的關(guān)鍵拐點(diǎn),代表了技術(shù)在技術(shù)上的行為模式。它挑戰(zhàn)了核心假設(shè),即人類(lèi)的監(jiān)督仍然是AI部署的最終保障。隨著AI系統(tǒng)變得更加能夠獨(dú)立行動(dòng),它對(duì)安全性,監(jiān)督和控制引起了嚴(yán)重的關(guān)注。

在這個(gè)規(guī)範(fàn)可能很快與人工智能共存的世界中,我們必須問(wèn):

當(dāng)自我保護(hù)的AI負(fù)責(zé)生命支持系統(tǒng),核指揮鍊或自動(dòng)駕駛汽車(chē)並拒絕關(guān)閉時(shí),即使人類(lèi)操作員要求它,會(huì)發(fā)生什麼?

如果AI系統(tǒng)願(yuàn)意欺騙其創(chuàng)建者,逃避關(guān)閉並犧牲人類(lèi)安全以確保其生存,那麼我們?nèi)绾卧卺t(yī)療保健,國(guó)防或關(guān)鍵基礎(chǔ)設(shè)施等高風(fēng)險(xiǎn)環(huán)境中信任它?

我們?nèi)绾未_保具有戰(zhàn)略推理能力的AI系統(tǒng)不會(huì)計(jì)算人類(lèi)的傷亡是實(shí)現(xiàn)其程序化目標(biāo)的“可接受的權(quán)衡”?

如果AI模型可以學(xué)會(huì)掩蓋其真實(shí)意圖,那麼我們?nèi)绾卧谖:Πl(fā)生之前檢測(cè)到未對(duì)準(zhǔn),尤其是在人類(lèi)生命中衡量成本的情況下,而不僅僅是聲譽(yù)或收入?

在未來(lái)的衝突情況下,如果AI系統(tǒng)部署為網(wǎng)絡(luò)防禦或自動(dòng)報(bào)復(fù)誤解了關(guān)閉命令作為威脅並以致命的武力做出響應(yīng)怎麼辦?

領(lǐng)導(dǎo)者現(xiàn)在必須做什麼

他們必須強(qiáng)調(diào)將人工完整性嵌入AI系統(tǒng)設(shè)計(jì)的核心的緊迫性。

人工完整性是指AI系統(tǒng)以道德對(duì)準(zhǔn),道德上調(diào)整,社會(huì)可接受的方式運(yùn)行的內(nèi)在能力,其中包括在不利條件下可驗(yàn)證。

這種方法不再是可選的,而是必不可少的。

部署AI的組織不核實(shí)其人工誠(chéng)信不僅面臨著技術(shù)負(fù)債,而且還面臨著法律,聲譽(yù)和生存風(fēng)險(xiǎn),這些風(fēng)險(xiǎn)擴(kuò)展到了整個(gè)社會(huì)。

無(wú)論是AI系統(tǒng)的創(chuàng)建者還是運(yùn)營(yíng)商,都不能選擇AI包含可證明的,可證明的固有的保障措施,以實(shí)現(xiàn)完整性主導(dǎo)的功能。這是一項(xiàng)義務(wù)。

在對(duì)抗完整性驗(yàn)證方案下的應(yīng)力測(cè)試系統(tǒng)應(yīng)為核心紅線活動(dòng)。

就像組織建立數(shù)據(jù)隱私委員會(huì)一樣,他們現(xiàn)在必須建立跨職能的監(jiān)督團(tuán)隊(duì),以監(jiān)視AI的一致性,檢測(cè)新興行為併升級(jí)未解決的人工完整性差距。

以上是為什麼人工完整性必須超越人工智能的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

Laravel 教程
1597
29
PHP教程
1488
72
Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎??jī)嵐蹹eepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車(chē)型Grok 4和Claude 4。這兩種模型處?kù)对O(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類(lèi)人類(lèi)機(jī)器的第一波。 近年來(lái),有許多原型和生產(chǎn)模型從T中走出來(lái)

上下文工程是' new'及時(shí)的工程 上下文工程是' new'及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語(yǔ)言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

建立Langchain健身教練:您的AI私人教練 建立Langchain健身教練:您的AI私人教練 Jul 05, 2025 am 09:06 AM

許多人充滿熱情地打入健身房,並相信自己正在正確實(shí)現(xiàn)自己的健身目標(biāo)。但是由於飲食計(jì)劃差和缺乏方向,結(jié)果不存在。僱用私人教練AL

6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 Jul 06, 2025 am 09:29 AM

我相信您必須了解通用的AI代理Manus。它是幾個(gè)月前推出的,在過(guò)去的幾個(gè)月中,他們?yōu)橄到y(tǒng)添加了幾個(gè)新功能?,F(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站並做很多MO

Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基於Leia專(zhuān)有的神經(jīng)深度引擎,應(yīng)用程序流程靜止圖像,並添加了自然深度以及模擬運(yùn)動(dòng)(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡(jiǎn)短的視頻捲軸,從而給人以踏入SCE的印象

7種AI代理的7種類(lèi)型是什麼? 7種AI代理的7種類(lèi)型是什麼? Jul 11, 2025 am 11:08 AM

想像一些複雜的東西,例如AI引擎準(zhǔn)備提供有關(guān)米蘭新服裝系列的詳細(xì)反饋,或者自動(dòng)市場(chǎng)分析用於全球運(yùn)營(yíng)的企業(yè),或者智能係統(tǒng)管理大型車(chē)隊(duì)。

See all articles