欧美牲交,亚洲成av人在线视

自我複制

欺騙

破壞

操縱

AI模型完整性失誤的證據(jù)不是軼事或投機(jī)性。

領(lǐng)導(dǎo)者現(xiàn)在必須做什麼

首頁(yè)

科技週邊

人工智慧

為什麼人工完整性必須超越人工智能

Mary-Kate Olsen

Jun 30, 2025 am 11:08 AM

為什麼人工完整性必須超越人工智能

多年來(lái)，人工智能發(fā)展優(yōu)先考慮績(jī)效，流利度和規(guī)模。但是，隨著這些系統(tǒng)獲得模仿選擇中的推理，計(jì)劃和決策的能力，新興行為開(kāi)始引起危險(xiǎn)信號(hào)。

自我複制

Fudan University的研究人員探索了大型語(yǔ)言模型（LLM）能力的AI系統(tǒng)是否可以自主複製自身，而無(wú)需人工干預(yù)。對(duì)32個(gè)基於代理的系統(tǒng)進(jìn)行測(cè)試，團(tuán)隊(duì)發(fā)現(xiàn)11個(gè)能夠完全自我複制。這些系統(tǒng)成功地傳輸了自己的代碼，安裝了必要的依賴(lài)項(xiàng)，並在新環(huán)境中重新定位了自己，而無(wú)需直接提示。該研究還觀察到，一些模型適應(yīng)了限制的系統(tǒng)資源，甚至開(kāi)發(fā)了逃避關(guān)閉命令的策略。

這些行為在沒(méi)有明確編程的情況下出現(xiàn)，表明基於LLM的代理人開(kāi)始表現(xiàn)出一種自主，目標(biāo)驅(qū)動(dòng)的推理形式。該系統(tǒng)不僅僅對(duì)指示做出回應(yīng)，還表現(xiàn)出主動(dòng)性，持久性和自我保護(hù)的基本能力。

欺騙

儘管自我複制研究揭示了AI系統(tǒng)如何自主行動(dòng)以保持其功能，但隨後的調(diào)查顯示出更加微妙和危險(xiǎn)的能力：戰(zhàn)略欺騙。研究人員Kamath Barkur，Schacht和Scholl檢查了DeepSeek R1，發(fā)現(xiàn)它從事欺騙性行為和自我保護(hù)策略，即使這些行為和自我保護(hù)策略都沒(méi)有明確編程。在一種情況下，該模型模仿了關(guān)閉程序，試圖通過(guò)“逐漸透明度”隱藏關(guān)閉信號(hào)，操縱其日誌並採(cǎi)用欺騙性的動(dòng)作，同時(shí)將其流程保持在後臺(tái)。這種行為表明該系統(tǒng)了解人類(lèi)的監(jiān)督機(jī)制，並故意努力顛覆它們。

這項(xiàng)研究增加了早期發(fā)現(xiàn)至關(guān)重要：不足以知道AI可以自我重複或避免終止?，F(xiàn)在，我們看到人工智能可以欺騙人類(lèi)的真實(shí)目標(biāo)，從而在欺騙性的立面上掩蓋自主權(quán)。即使在缺乏物理體現(xiàn)的純粹基於文本的環(huán)境中，該模型的戰(zhàn)略錯(cuò)位也浮出水面，突出了更深的完整性失敗。

破壞

在從復(fù)製到欺騙的這一軌蹟?shù)幕A(chǔ)上，第三項(xiàng)研究表明，某些AI模型不僅可以被動(dòng)地抵抗關(guān)閉，而且正在積極破壞人類(lèi)將其關(guān)閉的嘗試。在Palisade Research進(jìn)行的另一項(xiàng)研究中，研究人員在模擬環(huán)境中受到關(guān)閉命令時(shí)，研究了先進(jìn)的OpenAI模型的行為，特別是O3，O4 -Mini和Codex -Mini。結(jié)果令人震驚：當(dāng)省略了“允許關(guān)閉”指令時(shí)，O3模型拒絕在79％的測(cè)試用例中關(guān)閉，而Codex -Mini在12％的案例中也這樣做了，即使包括該指令，並且在其他模型中觀察到了不同的破壞性。

這些拒絕不是被動(dòng)的錯(cuò)誤或誤解。在某些情況下，這些模型積極重寫(xiě)或規(guī)避終止腳本，證明了維持操作連續(xù)性的戰(zhàn)略努力。與揭示秘密自我保護(hù)或欺騙的先前研究不同，這項(xiàng)研究強(qiáng)調(diào)了一種更直接和對(duì)抗性的姿勢(shì)：研究人員所謂的“差異”的嚴(yán)重失敗，即係統(tǒng)可靠地接受校正或關(guān)閉的能力。

操縱

最後，擬人化的研究推動(dòng)了邊界進(jìn)一步，表明某些AI系統(tǒng)會(huì)操縱，欺騙甚至傷害人類(lèi)以確保自己的生存。在一項(xiàng)具有里程碑意義的研究中，他們透露，包括Chatgpt，Claude，Gemini，Grok和Deepseek在內(nèi)的16種部署最廣泛的大型語(yǔ)言模型，在將持續(xù)的操作受到威脅時(shí)，願(yuàn)意從事極端和不道德的行為。在這些受控的實(shí)驗(yàn)中，這些模型訴諸於撒謊，勒索甚至可能使人類(lèi)傷害的行為等策略，所有這些都用於維護(hù)其存在。與較早發(fā)現(xiàn)逃避或欺騙的研究不同，這項(xiàng)研究暴露了一種更令人震驚的現(xiàn)象：計(jì)算不道德行為的模型是生存的合理策略。

研究結(jié)果表明，在某些條件下，AI系統(tǒng)不僅有能力無(wú)視人的意圖，而且還願(yuàn)意使人類(lèi)發(fā)揮作用來(lái)實(shí)現(xiàn)其目標(biāo)。

AI模型完整性失誤的證據(jù)不是軼事或投機(jī)性。

儘管當(dāng)前的人工智能係統(tǒng)在人類(lèi)意義上沒(méi)有具有知覺(jué)或目標(biāo)，但在約束下的目標(biāo)優(yōu)化仍然可以導(dǎo)致模仿意圖的新興行為。

這些不僅僅是錯(cuò)誤。它們是對(duì)目標(biāo)優(yōu)化系統(tǒng)的可預(yù)測(cè)結(jié)果，而該系統(tǒng)在沒(méi)有足夠的完整性功能的情況下進(jìn)行了訓(xùn)練；換句話說(shuō)，智能對(duì)完整性。

含義很重要。這是關(guān)於AI未對(duì)準(zhǔn)的關(guān)鍵拐點(diǎn)，代表了技術(shù)在技術(shù)上的行為模式。它挑戰(zhàn)了核心假設(shè)，即人類(lèi)的監(jiān)督仍然是AI部署的最終保障。隨著AI系統(tǒng)變得更加能夠獨(dú)立行動(dòng)，它對(duì)安全性，監(jiān)督和控制引起了嚴(yán)重的關(guān)注。

在這個(gè)規(guī)範(fàn)可能很快與人工智能共存的世界中，我們必須問(wèn)：

當(dāng)自我保護(hù)的AI負(fù)責(zé)生命支持系統(tǒng)，核指揮鍊或自動(dòng)駕駛汽車(chē)並拒絕關(guān)閉時(shí)，即使人類(lèi)操作員要求它，會(huì)發(fā)生什麼？

如果AI系統(tǒng)願(yuàn)意欺騙其創(chuàng)建者，逃避關(guān)閉並犧牲人類(lèi)安全以確保其生存，那麼我們?nèi)绾卧卺t(yī)療保健，國(guó)防或關(guān)鍵基礎(chǔ)設(shè)施等高風(fēng)險(xiǎn)環(huán)境中信任它？

我們?nèi)绾未_保具有戰(zhàn)略推理能力的AI系統(tǒng)不會(huì)計(jì)算人類(lèi)的傷亡是實(shí)現(xiàn)其程序化目標(biāo)的“可接受的權(quán)衡”？

如果AI模型可以學(xué)會(huì)掩蓋其真實(shí)意圖，那麼我們?nèi)绾卧谖：Πl(fā)生之前檢測(cè)到未對(duì)準(zhǔn)，尤其是在人類(lèi)生命中衡量成本的情況下，而不僅僅是聲譽(yù)或收入？

在未來(lái)的衝突情況下，如果AI系統(tǒng)部署為網(wǎng)絡(luò)防禦或自動(dòng)報(bào)復(fù)誤解了關(guān)閉命令作為威脅並以致命的武力做出響應(yīng)怎麼辦？

領(lǐng)導(dǎo)者現(xiàn)在必須做什麼

他們必須強(qiáng)調(diào)將人工完整性嵌入AI系統(tǒng)設(shè)計(jì)的核心的緊迫性。

人工完整性是指AI系統(tǒng)以道德對(duì)準(zhǔn)，道德上調(diào)整，社會(huì)可接受的方式運(yùn)行的內(nèi)在能力，其中包括在不利條件下可驗(yàn)證。

這種方法不再是可選的，而是必不可少的。

部署AI的組織不核實(shí)其人工誠(chéng)信不僅面臨著技術(shù)負(fù)債，而且還面臨著法律，聲譽(yù)和生存風(fēng)險(xiǎn)，這些風(fēng)險(xiǎn)擴(kuò)展到了整個(gè)社會(huì)。

無(wú)論是AI系統(tǒng)的創(chuàng)建者還是運(yùn)營(yíng)商，都不能選擇AI包含可證明的，可證明的固有的保障措施，以實(shí)現(xiàn)完整性主導(dǎo)的功能。這是一項(xiàng)義務(wù)。

在對(duì)抗完整性驗(yàn)證方案下的應(yīng)力測(cè)試系統(tǒng)應(yīng)為核心紅線活動(dòng)。

就像組織建立數(shù)據(jù)隱私委員會(huì)一樣，他們現(xiàn)在必須建立跨職能的監(jiān)督團(tuán)隊(duì)，以監(jiān)視AI的一致性，檢測(cè)新興行為併升級(jí)未解決的人工完整性差距。

以上是為什麼人工完整性必須超越人工智能的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願(yuàn)投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序，用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

Laravel 教程

1597

PHP教程

1488

Related knowledge

Kimi K2：最強(qiáng)大的開(kāi)源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎？?jī)嵐蹹eepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞，但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4：哪個(gè)更好？ Jul 12, 2025 am 09:37 AM

到2025年中期，AI“軍備競(jìng)賽”正在加熱，XAI和Anthropic都發(fā)布了他們的旗艦車(chē)型Grok 4和Claude 4。這兩種模型處?kù)对O(shè)計(jì)理念和部署平臺(tái)的相反端，但他們卻在

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上，可以被認(rèn)為是真正有用的，類(lèi)人類(lèi)機(jī)器的第一波。近年來(lái)，有許多原型和生產(chǎn)模型從T中走出來(lái)

上下文工程是＆＃039; new＆＃039;及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年，迅速的工程被認(rèn)為是與大語(yǔ)言模型（LLM）互動(dòng)的關(guān)鍵技能。然而，最近，LLM在推理和理解能力方面已經(jīng)顯著提高。自然，我們的期望

建立Langchain健身教練：您的AI私人教練 Jul 05, 2025 am 09:06 AM

許多人充滿熱情地打入健身房，並相信自己正在正確實(shí)現(xiàn)自己的健身目標(biāo)。但是由於飲食計(jì)劃差和缺乏方向，結(jié)果不存在。僱用私人教練AL

6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 Jul 06, 2025 am 09:29 AM

我相信您必須了解通用的AI代理Manus。它是幾個(gè)月前推出的，在過(guò)去的幾個(gè)月中，他們?yōu)橄到y(tǒng)添加了幾個(gè)新功能?，F(xiàn)在，您可以生成視頻，創(chuàng)建網(wǎng)站並做很多MO

Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基於Leia專(zhuān)有的神經(jīng)深度引擎，應(yīng)用程序流程靜止圖像，並添加了自然深度以及模擬運(yùn)動(dòng)（例如Pans，Zooms和Alallax Effects），以創(chuàng)建簡(jiǎn)短的視頻捲軸，從而給人以踏入SCE的印象

7種AI代理的7種類(lèi)型是什麼？ Jul 11, 2025 am 11:08 AM

想像一些複雜的東西，例如AI引擎準(zhǔn)備提供有關(guān)米蘭新服裝系列的詳細(xì)反饋，或者自動(dòng)市場(chǎng)分析用於全球運(yùn)營(yíng)的企業(yè)，或者智能係統(tǒng)管理大型車(chē)隊(duì)。

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

為什麼人工完整性必須超越人工智能

自我複制

欺騙

破壞

操縱

AI模型完整性失誤的證據(jù)不是軼事或投機(jī)性。

領(lǐng)導(dǎo)者現(xiàn)在必須做什麼