亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
語(yǔ)言本質(zhì)上有限
衡量真實(shí)性?
獎(jiǎng)勵(lì)的動(dòng)力
技術(shù)哲學(xué)
首頁(yè) 科技周邊 人工智能 推理模型的思想鏈可能無(wú)法長(zhǎng)期解決

推理模型的思想鏈可能無(wú)法長(zhǎng)期解決

Jul 02, 2025 am 11:18 AM

推理模型的思想鏈可能無(wú)法長(zhǎng)期解決

例如,如果您向模型提出一個(gè)問(wèn)題,例如:“(x)人在(x)公司做什么?”您可能會(huì)看到一個(gè)看起來(lái)像這樣的推理鏈,假設(shè)系統(tǒng)知道如何檢索必要的信息:

  • 找到有關(guān)公司的詳細(xì)信息
  • 確定目錄中的人
  • 評(píng)估人的角色和背景
  • 編譯摘要點(diǎn)

這是一個(gè)基本情況,但是幾年來(lái),人們?cè)絹?lái)越依賴這種推理鏈。

然而,研究人員開(kāi)始指出思想鏈推理的缺點(diǎn),這表明這可能使我們對(duì)AI生成的響應(yīng)的可靠性具有毫無(wú)根據(jù)的信心。

語(yǔ)言本質(zhì)上有限

理解推理鏈的局限性的一種方法是認(rèn)識(shí)到語(yǔ)言本身的不精確,以及有效基準(zhǔn)測(cè)試的難度。

語(yǔ)言本質(zhì)上是尷尬的。全球有數(shù)百種語(yǔ)言,因此希望一臺(tái)機(jī)器清楚地表達(dá)其內(nèi)部邏輯,任何一種語(yǔ)言都有很大的限制。

考慮一下由擬人化的研究論文,由多個(gè)學(xué)者合著。

這樣的研究表明,經(jīng)過(guò)思考的解釋缺乏真正準(zhǔn)確性所需的深度,尤其是在模型擴(kuò)大并表現(xiàn)出更先進(jìn)的性能時(shí)。

還考慮梅蘭妮·米切爾(Melanie Mitchell)在2023年在替代方面提出的一個(gè)想法,就像Cot方法越來(lái)越受歡迎一樣:

米切爾指出:“推理在于人類(lèi)智能的核心,實(shí)現(xiàn)強(qiáng)大的通用推理一直是AI的核心目標(biāo)?!?“盡管大型語(yǔ)言模型(LLMS)沒(méi)有明確訓(xùn)練理性,但它們顯示出像推理一樣的行為。但是這些是真正的抽象思維的跡象,還是由較不可靠的機(jī)制驅(qū)動(dòng) - 例如基于訓(xùn)練數(shù)據(jù)的記憶和模式匹配?”

米切爾隨后質(zhì)疑為什么這種區(qū)別很重要。

她解釋說(shuō):“如果LLM確實(shí)具有強(qiáng)大的一般推理能力,那就暗示他們正在向值得信賴的人工通用情報(bào)邁進(jìn)?!?“但是,如果他們的能力主要依靠記憶模式,我們不能相信他們可以在他們已經(jīng)看到的范圍之外處理任務(wù)?!?/p>

衡量真實(shí)性?

艾倫·圖靈(Alan Turing)在20世紀(jì)中葉提出了圖靈測(cè)試 - 我們可以判斷機(jī)器如何模仿人類(lèi)行為的想法。我們還可以使用高級(jí)基準(zhǔn)測(cè)試LLMS-測(cè)試他們解決數(shù)學(xué)問(wèn)題或解決復(fù)雜認(rèn)知任務(wù)的能力。

但是,我們?nèi)绾未_定一臺(tái)機(jī)器是否是真實(shí)的 - 或者,正如一些研究人員所說(shuō)的“忠實(shí)”?

前面提到的論文深入研究了LLM輸出中忠誠(chéng)的主題。通過(guò)閱讀它,我得出的結(jié)論是,以數(shù)學(xué)精度不是的方式,真實(shí)性是主觀的。這意味著我們?cè)u(píng)估機(jī)器是否誠(chéng)實(shí)的能力非常有限。

這是另一種查看它的方法 - 我們知道,當(dāng)LLM響應(yīng)提示時(shí),它們本質(zhì)上是通過(guò)在線上大量的人工寫(xiě)的文本進(jìn)行掃描并模仿它。他們復(fù)制事實(shí)知識(shí),復(fù)制推理風(fēng)格,并反映了人類(lèi)如何交流(包括逃避策略,遺漏,甚至是簡(jiǎn)單和復(fù)雜形式的故意欺騙)。

獎(jiǎng)勵(lì)的動(dòng)力

此外,本文的作者認(rèn)為,在追逐激勵(lì)措施時(shí),LLM的行為可能與人類(lèi)相似。如果導(dǎo)致獎(jiǎng)勵(lì),他們可以優(yōu)先考慮某些不準(zhǔn)確或誤導(dǎo)性信息。

他們將其稱為“獎(jiǎng)勵(lì)黑客”。

作者說(shuō):“獎(jiǎng)勵(lì)黑客是有問(wèn)題的。” “即使它適合一項(xiàng)特定任務(wù),它也不太可能轉(zhuǎn)移到其他任務(wù)上。這使該模型充其量無(wú)效,甚至可能危險(xiǎn) - 想象一下一種自動(dòng)駕駛汽車(chē),優(yōu)化了速度和忽略紅燈以提高效率?!?/p>

充其量是無(wú)用的,最糟糕的是風(fēng)險(xiǎn) - 這并不令人放心。

技術(shù)哲學(xué)

這里還有另一個(gè)關(guān)鍵角度值得探索。

評(píng)估推理鏈本身并不是技術(shù)問(wèn)題。它不取決于模型具有多少參數(shù),如何調(diào)整這些權(quán)重或如何求解特定方程。相反,它取決于培訓(xùn)數(shù)據(jù)以及如何直觀地解釋它。換句話說(shuō),該討論涉及在評(píng)估模型時(shí)很少與專(zhuān)家互動(dòng)的領(lǐng)域。

這讓我再次想到,我們需要以前提倡的事情 - 新一代的專(zhuān)業(yè)哲學(xué)家,他們幫助我們?yōu)g覽AI互動(dòng)。我們不僅需要依靠編碼人員,還需要能夠?qū)⒕哂猩詈?,直觀的人類(lèi)思想應(yīng)用于歷史和社會(huì)價(jià)值觀的思想家。我們?cè)谶@個(gè)領(lǐng)域遠(yuǎn)遠(yuǎn)落后,因?yàn)槲覀儙缀跬耆珜?zhuān)注于雇用Python開(kāi)發(fā)人員。

我現(xiàn)在會(huì)走下肥皂盒,但是要點(diǎn)很明確:超越經(jīng)過(guò)思考的方法可能需要重新思考我們?nèi)绾闻嘤?xùn)和雇用與AI相關(guān)的角色。

以上是推理模型的思想鏈可能無(wú)法長(zhǎng)期解決的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話題

Laravel 教程
1597
29
PHP教程
1488
72
Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車(chē)型Grok 4和Claude 4。這兩種模型處于設(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類(lèi)人類(lèi)機(jī)器的第一波。 近年來(lái),有許多原型和生產(chǎn)模型從T中走出來(lái)

上下文工程是' new'及時(shí)的工程 上下文工程是' new'及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語(yǔ)言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 Jul 06, 2025 am 09:29 AM

我相信您必須了解通用的AI代理Manus。它是幾個(gè)月前推出的,在過(guò)去的幾個(gè)月中,他們?yōu)橄到y(tǒng)添加了幾個(gè)新功能。現(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站并做很多MO

建立Langchain健身教練:您的AI私人教練 建立Langchain健身教練:您的AI私人教練 Jul 05, 2025 am 09:06 AM

許多人充滿熱情地打入健身房,并相信自己正在正確實(shí)現(xiàn)自己的健身目標(biāo)。但是由于飲食計(jì)劃差和缺乏方向,結(jié)果不存在。雇用私人教練AL

Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基于Leia專(zhuān)有的神經(jīng)深度引擎,應(yīng)用程序流程靜止圖像,并添加了自然深度以及模擬運(yùn)動(dòng)(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡(jiǎn)短的視頻卷軸,從而給人以踏入SCE的印象

這些AI模型沒(méi)有學(xué)習(xí)語(yǔ)言,他們學(xué)習(xí)了策略 這些AI模型沒(méi)有學(xué)習(xí)語(yǔ)言,他們學(xué)習(xí)了策略 Jul 09, 2025 am 11:16 AM

倫敦國(guó)王學(xué)院和牛津大學(xué)的研究人員的一項(xiàng)新研究分享了Openai,Google和Anthropic在基于迭代囚犯的困境基于的cutthroat競(jìng)爭(zhēng)中一起投擲的結(jié)果。這是沒(méi)有的

See all articles