一个人免费观看视频在线中文 ,а天堂网最新版在线,国产精品久久二区二区

語(yǔ)言本質(zhì)上有限

衡量真實(shí)性？

獎(jiǎng)勵(lì)的動(dòng)力

技術(shù)哲學(xué)

首頁(yè)

科技周邊

人工智能

推理模型的思想鏈可能無(wú)法長(zhǎng)期解決

Barbara Streisand

Jul 02, 2025 am 11:18 AM

推理模型的思想鏈可能無(wú)法長(zhǎng)期解決

例如，如果您向模型提出一個(gè)問(wèn)題，例如：“（x）人在（x）公司做什么？”您可能會(huì)看到一個(gè)看起來(lái)像這樣的推理鏈，假設(shè)系統(tǒng)知道如何檢索必要的信息：

找到有關(guān)公司的詳細(xì)信息
確定目錄中的人
評(píng)估人的角色和背景
編譯摘要點(diǎn)

這是一個(gè)基本情況，但是幾年來(lái)，人們?cè)絹?lái)越依賴這種推理鏈。

然而，研究人員開(kāi)始指出思想鏈推理的缺點(diǎn)，這表明這可能使我們對(duì)AI生成的響應(yīng)的可靠性具有毫無(wú)根據(jù)的信心。

語(yǔ)言本質(zhì)上有限

理解推理鏈的局限性的一種方法是認(rèn)識(shí)到語(yǔ)言本身的不精確，以及有效基準(zhǔn)測(cè)試的難度。

語(yǔ)言本質(zhì)上是尷尬的。全球有數(shù)百種語(yǔ)言，因此希望一臺(tái)機(jī)器清楚地表達(dá)其內(nèi)部邏輯，任何一種語(yǔ)言都有很大的限制。

考慮一下由擬人化的研究論文，由多個(gè)學(xué)者合著。

這樣的研究表明，經(jīng)過(guò)思考的解釋缺乏真正準(zhǔn)確性所需的深度，尤其是在模型擴(kuò)大并表現(xiàn)出更先進(jìn)的性能時(shí)。

還考慮梅蘭妮·米切爾（Melanie Mitchell）在2023年在替代方面提出的一個(gè)想法，就像Cot方法越來(lái)越受歡迎一樣：

米切爾指出：“推理在于人類(lèi)智能的核心，實(shí)現(xiàn)強(qiáng)大的通用推理一直是AI的核心目標(biāo)?！?“盡管大型語(yǔ)言模型（LLMS）沒(méi)有明確訓(xùn)練理性，但它們顯示出像推理一樣的行為。但是這些是真正的抽象思維的跡象，還是由較不可靠的機(jī)制驅(qū)動(dòng) - 例如基于訓(xùn)練數(shù)據(jù)的記憶和模式匹配？”

米切爾隨后質(zhì)疑為什么這種區(qū)別很重要。

她解釋說(shuō)：“如果LLM確實(shí)具有強(qiáng)大的一般推理能力，那就暗示他們正在向值得信賴的人工通用情報(bào)邁進(jìn)?！?“但是，如果他們的能力主要依靠記憶模式，我們不能相信他們可以在他們已經(jīng)看到的范圍之外處理任務(wù)?！?/p>

衡量真實(shí)性？

艾倫·圖靈（Alan Turing）在20世紀(jì)中葉提出了圖靈測(cè)試 - 我們可以判斷機(jī)器如何模仿人類(lèi)行為的想法。我們還可以使用高級(jí)基準(zhǔn)測(cè)試LLMS-測(cè)試他們解決數(shù)學(xué)問(wèn)題或解決復(fù)雜認(rèn)知任務(wù)的能力。

但是，我們?nèi)绾未_定一臺(tái)機(jī)器是否是真實(shí)的 - 或者，正如一些研究人員所說(shuō)的“忠實(shí)”？

前面提到的論文深入研究了LLM輸出中忠誠(chéng)的主題。通過(guò)閱讀它，我得出的結(jié)論是，以數(shù)學(xué)精度不是的方式，真實(shí)性是主觀的。這意味著我們?cè)u(píng)估機(jī)器是否誠(chéng)實(shí)的能力非常有限。

這是另一種查看它的方法 - 我們知道，當(dāng)LLM響應(yīng)提示時(shí)，它們本質(zhì)上是通過(guò)在線上大量的人工寫(xiě)的文本進(jìn)行掃描并模仿它。他們復(fù)制事實(shí)知識(shí)，復(fù)制推理風(fēng)格，并反映了人類(lèi)如何交流（包括逃避策略，遺漏，甚至是簡(jiǎn)單和復(fù)雜形式的故意欺騙）。

獎(jiǎng)勵(lì)的動(dòng)力

此外，本文的作者認(rèn)為，在追逐激勵(lì)措施時(shí)，LLM的行為可能與人類(lèi)相似。如果導(dǎo)致獎(jiǎng)勵(lì)，他們可以優(yōu)先考慮某些不準(zhǔn)確或誤導(dǎo)性信息。

他們將其稱為“獎(jiǎng)勵(lì)黑客”。

作者說(shuō)：“獎(jiǎng)勵(lì)黑客是有問(wèn)題的。” “即使它適合一項(xiàng)特定任務(wù)，它也不太可能轉(zhuǎn)移到其他任務(wù)上。這使該模型充其量無(wú)效，甚至可能危險(xiǎn) - 想象一下一種自動(dòng)駕駛汽車(chē)，優(yōu)化了速度和忽略紅燈以提高效率?！?/p>

充其量是無(wú)用的，最糟糕的是風(fēng)險(xiǎn) - 這并不令人放心。

技術(shù)哲學(xué)

這里還有另一個(gè)關(guān)鍵角度值得探索。

評(píng)估推理鏈本身并不是技術(shù)問(wèn)題。它不取決于模型具有多少參數(shù)，如何調(diào)整這些權(quán)重或如何求解特定方程。相反，它取決于培訓(xùn)數(shù)據(jù)以及如何直觀地解釋它。換句話說(shuō)，該討論涉及在評(píng)估模型時(shí)很少與專(zhuān)家互動(dòng)的領(lǐng)域。

這讓我再次想到，我們需要以前提倡的事情 - 新一代的專(zhuān)業(yè)哲學(xué)家，他們幫助我們?yōu)g覽AI互動(dòng)。我們不僅需要依靠編碼人員，還需要能夠?qū)⒕哂猩詈?，直觀的人類(lèi)思想應(yīng)用于歷史和社會(huì)價(jià)值觀的思想家。我們?cè)谶@個(gè)領(lǐng)域遠(yuǎn)遠(yuǎn)落后，因?yàn)槲覀儙缀跬耆珜?zhuān)注于雇用Python開(kāi)發(fā)人員。

我現(xiàn)在會(huì)走下肥皂盒，但是要點(diǎn)很明確：超越經(jīng)過(guò)思考的方法可能需要重新思考我們?nèi)绾闻嘤?xùn)和雇用與AI相關(guān)的角色。

以上是推理模型的思想鏈可能無(wú)法長(zhǎng)期解決的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請(qǐng)聯(lián)系admin@php.cn