亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
前往Agi和ASI
關(guān)于峰頂AI的測試
圖靈測試錯(cuò)誤地惡毒
炫耀圖靈測試
問題數(shù)量
有多少個(gè)問題就足夠了
最新AI測試
擊球問題計(jì)數(shù)
設(shè)計(jì)一個(gè)稻草人數(shù)量
通過問題衡量Agi
首頁 科技周邊 人工智能 AGI和AI超級智能需要回答智力證明的問題數(shù)量

AGI和AI超級智能需要回答智力證明的問題數(shù)量

Jul 21, 2025 am 11:09 AM

AGI和AI超級智能需要回答智力證明的問題數(shù)量

這不僅僅是一個(gè)學(xué)術(shù)哲學(xué)問題。在某個(gè)時(shí)候,我們應(yīng)該準(zhǔn)備同意是否已經(jīng)達(dá)到了ASI和ASI的出現(xiàn)。這樣做的可能方法是提出AI問題,然后衡量AI生成的答案所表達(dá)的知識分子敏銳度。

那么,我們需要問多少個(gè)問題?

讓我們談?wù)劇?/p>

對創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復(fù)雜性(請參閱此處的鏈接)。

前往Agi和ASI

首先,需要一些基本原理才能為這個(gè)重大的討論奠定基礎(chǔ)。

正在進(jìn)行大量研究以進(jìn)一步提高AI。一般目標(biāo)是達(dá)到人工通用智能(AGI),甚至達(dá)到實(shí)現(xiàn)人工超智慧(ASI)的伸出的可能性。

Agi是AI,它與人類的智力相提并論,并且似乎可以符合我們的智慧。 ASI是AI,它超越了人類的智力,并且在許多甚至不是所有可行的方式上都將是優(yōu)越的。這個(gè)想法是,ASI能夠在各個(gè)轉(zhuǎn)彎處超越我們來圍繞人圈。有關(guān)傳統(tǒng)AI與AGI和ASI的性質(zhì)的更多詳細(xì)信息,請參閱此處的鏈接分析。

我們尚未獲得Agi。

實(shí)際上,尚不清楚我們是否將達(dá)到AGI,或者AGI從現(xiàn)在起幾十年甚至幾個(gè)世紀(jì)都可以實(shí)現(xiàn)。漂浮在周圍的agi達(dá)到的日期是由于任何可靠的證據(jù)或鐵克拉德邏輯而迅速變化的,并且沒有證實(shí)。當(dāng)涉及到我們目前使用常規(guī)AI的位置時(shí),ASI更加蒼白。

關(guān)于峰頂AI的測試

人類面臨的一部分困難是,我們沒有確定我們是否已達(dá)到AGI和ASI的確定測試。

有些人宣稱,當(dāng)我們看到它時(shí),我們只會知道它。換句話說,這是那些模糊的方面之一,并且掩蓋了任何類型的系統(tǒng)評估。在我們看來,總體的感覺或直覺,將使我們決定實(shí)現(xiàn)了Pinnacle AI。

時(shí)期,故事結(jié)束。

但這并不是故事的終結(jié),因?yàn)槲覀儜?yīng)該有一種更加注意的方式來確定是否獲得了Pinnacle AI。如果唯一的手段由格式塔般的情感反應(yīng)組成,那么將會產(chǎn)生很多混亂。您將有很多人宣布存在Pinnacle AI,而許多其他人會堅(jiān)持認(rèn)為該聲明完全為時(shí)過早。極大的分歧將發(fā)生。

請參閱我對已經(jīng)錯(cuò)誤地認(rèn)為他們已經(jīng)目睹了Pinnacle AI(例如Agi和Asi)的人的分析,如此處的鏈接所述。

迫切需要某種形式的善意評估或正式化事項(xiàng)的測試。

我已經(jīng)廣泛討論并分析了一項(xiàng)稱為圖靈測試的著名的Ai-Indider測試,請參見此處的鏈接。圖靈測試以著名的數(shù)學(xué)家和早期計(jì)算機(jī)科學(xué)家艾倫·圖靈(Alan Turing)的名字命名。簡而言之,這個(gè)想法是提出AI的問題,如果您無法將回答與人類會說的話區(qū)分開,您可能會宣布,AI對人類表現(xiàn)出智慧。

圖靈測試錯(cuò)誤地惡毒

如果您問AI Techie,他們對Turing測試的看法要謹(jǐn)慎。您會得到一個(gè)耳邊。這不會令人愉快。

有些人認(rèn)為圖靈測試是浪費(fèi)時(shí)間。他們會爭辯說,它不能正常工作并且已經(jīng)過時(shí)了。據(jù)說我們已經(jīng)超越了它的實(shí)用性。您會發(fā)現(xiàn),這是艾倫·圖靈(Alan Turing)于1949年設(shè)計(jì)的測試。那是75年前。很久以前,顯然什么都不能適用于我們的現(xiàn)代AI時(shí)代。

其他人會傲慢地告訴您,圖靈測試已經(jīng)成功通過。換句話說,據(jù)稱,現(xiàn)有的AI通過了圖靈測試。許多橫幅頭條是這樣說的。因此,圖靈測試并不多于實(shí)用性,因?yàn)槲覀冎牢覀冞€沒有Pinnacle AI,但是圖靈測試似乎說我們這樣做了。

我一再試圖就此事進(jìn)行直截了當(dāng)?shù)挠涗?。真正的故事是,圖靈測試已被不當(dāng)應(yīng)用。那些聲稱圖靈測試已經(jīng)通過的人正在使用著名的測試方法快速而松散。

炫耀圖靈測試

圖靈測試中漏洞的一部分是問題和問題類型的數(shù)量未指定。這取決于選擇依靠圖靈測試來決定這些關(guān)鍵方面的人或團(tuán)隊(duì)。這會導(dǎo)致不幸的麻煩和有問題的結(jié)果。

假設(shè)我決定在Chatgpt上進(jìn)行圖靈測試,這是4億人每周使用的非常受歡迎的生成AI和大型語言模型(LLM)。我將尋求提出可以問Chatgpt的問題。我還將問我最親密的朋友的同樣問題,以查看他們給出的答案。

如果我無法將答案與我的朋友與Chatgpt區(qū)分開,我將簡單而大聲地宣布Chatgpt通過了Turing測試。這個(gè)想法是,生成的AI成功地模仿了人類的智力,以至于人類提供的答案和AI-提供的答案本質(zhì)上是相同的。

在提出了五十個(gè)問題之后,有些很容易,有些很難,我繼續(xù)進(jìn)行圖靈測試。 Chatgpt回答了每個(gè)問題,我的朋友也是如此。 AI的答案和我朋友的答案幾乎是無法區(qū)分的。

瞧,我可以開始告訴世界Chatgpt通過了圖靈測試。我只花了大約一個(gè)小時(shí)才能解決這個(gè)問題。我花了一半的時(shí)間提出問題,一半的時(shí)間得到了各自的答案。

輕松。

問題數(shù)量

這是您思考的想法。

您是否認(rèn)為提出五十個(gè)問題足以確定智力敏銳度是否存在?

這似乎不夠。如果我們將AGI定義為AI的一種形式,它將與人類智力的整個(gè)范圍和深度相提并論,尤其是這樣。事實(shí)證明,我對圖靈測試提出的問題并不包括有關(guān)化學(xué),生物學(xué)以及許多其他學(xué)科或領(lǐng)域的任何內(nèi)容。

為什么我不包括那些領(lǐng)域?

好吧,我選擇了五十個(gè)問題。

在僅五十個(gè)問題中,您不能在所有人類知識中要求任何深度和廣度。當(dāng)然,您可以作弊并提出一個(gè)懇請?jiān)撊嘶駻I的問題,以使他們所知道的一切搖搖欲墜。在這種情況下,大概在某個(gè)時(shí)候,“答案”將包括化學(xué),生物學(xué)等。這不是一個(gè)可行的方法,正如我在此處的鏈接上討論的那樣,讓我們拋開廣泛的中風(fēng)問題并旨在提出特定問題,而不是smarmy,而不是所有問題。

有多少個(gè)問題就足夠了

我相信您愿意承認(rèn),在執(zhí)行試圖確定智力能力的測試時(shí),問題的數(shù)量很重要。讓我們嘗試提出一個(gè)有意義的數(shù)字。

我們可以從數(shù)字零開始。有些人認(rèn)為我們不必問一個(gè)問題。 AI有責(zé)任說服我們已經(jīng)達(dá)到了AGI或ASI。因此,我們只能坐下來看看AI對我們說的話。我們要么最終被平穩(wěn)的談話說服,要么我們不是。

零方法的一個(gè)大問題是,人工智能可以無休止地吹牛,并且可能只是在做所有已構(gòu)圖的一切。提出問題的美之處在于,您有機(jī)會跳來跳去并可能找到空白。如果AI只在吐出一切,那么羊毛很容易被拉到您的眼睛上。

我建議我們同意使用非零計(jì)數(shù)。我們應(yīng)該至少問一個(gè)問題。被束縛在一個(gè)問題上的困難是,我們又回到了缺少船只,只擊中一個(gè)特定的掘金的難題,或者我們將以過于廣泛的方式要求整個(gè)廚房水槽。這些都不令人滿意。

好的,我們必須至少提出兩個(gè)或更多問題。我敢說兩個(gè)看起來不夠高。十個(gè)似乎有足夠的問題嗎?可能不是。那一百個(gè)問題呢?似乎還不夠。一千個(gè)問題?一萬個(gè)問題?十萬個(gè)問題?

很難判斷正確的數(shù)字在哪里。也許我們可以在這個(gè)主題上進(jìn)行面條,并找出一個(gè)合理意義的球場估計(jì)。

讓我們這樣做。

最新AI測試

您可能會知道,每次AI最高的AI制造商之一都出現(xiàn)新版本的生成AI時(shí),他們都會進(jìn)行一系列各種AI評估測試,以嘗試與其他競爭的LLM相比,嘗試展示其AI的好數(shù)。

例如,最近發(fā)布了Elon Musk的Xai的Grok 4,而Xai和其他人使用了許多專業(yè)測試,這些測試變得相對流行,以了解Grok 4的比較。測試包括(a)人類的最后考試或HLE,(b)ARC-AGI-2,(c)GPQA,(d)usamo 2025,(e)Aime 2025,(f)livecodebench,(g)SWE-BENCHEN,(G)SWE-BENCANCE和其他此類測試。

其中一些測試與AI能夠生成程序代碼有關(guān)(例如LiveCodeBench,SWE-Bench)。一些測試是關(guān)于能夠解決數(shù)學(xué)問題(例如,USAMO,AIME)。 GPQA測試是針對科學(xué)的。

您知道GPQA測試集中有多少個(gè)問題嗎?

總共有546個(gè)問題,其中包括448個(gè)主要問題,在較硬的鉆石集中還有另外198個(gè)問題。

If you are interested in the nature of the questions in GPQA, visit the GPQA GitHub site, plus you might find of interest the initial paper entitled “GPQA: A Graduate-Level Google-Proof Q&A Benchmark” by David Rein et al, arXiv , November 20, 2023. Per that paper: “We present GPQA, a challenging dataset of 448 multiple choice questions written by domain experts in biology, physics, and化學(xué)。我們確保問題是高質(zhì)量且極其困難的:在相應(yīng)的領(lǐng)域中攻讀博士學(xué)位的專家達(dá)到了65%的精度(在回顧中確定的明確錯(cuò)誤時(shí),有74%的人在回顧中確定的專家,而在30分鐘的時(shí)間內(nèi),高度熟練的非Expert驗(yàn)證者只能達(dá)到34%

請注意,您可能會聽到一些眉毛刺激的說法,即由于GPQA測試中的特定分?jǐn)?shù),生成的AI比所有領(lǐng)域的博士學(xué)位級別的研究生更好。這是一個(gè)令人嘆為觀止的聲明,誤導(dǎo)地描繪了通常正在進(jìn)行的實(shí)際測試。

簡而言之,任何這樣的宣言都應(yīng)用巨大的鹽顆粒進(jìn)行。

擊球問題計(jì)數(shù)

假設(shè)我們提出了自己的方便測試,該測試有博士學(xué)位的問題。該測試總共有600個(gè)問題。我們將解決與6個(gè)領(lǐng)域有關(guān)的600個(gè)問題,即使如此,我們將繼續(xù)使用(1)物理學(xué)的六個(gè)領(lǐng)域,(2)化學(xué),(3)生物學(xué),(4)地質(zhì),(5)天文學(xué)和(6)海洋學(xué)。這意味著我們將在每個(gè)學(xué)科中有100個(gè)問題。例如,關(guān)于物理學(xué)將有100個(gè)問題。

您是否可以通過向人類提出有關(guān)物理學(xué)的100個(gè)問題的一組來確定我們能夠確定其全部知識和物理知識能力的深度?

我懷疑。您當(dāng)然可以評估他們物理理解的表象??赡艿氖牵挥?00個(gè)問題,您只是在抽樣他們的知識。這是足夠大的抽樣,還是我們應(yīng)該問更多問題?

另一個(gè)考慮因素是,我們只問有關(guān)6個(gè)領(lǐng)域的問題。所有其他領(lǐng)域呢?我們還沒有包括有關(guān)氣象,人類學(xué),經(jīng)濟(jì)學(xué),政治學(xué),考古,歷史,法律,語言學(xué)等的任何問題。

如果我們想評估諸如希望的AGI之類的AI,我們可能需要涵蓋所有可能的領(lǐng)域。我們還需要每個(gè)域中有足夠的問題計(jì)數(shù),以便我們感到舒適,以使我們的采樣深入越來越深。

設(shè)計(jì)一個(gè)稻草人數(shù)量

和我一起去想出一個(gè)稻草人的旅程。我們的目標(biāo)將是標(biāo)志性的估計(jì),而不是確切的數(shù)字本身。我們想擁有一個(gè)球場,所以我們知道球場的范圍是什么。

我們將開始冒險(xiǎn),指出美國國會圖書館擁有一套廣泛的主題標(biāo)題,通常稱為LCSH(國會圖書館主題標(biāo)題)。 LCSH始于1897年,此后已進(jìn)行更新和維護(hù)。 LCSH通常被認(rèn)為是世界上使用最廣泛的主題詞匯。

順便說一句,有些人喜歡LCSH,有些人不喜歡。關(guān)于某些主題標(biāo)題是否有必要,有激烈的辯論。關(guān)于某些主題標(biāo)題的措辭,有激烈的辯論。在話語上進(jìn)行。我不會在這里涉水。

截至2025年4月,LCSH的數(shù)量為388,594個(gè)記錄。為了進(jìn)行這個(gè)球場討論,我將把這個(gè)數(shù)字舍入400,000。我們可以對此進(jìn)行疑問,并詢問所有這些主題標(biāo)題是否具有獨(dú)特性和可用性,但我目前尚未采用那條路線。

假設(shè)我們?yōu)槊總€(gè)LCSH主題標(biāo)題提出了一個(gè)問題,以便無論該領(lǐng)域或紀(jì)律包含什么,我們都會問一個(gè)問題。然后,我們將有400,000個(gè)問題被提出。

每個(gè)領(lǐng)域的一個(gè)問題似乎還不夠。

考慮這些可能性:

  • (a)400k問題:1個(gè)問題x 400k lcsh
  • (b)4M問題:10個(gè)問題x 400k lcsh
  • (c)40m問題:100個(gè)問題x 400k lcsh
  • (d)400m問題:1,000個(gè)問題x 400k lcsh
  • (e) 4b問題: 10,000個(gè)問題x 400k lcsh
  • (f) 40b問題: 100,000個(gè)問題x 400k lcsh
  • (g)400b問題:1M問題x 400k lcsh
  • ETC。

如果我們選擇每個(gè)LCSH有10,000個(gè)問題的選擇,我們將需要提出40億個(gè)問題。這是很多問題。但是,也許只問10,000個(gè)問題,每個(gè)領(lǐng)域都不夠。我們可能會提出100,000個(gè)問題,然后將總計(jì)達(dá)到400億個(gè)問題。

通過問題衡量Agi

在所有“已知”領(lǐng)域中,提出一個(gè)潛在的AGI是否有十億或數(shù)十億個(gè)問題,即4b至40b,似乎是一個(gè)足夠的測試范圍和深度?

一些批評家會說這是霍格瓦什。您不需要問很多問題。它是巨大的過度殺傷力。您可以使用較小的數(shù)字。如果是這樣,那是什么數(shù)字?該提議的計(jì)數(shù)的理由是什么?這個(gè)數(shù)字會按數(shù)十億美元的數(shù)千或數(shù)百萬的命令?而且不要試圖通過說計(jì)數(shù)某種方式是無定形的或完全不確定的。

在數(shù)十億美元的稻草人案中,懷疑論者會說,您不可能提出十億或更多的問題。它在邏輯上是不可行的。即使可以,您也將永遠(yuǎn)無法評估這些問題給出的答案。經(jīng)過數(shù)十億個(gè)答案將永遠(yuǎn)需要。您需要在人類知識的所有領(lǐng)域的專家來判斷答案是對還是錯(cuò)。

反駁是,除了被測試的AGI以外,我們可以使用AI(AI)來幫助這項(xiàng)工作。那也有局勢和弊端。我將在即將發(fā)表的帖子中介紹這一考慮。在手表上。

肯定有很多問題要考慮和處理。當(dāng)前的非常嚴(yán)重的事情值得解決這些方面。請記住,我們關(guān)注的是如何知道我們已經(jīng)達(dá)到了AGI。這是一個(gè)巨大的問題。我們應(yīng)該準(zhǔn)備提出足夠的問題,我們可以共同且合理地得出結(jié)論AGI的達(dá)成。

正如阿爾伯特·愛因斯坦(Albert Einstein)恰當(dāng)?shù)卣f:“從昨天開始學(xué)習(xí),今天活著,希望明天。重要的是不要停止質(zhì)疑?!?/p>

以上是AGI和AI超級智能需要回答智力證明的問題數(shù)量的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購買,建立或合作伙伴才能獲得優(yōu)勢?這是評估每個(gè)選項(xiàng)和PR的方法

AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復(fù)雜性(請參閱此處的鏈接)。 前往Agi和

Kimi K2:最強(qiáng)大的開源代理模型 Kimi K2:最強(qiáng)大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開源中國模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

未來預(yù)測從AI到AGI的道路上的大規(guī)模情報(bào)爆炸 未來預(yù)測從AI到AGI的道路上的大規(guī)模情報(bào)爆炸 Jul 02, 2025 am 11:19 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復(fù)雜性(請參閱此處的鏈接)。對于那些讀者

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處于設(shè)計(jì)理念和部署平臺的相反端,但他們卻在

推理模型的思想鏈可能無法長期解決 推理模型的思想鏈可能無法長期解決 Jul 02, 2025 am 11:18 AM

例如,如果您向模型提出一個(gè)問題,例如:“(x)人在(x)公司做什么?”您可能會看到一個(gè)看起來像這樣的推理鏈,假設(shè)系統(tǒng)知道如何檢索必要的信息:找到有關(guān)CO的詳細(xì)信息

這家初創(chuàng)公司在印度建立了一家醫(yī)院來測試其AI軟件 這家初創(chuàng)公司在印度建立了一家醫(yī)院來測試其AI軟件 Jul 02, 2025 am 11:14 AM

臨床試驗(yàn)是藥物開發(fā)中的巨大瓶頸,Kim和Reddy認(rèn)為他們在PI Health建立的AI-Spainite軟件可以通過擴(kuò)大潛在符合條件的患者的庫來更快,更便宜。但是

參議院殺死了特朗普的預(yù)算法案中的10年州AI禁令 參議院殺死了特朗普的預(yù)算法案中的10年州AI禁令 Jul 02, 2025 am 11:16 AM

參議院星期二早上以99-1投票,殺死了暫停,在倡導(dǎo)團(tuán)體,立法者和成千上萬的美國人中的最后一分鐘的騷動(dòng)中,他們將其視為危險(xiǎn)的過度。他們沒有保持安靜。參議院傾聽。國家保持

See all articles