Ini lebih daripada sekadar kebimbangan falsafah akademik. Pada satu ketika, kita harus bersedia untuk bersetuju sama ada kedatangan ASI dan ASI telah dicapai. Cara yang mungkin untuk berbuat demikian memerlukan soalan-soalan mengenai AI dan kemudian mengukur kepintaran intelektual yang dinyatakan oleh jawapan yang dihasilkan oleh AI.
Jadi, berapa banyak soalan yang perlu kita tanya?
Mari kita bercakap mengenainya.
Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini).
Menuju ke Agi dan ASI
Pertama, beberapa asas diperlukan untuk menetapkan peringkat untuk perbincangan berat ini.
Terdapat banyak penyelidikan yang berlaku untuk memajukan AI. Matlamat umum adalah sama ada mencapai kecerdasan umum buatan (AGI) atau mungkin juga kemungkinan terulur untuk mencapai superintelligence buatan (ASI).
AGI adalah AI yang dianggap setanding dengan akal manusia dan nampaknya sepadan dengan kecerdasan kita. ASI adalah AI yang telah melampaui akal manusia dan akan menjadi lebih baik dalam banyak jika tidak semua cara yang boleh dilaksanakan. Idea ini ialah ASI akan dapat mengendalikan bulatan di sekitar manusia dengan menghancurkan kita pada setiap masa. Untuk maklumat lanjut mengenai sifat AI konvensional berbanding AGI dan ASI, lihat analisis saya di pautan di sini.
Kami belum mencapai AGI.
Malah, tidak diketahui sama ada kita akan sampai ke AGI, atau mungkin AGI akan dapat dicapai dalam beberapa dekad atau mungkin berabad -abad dari sekarang. Tarikh pencapaian AGI yang terapung di sekitar adalah sangat berbeza -beza dan tidak berasas oleh sebarang bukti yang boleh dipercayai atau logik ironclad. ASI lebih melampaui pucat ketika datang ke mana kita sedang dengan AI konvensional.
Mengenai ujian untuk Pinnacle AI
Sebahagian daripada kesukaran yang dihadapi oleh manusia adalah bahawa kita tidak mempunyai ujian yang pasti untuk memastikan sama ada kita telah mencapai AGI dan ASI.
Sesetengah orang mengisytiharkan agak loftily bahawa kita hanya akan tahu apabila kita melihatnya. Dalam erti kata lain, ia adalah salah satu aspek kabur dan memungkiri apa -apa jenis penilaian sistematik. Perasaan keseluruhan atau intuitif di pihak kami akan membawa kami untuk memutuskan bahawa Pinnacle AI telah dicapai.
Tempoh, akhir cerita.
Tetapi itu tidak boleh menjadi akhir cerita kerana kita sepatutnya mempunyai cara yang lebih berhati -hati untuk menentukan sama ada Pinnacle AI telah dicapai. Jika satu-satunya cara terdiri daripada tindak balas emosi seperti Gestalt, akan ada banyak kekeliruan yang akan timbul. Anda akan mendapat banyak orang mengisytiharkan bahawa Pinnacle AI wujud, sementara banyak orang lain akan menegaskan bahawa perisytiharan itu benar -benar pramatang. Perselisihan yang besar akan berlaku.
Lihat analisis saya tentang orang -orang yang sudah benar -benar mempercayai bahawa mereka telah menyaksikan Pinnacle AI, seperti AGI dan ASI, seperti yang dibincangkan di pautan di sini.
Sesetengah bentuk penilaian atau ujian bona fide yang merumuskan perkara itu sangat diperlukan.
Saya telah banyak membincangkan dan menganalisis ujian AI-insider yang terkenal yang dikenali sebagai Ujian Turing, lihat pautan di sini. Ujian Turing dinamakan sempena ahli matematik terkenal dan saintis komputer awal Alan Turing. Ringkasnya, idea itu adalah untuk bertanya soalan AI, dan jika anda tidak dapat membezakan tanggapan dari apa yang dikatakan oleh manusia, anda mungkin mengisytiharkan bahawa AI mempamerkan kecerdasan setanding dengan manusia.
Ujian Turing palsu
Berhati -hati jika anda meminta AI Techie apa yang mereka fikirkan ujian Turing. Anda akan mendapat cukup mahal. Ia tidak akan menyenangkan.
Ada yang percaya bahawa ujian Turing adalah satu pembaziran masa. Mereka akan berhujah bahawa ia tidak berfungsi dengan sesuai dan sudah lapuk. Kami sepatutnya jauh melewati kegunaannya. Anda lihat, ia adalah ujian yang dirancang pada tahun 1949 oleh Alan Turing. Itu lebih dari 75 tahun yang lalu. Tiada apa -apa pun sejak dahulu lagi dapat diterangkan dalam era moden AI kita.
Orang lain akan bersungguh -sungguh memberitahu anda bahawa ujian Turing telah berjaya diluluskan. Dalam erti kata lain, ujian Turing telah dikatakan diluluskan oleh AI sedia ada. Banyak tajuk utama spanduk mengatakan demikian. Oleh itu, ujian Turing tidak banyak utiliti kerana kita tahu bahawa kita belum mempunyai Pinnacle AI, tetapi ujian Turing seolah -olah mengatakan bahawa kita lakukan.
Saya telah berulang kali cuba menetapkan rekod lurus mengenai perkara ini. Kisah sebenar ialah ujian Turing telah digunakan secara tidak wajar. Mereka yang mendakwa ujian Turing telah diluluskan bermain dengan cepat dan longgar dengan kaedah ujian yang terkenal.
Memamerkan ujian Turing
Sebahagian daripada kelemahan dalam ujian Turing ialah bilangan soalan dan jenis soalan tidak ditentukan. Terserah kepada orang atau pasukan yang memilih untuk bersandar ke dalam ujian Turing untuk menentukan aspek penting. Ini menyebabkan masalah malang dan hasil yang bermasalah.
Katakan bahawa saya memutuskan untuk melakukan ujian Turing di CHATGPT, AI generatif yang sangat popular dan model bahasa besar (LLM) yang 400 juta orang menggunakan mingguan. Saya akan berusaha untuk mengemukakan soalan yang boleh saya ajukan chatgpt. Saya juga akan mengemukakan soalan yang sama tentang rakan terdekat saya untuk melihat apa jawapan yang mereka berikan.
Sekiranya saya tidak dapat membezakan jawapan dari rakan manusia saya berbanding chatgpt, saya akan secara ringkas dan kuat mengisytiharkan bahawa chatgpt telah lulus ujian Turing. Idea ini adalah bahawa AI generatif telah berjaya meniru akal manusia kepada tahap bahawa jawapan yang disediakan oleh manusia dan jawapan yang disediakan AI pada dasarnya sama.
Selepas datang dengan lima puluh soalan, ada yang mudah dan beberapa yang sukar, saya meneruskan pentadbiran ujian Turing saya. Chatgpt menjawab setiap soalan, dan begitu juga rakan saya. Jawapan oleh AI dan jawapan oleh rakan saya tidak dapat dibezakan antara satu sama lain.
Voila, saya boleh mula memberitahu dunia bahawa Chatgpt telah lulus ujian Turing. Ia hanya mengambil masa kira -kira sejam untuk memikirkannya. Saya menghabiskan separuh masa datang dengan soalan -soalan, dan separuh masa mendapat jawapan masing -masing.
Mudah-peasy.
Bilangan soalan
Inilah pemikiran untuk anda merenung.
Adakah anda percaya bahawa meminta lima puluh soalan cukup untuk menentukan sama ada kecerdasan intelektual wujud?
Itu entah bagaimana tidak mencukupi. Ini terutama berlaku jika kita menentukan AGI sebagai satu bentuk AI yang akan secara intelektual setanding dengan seluruh julat dan kedalaman akal manusia. Ternyata soalan -soalan yang saya temui untuk menjalankan ujian Turing saya tidak termasuk apa -apa tentang kimia, biologi, dan banyak disiplin atau domain lain.
Mengapa saya tidak memasukkan alam itu?
Nah, saya telah memilih untuk mengarang hanya lima puluh soalan.
Anda tidak boleh meminta sebarang kedalaman dan keluasan di seluruh pengetahuan manusia dalam lima puluh soalan semata -mata. Pasti, anda boleh menipu dan mengemukakan soalan yang memohon kepada orang atau AI untuk mengetuk semua yang mereka tahu. Dalam hal ini, mungkin, pada satu ketika, "jawapan" akan termasuk kimia, biologi, dan lain-lain. Itu bukan pendekatan yang berdaya maju, seperti yang saya bincangkan di pautan di sini, jadi mari kita mengetepikan soalan-soalan yang luas dan bertujuan untuk soalan-soalan tertentu dan bukannya soalan-soalan yang menarik.
Berapa banyak soalan yang mencukupi
Saya percaya bahawa anda sanggup mengakui bahawa bilangan soalan adalah penting apabila melakukan ujian yang cuba memastikan keupayaan intelektual. Mari cuba tampil dengan nombor yang masuk akal.
Kita boleh mulakan dengan nombor sifar. Ada yang percaya bahawa kita tidak perlu bertanya walaupun satu soalan. AI mempunyai tanggungjawab untuk meyakinkan kita bahawa ia telah mencapai Agi atau ASI. Oleh itu, kita hanya boleh duduk dan melihat apa yang dikatakan oleh AI kepada kita. Kami sama ada akhirnya yakin dengan bercakap yang lancar, atau kami tidak.
Masalah besar dengan pendekatan sifar adalah bahawa AI boleh membantah tanpa henti dan mungkin hanya melakukan pembuangan segala -galanya yang telah dicorak. Keindahan bertanya soalan ialah anda mendapat peluang untuk melompat dan berpotensi mencari tempat kosong. Sekiranya AI hanya memancarkan apa sahaja yang dikatakannya, bulu itu dapat ditarik ke atas mata anda.
Saya cadangkan kami bersetuju menggunakan kiraan bukan sifar. Kita harus bertanya sekurang -kurangnya satu soalan. Kesukaran untuk dikekang dengan satu soalan ialah kita kembali kepada teka -teki sama ada kehilangan bot dan hanya memukul satu nugget tertentu, atau kita akan meminta seluruh tenggelam dapur dengan cara yang terlalu luas. Tidak ada yang memuaskan.
Baiklah, kita mesti bertanya sekurang -kurangnya dua atau lebih soalan. Saya berani mengatakan bahawa dua tidak kelihatan cukup tinggi. Adakah sepuluh kelihatan seperti soalan yang cukup? Mungkin tidak. Bagaimana dengan seratus soalan? Masih tidak mencukupi. Seribu soalan? Sepuluh ribu soalan? Seratus ribu soalan?
Sukar untuk menilai di mana nombor yang betul mungkin. Mungkin kita boleh mi pada topik ini dan memikirkan anggaran ballpark yang masuk akal.
Mari buat begitu.
Ujian Terkini AI Top
Anda mungkin tahu bahawa setiap kali salah satu pembuat AI teratas keluar dengan versi baru AI generatif mereka, mereka menjalankan banyak ujian penilaian AI untuk mencuba dan dengan gembira mempamerkan betapa lebih baik AI mereka daripada LLM yang bersaing.
Sebagai contoh, Grok 4 oleh Elon Musk's Xai baru -baru ini dibebaskan, dan Xai dan lain -lain menggunakan banyak ujian khusus yang telah menjadi agak popular untuk melihat bagaimana Grok 4 membandingkan. Ujian termasuk peperiksaan atau HLE terakhir (a), (b) arc-AGI-2, (c) GPQA, (d) USAMO 2025, (e) AIME 2025, (f) LiveCodeBench, (g) SWE-Bench, dan ujian sedemikian.
Sebahagian daripada ujian tersebut mempunyai kaitan dengan AI yang dapat menjana kod program (misalnya, LiveCodeBench, SWE-Bench). Beberapa ujian adalah tentang dapat menyelesaikan masalah matematik (misalnya, USAMO, AIME). Ujian GPQA berorientasikan sains.
Adakah anda tahu berapa banyak soalan dalam set ujian GPQA?
Terdapat sejumlah 546 soalan, yang terdiri daripada 448 soalan dalam set utama dan 198 lagi soalan dalam set berlian yang lebih keras.
Jika anda berminat dengan sifat soalan-soalan di GPQA, lawati laman web GPQA GitHub, dan anda mungkin mendapat minat kertas awal yang bertajuk "GPQA: A BioSTAS , ARXIV. dan kimia.
Harap maklum bahawa anda mungkin mendengar beberapa dakwaan penjanaan kening bahawa AI generatif lebih baik daripada pelajar siswazah peringkat PhD di semua domain kerana skor tertentu pada ujian GPQA. Ia adalah kenyataan yang menyapu dan mengelirukan menggambarkan ujian sebenar yang biasanya berlaku.
Singkatnya, sebarang pengisytiharan sedemikian harus diambil dengan sebiji garam humongous.
Melekatkan kiraan soalan
Katakan kami tampil dengan ujian berguna kami sendiri yang mempunyai soalan peringkat PhD. Ujian ini akan mempunyai 600 soalan secara keseluruhan. Kami akan membuat 600 soalan yang berkaitan dengan 6 domain, sama rata, dan kami akan pergi dengan enam domain (1) fizik, (2) kimia, (3) biologi, (4) geologi, (5) astronomi, dan (6) oseanografi. Ini bermakna kita akan mempunyai 100 soalan dalam setiap disiplin. Sebagai contoh, terdapat 100 soalan mengenai fizik.
Adakah anda selesa dengan meminta manusia menjadi satu set 100 soalan mengenai fizik yang kita akan dapat menentukan keseluruhan julat dan kedalaman pengetahuan penuh dan kehebatan intelektual mereka dalam fizik?
Saya meragukannya. Anda pasti akan dapat mengukur persefahaman fizik mereka. Kemungkinannya adalah dengan hanya 100 soalan, anda hanya mengambil pengetahuan mereka. Adakah itu persampelan yang cukup besar, atau adakah kita akan bertanya lebih banyak soalan?
Satu lagi pertimbangan ialah kita hanya bertanya soalan mengenai 6 domain. Bagaimana dengan semua domain lain? Kami tidak memasukkan sebarang soalan mengenai meteorologi, antropologi, ekonomi, sains politik, arkeologi, sejarah, undang -undang, linguistik, dll.
Jika kita mahu menilai AI seperti yang diharapkan-untuk AGI, kita mungkin perlu menutup setiap domain yang mungkin. Kami juga perlu mempunyai kiraan soalan yang cukup tinggi setiap domain supaya kami selesa bahawa persampelan kami semakin mendalam.
Merangka Kira Lelaki Jerami
Pergi bersama saya dalam perjalanan untuk datang dengan kiraan orang jerami. Matlamat kami akan menjadi anggaran pesanan-magnitud, bukannya nombor yang tepat. Kami mahu mempunyai taman permainan, jadi kami akan tahu apa julat taman permainan.
Kami akan memulakan pengembaraan dengan menyatakan bahawa Perpustakaan Kongres AS mempunyai satu set tajuk subjek yang luas, yang biasanya dikenali sebagai LCSH (Tajuk Subjek Perpustakaan Kongres). LCSH dimulakan pada tahun 1897 dan telah dikemas kini dan dikekalkan sejak itu. LCSH umumnya dianggap sebagai perbendaharaan kata subjek yang paling banyak digunakan di dunia.
Sebagai tambahan, sesetengah orang memihak kepada LCSH dan ada yang tidak. Terdapat perdebatan yang hangat mengenai sama ada tajuk subjek tertentu dibenarkan. Terdapat perdebatan yang mengasyikkan mengenai kata -kata beberapa tajuk subjek. Pada dan pada wacana berjalan. Saya tidak akan menyeberang ke tempat itu di sini.
Kiraan LCSH pada April 2025 adalah 388,594 rekod dalam saiz. Saya akan mengadakan nombor itu kepada 400,000, demi perbincangan bola sepak ini. Kita boleh berdebat, bersama -sama dengan quibbling sama ada semua tajuk subjek itu tersendiri dan boleh digunakan, tetapi saya tidak mengambil laluan itu buat masa ini.
Katakan kami datang dengan satu soalan untuk setiap tajuk subjek LCSH, supaya apa sahaja domain atau disiplin terdiri daripada, kami akan bertanya satu soalan mengenainya. Kami kemudian akan mempunyai 400,000 soalan yang sedia untuk diminta.
Satu soalan setiap alam tidak mencukupi.
Pertimbangkan kemungkinan ini:
- (a) Soalan 400k: 1 Soalan x 400k lcsh
- (b) Soalan 4m: 10 soalan x 400k lcsh
- (c) Soalan 40m: 100 Soalan x 400k LCSH
- (d) Soalan 400m: 1,000 soalan x 400k LCSH
- (e) Soalan 4b: 10,000 Soalan x 400k LCSH
- (f) Soalan 40b: 100,000 soalan x 400k lcsh
- (g) Soalan 400B: 1m Soalan x 400k LCSH
- Dll.
Jika kita memilih pemilihan mempunyai 10,000 soalan setiap LCSHS, kita perlu membuat 4 bilion soalan. Itu banyak soalan. Tetapi mungkin hanya meminta 10,000 soalan tidak mencukupi untuk setiap alam. Kami mungkin pergi dengan 100,000 soalan, yang kemudiannya membawa jumlah besar kepada 40 bilion soalan.
Mengukur agi melalui soalan
Adakah meminta potensi AGI satu bilion atau berbilion soalan, iaitu, 4b hingga 40b, yang sama -sama berubah di semua domain "diketahui", nampaknya menjadi julat dan kedalaman ujian yang mencukupi?
Beberapa pengkritik akan mengatakan bahawa ia adalah Hogwash. Anda tidak perlu bertanya banyak soalan. Ia sangat berlebihan. Anda boleh menggunakan nombor yang lebih kecil. Sekiranya ya, berapa nombor itu? Dan apakah justifikasi untuk kiraan yang dicadangkan itu? Adakah bilangannya akan mengikut perintah beribu -ribu atau berjuta -juta, jika tidak dalam berbilion -bilion? Dan jangan cuba itik perkara itu dengan mengatakan bahawa kiraan itu entah bagaimana amorf atau sama sekali tidak pasti.
Dalam The Straw Man Case of Millions, Skeptics akan mengatakan bahawa anda tidak boleh membuat satu bilion atau lebih soalan. Ia secara logistik tidak dapat dilaksanakan. Walaupun anda boleh, anda tidak akan dapat menilai jawapan yang diberikan kepada soalan -soalan tersebut. Ia akan mengambil masa selama -lamanya untuk melalui berbilion -bilion jawapan. Dan anda memerlukan pakar di semua bidang pengetahuan manusia untuk menilai sama ada jawapannya betul atau salah.
Sebuah kaunter adalah bahawa kita berpotensi menggunakan AI, AI selain daripada yang diuji AGI, untuk membantu dalam usaha. Itu juga mempunyai kecemasan dan kelemahan. Saya akan merangkumi pertimbangan itu dalam jawatan yang akan datang. Berada di jam tangan.
Sudah tentu ada banyak isu yang perlu dipertimbangkan dan ditangani. Perkara yang sangat serius di tangan adalah layak untuk menangani aspek -aspek ini. Ingat, kita memberi tumpuan kepada bagaimana kita akan tahu bahawa kita telah sampai ke AGI. Itu soalan yang besar. Kita harus bersedia untuk bertanya soalan yang cukup yang kita dapat secara kolektif dan munasabah menyimpulkan bahawa AGI telah dicapai.
Seperti yang dikatakan Albert Einstein: "Belajar dari semalam, hidup untuk hari ini, Hope for Tomorrow. Yang penting bukan untuk berhenti mempersoalkan."
Atas ialah kandungan terperinci Bilangan soalan yang perlu dijawab oleh AGI dan AI.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Pelaburan adalah berkembang pesat, tetapi modal sahaja tidak mencukupi. Dengan penilaian yang semakin meningkat dan tersendiri pudar, pelabur dalam dana usaha yang berfokus pada AI mesti membuat keputusan utama: Beli, membina, atau rakan kongsi untuk mendapatkan kelebihan? Inilah cara menilai setiap pilihan dan PR

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Menuju ke Agi dan

Ingat banjir model Cina sumber terbuka yang mengganggu industri Genai awal tahun ini? Walaupun Deepseek mengambil sebahagian besar tajuk utama, Kimi K1.5 adalah salah satu nama yang terkenal dalam senarai. Dan model itu agak sejuk.

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Bagi pembaca yang h

Menjelang pertengahan tahun 2025, AI "perlumbaan senjata" dipanaskan, dan Xai dan Anthropic kedua-duanya mengeluarkan model perdana mereka, Grok 4 dan Claude 4. Kedua-dua model ini berada di hujung falsafah reka bentuk dan platform penempatan, namun mereka

Sebagai contoh, jika anda bertanya kepada model soalan seperti: "Apa yang dilakukan oleh orang (x) di (x) syarikat?" Anda mungkin melihat rantaian pemikiran yang kelihatan seperti ini, dengan asumsi sistem tahu bagaimana untuk mendapatkan maklumat yang diperlukan: mencari butiran mengenai CO

Senat mengundi 99-1 pagi Selasa untuk membunuh moratorium selepas kegemparan terakhir dari kumpulan advokasi, penggubal undang-undang dan puluhan ribu rakyat Amerika yang melihatnya sebagai penindasan berbahaya. Mereka tidak diam. Senat mendengarkan.

Ujian klinikal adalah kesesakan besar dalam pembangunan dadah, dan Kim dan Reddy menganggap perisian AI-enabled yang mereka bina di PI Health dapat membantu melakukannya dengan lebih cepat dan lebih murah dengan memperluaskan kumpulan pesakit yang berpotensi yang layak. Tetapi yang
