


Rantaian pemikiran untuk model pemikiran mungkin tidak berjaya jangka panjang
Jul 02, 2025 am 11:18 AMSebagai contoh, jika anda bertanya kepada model soalan seperti: "Apa (x) orang lakukan di (x) syarikat?" Anda mungkin melihat rantaian pemikiran yang kelihatan seperti ini, dengan asumsi sistem tahu bagaimana untuk mendapatkan maklumat yang diperlukan:
- Mencari maklumat mengenai syarikat
- Mengenal pasti orang dalam direktori
- Menilai peranan dan latar belakang seseorang
- Menyusun mata ringkasan
Ini adalah kes asas, tetapi selama beberapa tahun sekarang, orang semakin bergantung pada rantaian penalaran sedemikian.
Walau bagaimanapun, para penyelidik mula menunjukkan kelemahan pemikiran rantaian yang dipikirkan, menunjukkan ia dapat memberi kita keyakinan yang tidak berasas dalam kebolehpercayaan respons AI yang dihasilkan.
Bahasa sememangnya terhad
Salah satu cara untuk memahami batas rantaian pemikiran adalah dengan mengiktiraf ketepatan bahasa itu sendiri - dan kesukaran untuk menanda arasnya dengan berkesan.
Bahasa sememangnya janggal. Terdapat beratus -ratus bahasa yang dituturkan secara global, jadi mengharapkan mesin dengan jelas mengartikulasikan logik dalamannya dalam mana -mana satu datang dengan kekangan yang ketara.
Pertimbangkan petikan ini dari kertas penyelidikan yang diterbitkan oleh Anthropic , yang dikarang oleh pelbagai ulama.
Kajian sedemikian menyiratkan bahawa penjelasan rantai yang tidak diperlukan kekurangan kedalaman yang diperlukan untuk ketepatan sebenar, terutamanya apabila model meningkatkan dan menunjukkan prestasi yang lebih maju.
Juga pertimbangkan idea yang dibangkitkan oleh Melanie Mitchell pada Subtack pada tahun 2023 , sama seperti kaedah COT semakin popular:
"Penalaran terletak pada teras kecerdasan manusia, dan mencapai alasan yang teguh, tujuan umum telah lama menjadi matlamat utama di AI," kata Mitchell. "Walaupun model bahasa yang besar (LLM) tidak dilatih secara jelas untuk alasan, mereka telah menunjukkan tingkah laku yang kelihatan seperti penalaran.
Mitchell kemudian mempersoalkan mengapa perbezaan ini penting.
"Jika LLMS benar -benar mempunyai keupayaan penalaran umum yang kuat, itu akan mencadangkan mereka membuat kemajuan ke arah kecerdasan umum buatan yang boleh dipercayai," jelasnya. "Tetapi jika kebolehan mereka bergantung pada corak menghafal, kita tidak boleh mempercayai mereka untuk mengendalikan tugas di luar skop apa yang telah mereka lihat."
Mengukur kebenaran?
Alan Turing mencadangkan Ujian Turing pada pertengahan abad ke-20-idea bahawa kita dapat menilai bagaimana mesin rapat meniru tingkah laku manusia. Kami juga boleh menilai LLM menggunakan tanda aras peringkat tinggi-menguji keupayaan mereka untuk menyelesaikan masalah matematik atau menangani tugas kognitif yang kompleks.
Tetapi bagaimana kita menentukan sama ada mesin adalah benar - atau, seperti yang dikatakan oleh beberapa penyelidik, "setia"?
Kertas yang disebutkan sebelumnya menyelam ke dalam topik mengukur kesetiaan dalam output LLM. Dari membacanya, saya menyimpulkan bahawa kebenaran adalah subjektif dengan cara yang ketepatan matematik tidak. Ini bermakna keupayaan kita untuk menilai sama ada mesin menjadi jujur ??agak terhad.
Berikut adalah satu lagi cara untuk melihatnya-kita tahu bahawa apabila LLMs bertindak balas terhadap arahan, mereka pada dasarnya mengimbas melalui sejumlah besar teks yang ditulis oleh manusia dalam talian dan meniru. Mereka menyalin pengetahuan fakta, meniru gaya penalaran, dan mencerminkan bagaimana manusia berkomunikasi - termasuk taktik yang mengelak, ketinggalan, dan penipuan yang disengajakan dalam kedua -dua bentuk yang mudah dan canggih.
Pemacu untuk ganjaran
Di samping itu, penulis kertas berhujah bahawa LLM mungkin berkelakuan sama dengan manusia ketika mengejar insentif. Mereka boleh mengutamakan maklumat tertentu yang tidak tepat atau mengelirukan jika ia membawa kepada ganjaran.
Mereka merujuk kepada ini sebagai "penggodaman ganjaran."
"Ganjaran penggodaman bermasalah," kata penulis. "Walaupun ia berfungsi dengan baik untuk satu tugas tertentu, ia tidak mungkin dipindahkan kepada orang lain. Ini menjadikan model tidak berkesan, dan mungkin berbahaya-bayangkan kereta memandu sendiri mengoptimumkan untuk kelajuan dan mengabaikan lampu merah untuk meningkatkan kecekapan."
Tidak berguna, berisiko paling teruk - itu tidak meyakinkan.
Falsafah Teknologi
Terdapat satu lagi sudut penting di sini yang patut diterokai.
Menilai rantaian pemikiran bukanlah isu teknikal. Ia tidak bergantung kepada berapa parameter model yang ada, bagaimana beratnya diselaraskan, atau bagaimana menyelesaikan persamaan tertentu. Sebaliknya, ia bergantung pada data latihan dan bagaimana ia ditafsirkan secara intuitif. Berikan yang berbeza, perbincangan ini melibatkan bidang -bidang yang pakar kuantitatif jarang terlibat apabila menilai model.
Ini membuatkan saya berfikir lagi bahawa kita memerlukan sesuatu yang saya telah menganjurkan sebelum ini - generasi baru ahli falsafah profesional yang membantu kita menavigasi interaksi AI. Daripada hanya bergantung pada coders, kita memerlukan pemikir yang mampu memohon idea -idea manusia yang mendalam, sering intuitif, yang berakar dalam sejarah dan nilai -nilai masyarakat kepada kecerdasan buatan. Kami jauh di belakang di kawasan ini kerana kami telah memberi tumpuan hampir sepenuhnya untuk menyewa pemaju Python.
Saya akan melepaskan kotak sabun saya sekarang, tetapi takeaway adalah jelas: bergerak melampaui pendekatan rantai yang mungkin memerlukan pemikiran semula bagaimana kita melatih dan menyewa peranan yang berkaitan dengan AI.
Atas ialah kandungan terperinci Rantaian pemikiran untuk model pemikiran mungkin tidak berjaya jangka panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Pelaburan adalah berkembang pesat, tetapi modal sahaja tidak mencukupi. Dengan penilaian yang semakin meningkat dan tersendiri pudar, pelabur dalam dana usaha yang berfokus pada AI mesti membuat keputusan utama: Beli, membina, atau rakan kongsi untuk mendapatkan kelebihan? Inilah cara menilai setiap pilihan dan PR

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Menuju ke Agi dan

Ingat banjir model Cina sumber terbuka yang mengganggu industri Genai awal tahun ini? Walaupun Deepseek mengambil sebahagian besar tajuk utama, Kimi K1.5 adalah salah satu nama yang terkenal dalam senarai. Dan model itu agak sejuk.

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Bagi pembaca yang h

Menjelang pertengahan tahun 2025, AI "perlumbaan senjata" dipanaskan, dan Xai dan Anthropic kedua-duanya mengeluarkan model perdana mereka, Grok 4 dan Claude 4. Kedua-dua model ini berada di hujung falsafah reka bentuk dan platform penempatan, namun mereka

Sebagai contoh, jika anda bertanya kepada model soalan seperti: "Apa yang dilakukan oleh orang (x) di (x) syarikat?" Anda mungkin melihat rantaian pemikiran yang kelihatan seperti ini, dengan asumsi sistem tahu bagaimana untuk mendapatkan maklumat yang diperlukan: mencari butiran mengenai CO

Ujian klinikal adalah kesesakan besar dalam pembangunan dadah, dan Kim dan Reddy menganggap perisian AI-enabled yang mereka bina di PI Health dapat membantu melakukannya dengan lebih cepat dan lebih murah dengan memperluaskan kumpulan pesakit yang berpotensi yang layak. Tetapi yang

Senat mengundi 99-1 pagi Selasa untuk membunuh moratorium selepas kegemparan terakhir dari kumpulan advokasi, penggubal undang-undang dan puluhan ribu rakyat Amerika yang melihatnya sebagai penindasan berbahaya. Mereka tidak diam. Senat mendengarkan.
