亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

Jadual Kandungan
Bahasa sememangnya terhad
Mengukur kebenaran?
Pemacu untuk ganjaran
Falsafah Teknologi
Rumah Peranti teknologi AI Rantaian pemikiran untuk model pemikiran mungkin tidak berjaya jangka panjang

Rantaian pemikiran untuk model pemikiran mungkin tidak berjaya jangka panjang

Jul 02, 2025 am 11:18 AM

Rantai pemikiran untuk model pemikiran mungkin tidak berjaya jangka panjang

Sebagai contoh, jika anda bertanya kepada model soalan seperti: "Apa (x) orang lakukan di (x) syarikat?" Anda mungkin melihat rantaian pemikiran yang kelihatan seperti ini, dengan asumsi sistem tahu bagaimana untuk mendapatkan maklumat yang diperlukan:

  • Mencari maklumat mengenai syarikat
  • Mengenal pasti orang dalam direktori
  • Menilai peranan dan latar belakang seseorang
  • Menyusun mata ringkasan

Ini adalah kes asas, tetapi selama beberapa tahun sekarang, orang semakin bergantung pada rantaian penalaran sedemikian.

Walau bagaimanapun, para penyelidik mula menunjukkan kelemahan pemikiran rantaian yang dipikirkan, menunjukkan ia dapat memberi kita keyakinan yang tidak berasas dalam kebolehpercayaan respons AI yang dihasilkan.

Bahasa sememangnya terhad

Salah satu cara untuk memahami batas rantaian pemikiran adalah dengan mengiktiraf ketepatan bahasa itu sendiri - dan kesukaran untuk menanda arasnya dengan berkesan.

Bahasa sememangnya janggal. Terdapat beratus -ratus bahasa yang dituturkan secara global, jadi mengharapkan mesin dengan jelas mengartikulasikan logik dalamannya dalam mana -mana satu datang dengan kekangan yang ketara.

Pertimbangkan petikan ini dari kertas penyelidikan yang diterbitkan oleh Anthropic , yang dikarang oleh pelbagai ulama.

Kajian sedemikian menyiratkan bahawa penjelasan rantai yang tidak diperlukan kekurangan kedalaman yang diperlukan untuk ketepatan sebenar, terutamanya apabila model meningkatkan dan menunjukkan prestasi yang lebih maju.

Juga pertimbangkan idea yang dibangkitkan oleh Melanie Mitchell pada Subtack pada tahun 2023 , sama seperti kaedah COT semakin popular:

"Penalaran terletak pada teras kecerdasan manusia, dan mencapai alasan yang teguh, tujuan umum telah lama menjadi matlamat utama di AI," kata Mitchell. "Walaupun model bahasa yang besar (LLM) tidak dilatih secara jelas untuk alasan, mereka telah menunjukkan tingkah laku yang kelihatan seperti penalaran.

Mitchell kemudian mempersoalkan mengapa perbezaan ini penting.

"Jika LLMS benar -benar mempunyai keupayaan penalaran umum yang kuat, itu akan mencadangkan mereka membuat kemajuan ke arah kecerdasan umum buatan yang boleh dipercayai," jelasnya. "Tetapi jika kebolehan mereka bergantung pada corak menghafal, kita tidak boleh mempercayai mereka untuk mengendalikan tugas di luar skop apa yang telah mereka lihat."

Mengukur kebenaran?

Alan Turing mencadangkan Ujian Turing pada pertengahan abad ke-20-idea bahawa kita dapat menilai bagaimana mesin rapat meniru tingkah laku manusia. Kami juga boleh menilai LLM menggunakan tanda aras peringkat tinggi-menguji keupayaan mereka untuk menyelesaikan masalah matematik atau menangani tugas kognitif yang kompleks.

Tetapi bagaimana kita menentukan sama ada mesin adalah benar - atau, seperti yang dikatakan oleh beberapa penyelidik, "setia"?

Kertas yang disebutkan sebelumnya menyelam ke dalam topik mengukur kesetiaan dalam output LLM. Dari membacanya, saya menyimpulkan bahawa kebenaran adalah subjektif dengan cara yang ketepatan matematik tidak. Ini bermakna keupayaan kita untuk menilai sama ada mesin menjadi jujur ??agak terhad.

Berikut adalah satu lagi cara untuk melihatnya-kita tahu bahawa apabila LLMs bertindak balas terhadap arahan, mereka pada dasarnya mengimbas melalui sejumlah besar teks yang ditulis oleh manusia dalam talian dan meniru. Mereka menyalin pengetahuan fakta, meniru gaya penalaran, dan mencerminkan bagaimana manusia berkomunikasi - termasuk taktik yang mengelak, ketinggalan, dan penipuan yang disengajakan dalam kedua -dua bentuk yang mudah dan canggih.

Pemacu untuk ganjaran

Di samping itu, penulis kertas berhujah bahawa LLM mungkin berkelakuan sama dengan manusia ketika mengejar insentif. Mereka boleh mengutamakan maklumat tertentu yang tidak tepat atau mengelirukan jika ia membawa kepada ganjaran.

Mereka merujuk kepada ini sebagai "penggodaman ganjaran."

"Ganjaran penggodaman bermasalah," kata penulis. "Walaupun ia berfungsi dengan baik untuk satu tugas tertentu, ia tidak mungkin dipindahkan kepada orang lain. Ini menjadikan model tidak berkesan, dan mungkin berbahaya-bayangkan kereta memandu sendiri mengoptimumkan untuk kelajuan dan mengabaikan lampu merah untuk meningkatkan kecekapan."

Tidak berguna, berisiko paling teruk - itu tidak meyakinkan.

Falsafah Teknologi

Terdapat satu lagi sudut penting di sini yang patut diterokai.

Menilai rantaian pemikiran bukanlah isu teknikal. Ia tidak bergantung kepada berapa parameter model yang ada, bagaimana beratnya diselaraskan, atau bagaimana menyelesaikan persamaan tertentu. Sebaliknya, ia bergantung pada data latihan dan bagaimana ia ditafsirkan secara intuitif. Berikan yang berbeza, perbincangan ini melibatkan bidang -bidang yang pakar kuantitatif jarang terlibat apabila menilai model.

Ini membuatkan saya berfikir lagi bahawa kita memerlukan sesuatu yang saya telah menganjurkan sebelum ini - generasi baru ahli falsafah profesional yang membantu kita menavigasi interaksi AI. Daripada hanya bergantung pada coders, kita memerlukan pemikir yang mampu memohon idea -idea manusia yang mendalam, sering intuitif, yang berakar dalam sejarah dan nilai -nilai masyarakat kepada kecerdasan buatan. Kami jauh di belakang di kawasan ini kerana kami telah memberi tumpuan hampir sepenuhnya untuk menyewa pemaju Python.

Saya akan melepaskan kotak sabun saya sekarang, tetapi takeaway adalah jelas: bergerak melampaui pendekatan rantai yang mungkin memerlukan pemikiran semula bagaimana kita melatih dan menyewa peranan yang berkaitan dengan AI.

Atas ialah kandungan terperinci Rantaian pemikiran untuk model pemikiran mungkin tidak berjaya jangka panjang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pelabur AI terjebak dengan terhenti? 3 Laluan Strategik untuk Membeli, Membina, atau Berkongsi dengan Vendor AI Pelabur AI terjebak dengan terhenti? 3 Laluan Strategik untuk Membeli, Membina, atau Berkongsi dengan Vendor AI Jul 02, 2025 am 11:13 AM

Pelaburan adalah berkembang pesat, tetapi modal sahaja tidak mencukupi. Dengan penilaian yang semakin meningkat dan tersendiri pudar, pelabur dalam dana usaha yang berfokus pada AI mesti membuat keputusan utama: Beli, membina, atau rakan kongsi untuk mendapatkan kelebihan? Inilah cara menilai setiap pilihan dan PR

AGI dan AI Superintelligence akan dengan ketara memukul penghalang asumsi siling manusia AGI dan AI Superintelligence akan dengan ketara memukul penghalang asumsi siling manusia Jul 04, 2025 am 11:10 AM

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Menuju ke Agi dan

Kimi K2: Model agentik sumber terbuka yang paling kuat Kimi K2: Model agentik sumber terbuka yang paling kuat Jul 12, 2025 am 09:16 AM

Ingat banjir model Cina sumber terbuka yang mengganggu industri Genai awal tahun ini? Walaupun Deepseek mengambil sebahagian besar tajuk utama, Kimi K1.5 adalah salah satu nama yang terkenal dalam senarai. Dan model itu agak sejuk.

Masa depan meramalkan letupan kecerdasan besar -besaran di jalan dari AI ke AGI Masa depan meramalkan letupan kecerdasan besar -besaran di jalan dari AI ke AGI Jul 02, 2025 am 11:19 AM

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Bagi pembaca yang h

Grok 4 vs Claude 4: Mana yang lebih baik? Grok 4 vs Claude 4: Mana yang lebih baik? Jul 12, 2025 am 09:37 AM

Menjelang pertengahan tahun 2025, AI "perlumbaan senjata" dipanaskan, dan Xai dan Anthropic kedua-duanya mengeluarkan model perdana mereka, Grok 4 dan Claude 4. Kedua-dua model ini berada di hujung falsafah reka bentuk dan platform penempatan, namun mereka

Rantaian pemikiran untuk model pemikiran mungkin tidak berjaya jangka panjang Rantaian pemikiran untuk model pemikiran mungkin tidak berjaya jangka panjang Jul 02, 2025 am 11:18 AM

Sebagai contoh, jika anda bertanya kepada model soalan seperti: "Apa yang dilakukan oleh orang (x) di (x) syarikat?" Anda mungkin melihat rantaian pemikiran yang kelihatan seperti ini, dengan asumsi sistem tahu bagaimana untuk mendapatkan maklumat yang diperlukan: mencari butiran mengenai CO

Permulaan ini membina sebuah hospital di India untuk menguji perisian AInya Permulaan ini membina sebuah hospital di India untuk menguji perisian AInya Jul 02, 2025 am 11:14 AM

Ujian klinikal adalah kesesakan besar dalam pembangunan dadah, dan Kim dan Reddy menganggap perisian AI-enabled yang mereka bina di PI Health dapat membantu melakukannya dengan lebih cepat dan lebih murah dengan memperluaskan kumpulan pesakit yang berpotensi yang layak. Tetapi yang

Senat membunuh larangan AI peringkat negeri 10 tahun yang terselip dalam rang undang-undang belanjawan Trump Senat membunuh larangan AI peringkat negeri 10 tahun yang terselip dalam rang undang-undang belanjawan Trump Jul 02, 2025 am 11:16 AM

Senat mengundi 99-1 pagi Selasa untuk membunuh moratorium selepas kegemparan terakhir dari kumpulan advokasi, penggubal undang-undang dan puluhan ribu rakyat Amerika yang melihatnya sebagai penindasan berbahaya. Mereka tidak diam. Senat mendengarkan.

See all articles