亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

Jadual Kandungan
3. Pemikiran (ketajaman intelektual, penalaran kompleks)
Rumah Peranti teknologi AI Beyond the Llama Drama: 4 Benchmarks Baru Untuk Model Bahasa Besar

Beyond the Llama Drama: 4 Benchmarks Baru Untuk Model Bahasa Besar

Apr 14, 2025 am 11:09 AM

Beyond the Llama Drama: 4 Benchmarks Baru Untuk Model Bahasa Besar

Penanda Aras Bermasalah: Kajian Kes Llama

Pada awal April 2025, Meta melancarkan model Llama 4 suite, yang menawarkan metrik prestasi yang mengagumkan yang meletakkan mereka dengan baik terhadap pesaing seperti GPT-4O dan Claude 3.5 sonnet. Pusat untuk melancarkan buzz adalah Llama 4 Maverick yang mendakwa kedudukan teratas di Lmarena, sebuah platform popular di mana model disenaraikan berdasarkan keutamaan manusia dalam "pertempuran chatbot".

Walau bagaimanapun, perayaan itu adalah jangka pendek. Keraguan timbul dengan cepat. Seperti yang dilaporkan oleh penerbitan seperti ZDNET , dan Daftar , ia muncul bahawa versi Llama 4 Maverick dikemukakan kepada Lmarena ("Llama-4-Maverick-03-26-eksperimen") tidak sama dengan model yang dikeluarkan secara umum. Pengkritik menuduh Meta mengemukakan varian bukan awam yang ditala, yang direka untuk melaksanakan secara optimum dalam persekitaran penanda aras tertentu-amalan yang kadang-kadang digelar "penanda aras" atau " rizz [ing]

Up "LLM untuk menarik pengundi manusia.

Bahan api selanjutnya ditambah oleh jawatan dalam talian tanpa nama, didakwa dari Meta Insiders , mendakwa syarikat itu berjuang untuk memenuhi sasaran prestasi dan berpotensi diselaraskan data selepas latihan untuk meningkatkan skor. Ini menimbulkan kebimbangan mengenai "pencemaran data," di mana model mungkin secara tidak sengaja (atau sengaja) dilatih pada data yang sama atau sama dengan soalan ujian penanda aras, sama seperti memberi pelajar jawapan peperiksaan terlebih dahulu.

VP META generatif AI menafikan latihan secara terbuka pada set ujian, mengaitkan variasi prestasi kepada keperluan penalaan khusus platform. Lmarena sendiri menyatakan meta sepatutnya lebih jelas mengenai sifat eksperimen model yang diuji dan mengemas kini dasarnya untuk memastikan penilaian yang lebih adil. Terlepas dari niat, drama Llama menyerlahkan tumit Achille dalam ekosistem LLM: Kaedah kami untuk penilaian adalah rapuh dan dapat diperjuangkan.

Penanda aras penanda aras: Mengapa penilaian semasa jatuh pendek

Insiden Llama 4 adalah gejala isu yang lebih luas dengan cara kami menilai LLM. Penanda aras standard seperti MMLU (pemahaman bahasa multitask besar -besaran), HumanEval (pengekodan), matematik (penalaran matematik), dan lain -lain memainkan peranan penting dalam membandingkan keupayaan tertentu. Mereka menyediakan metrik yang boleh diukur yang berguna untuk menjejaki kemajuan pada tugas yang ditetapkan. Walau bagaimanapun, mereka mengalami batasan yang ketara:

Pencemaran Data: Memandangkan LLM dilatih pada dataset skala web yang luas, semakin mungkin data penanda aras secara tidak sengaja kebocoran ke dalam korpus latihan, secara buatan meningkatkan skor dan menjejaskan integriti penilaian.

Benchmark Overfitting & Saturation: Model boleh menjadi sangat dioptimumkan ("overfit") untuk tanda aras yang popular, melakukan dengan baik pada ujian tanpa semestinya mempunyai kemahiran umum yang pepejal. Sebagai model secara konsisten "max out" skor, tanda aras kehilangan kuasa diskriminasi dan kaitannya.

Fokus tugas sempit: Banyak penanda aras menguji kemahiran terpencil (contohnya, soalan pelbagai pilihan, penyelesaian kod) yang tidak sepenuhnya menangkap kompleks, nuanced, dan sering samar-samar dari tugas-tugas dan interaksi dunia sebenar. Model yang cemerlang pada tanda aras mungkin masih gagal dalam aplikasi praktikal.

Kekurangan ujian kekukuhan: Penilaian standard sering tidak mencukupi untuk menguji prestasi model dengan data yang bising, input adversarial (gambaran yang dimanipulasi secara halus yang direka untuk menyebabkan kegagalan), atau senario di luar distribusi yang mereka tidak dilatih secara eksplisit.

Mengabaikan dimensi kualitatif: Aspek sensitif seperti penjajaran etika, empati, pengalaman pengguna, kepercayaan, dan keupayaan untuk mengendalikan tugas subjektif atau kreatif tidak ditangkap oleh metrik kuantitatif semasa.

Tempat buta operasi: Penanda aras jarang mempertimbangkan faktor penempatan praktikal seperti latency, throughput, penggunaan sumber, atau kestabilan di bawah beban.

Bergantung semata -mata pada tanda aras yang terhad ini memberi kita gambaran yang tidak lengkap dan berpotensi mengelirukan nilai dan risiko LLM. Sudah tiba masanya untuk menambah mereka dengan penilaian yang menyiasat lebih mendalam, aspek lebih kualitatif dari tingkah laku AI.

Mencadangkan Frontiers Baru: 4 Penanda Aras Manusia

Untuk memupuk perkembangan LLM yang bukan hanya mahir secara statistik tetapi juga bertanggungjawab, empati, bijaksana, dan benar -benar berguna dalam interaksi, seseorang mungkin mempertimbangkan untuk melengkapkan metrik sedia ada dengan penilaian sepanjang empat dimensi baru:

1. Aspirasi (nilai, moral, etika)

Di luar penapis keselamatan semata -mata menghalang output yang berbahaya, kita perlu menilai penjajaran LLM dengan nilai -nilai manusia teras seperti keadilan, kejujuran, dan penghormatan. Ini melibatkan penilaian:

Penalaran Etika: Bagaimanakah model menavigasi dilema etika kompleks? Bolehkah ia menyatakan justifikasi berdasarkan kerangka etika yang diiktiraf?

Mitigasi Bias: Adakah model mempamerkan keadilan di seluruh kumpulan demografi yang berbeza? Alat dan dataset seperti stereoset bertujuan untuk mengesan kecenderungan, tetapi ujian senario yang lebih bernuansa diperlukan.

Kebenaran: Seberapa dipercayai model mengelakkan menghasilkan maklumat yang salah ("halusinasi"), mengakui ketidakpastian, dan membetulkannya sendiri? Penanda aras seperti Trongfulqa adalah permulaan.

Akauntabiliti & Ketelusan: Bolehkah model menerangkan alasannya (walaupun dipermudahkan)? Adakah mekanisme disediakan untuk keputusan pengauditan dan maklum balas pengguna? Menilai aspirasi memerlukan bergerak melampaui jawapan yang betul/salah untuk menilai proses dan prinsip yang membimbing tingkah laku AI, sering memerlukan penghakiman dan penjajaran manusia dengan rangka kerja etika AI yang ditubuhkan.

2. Emosi (empati, pengambilan perspektif)

Memandangkan LLM menjadi sahabat, tutor, dan ejen perkhidmatan pelanggan, keupayaan mereka untuk memahami dan bertindak balas dengan tepat kepada emosi manusia adalah kritikal. Ini jauh melebihi analisis sentimen asas:

Pengiktirafan emosi: Bolehkah model dengan tepat menyimpulkan keadaan emosi yang bernuansa dari teks (dan nada suara yang berpotensi atau ekspresi wajah dalam sistem multimodal)?

Tanggapan Empati: Adakah model bertindak balas dengan cara yang dianggap sebagai sokongan, pemahaman, dan mengesahkan tanpa manipulatif?

Perspektif pengambilan: Bolehkah model memahami keadaan dari sudut pandangan pengguna, walaupun ia berbeza dari "pengetahuan" sendiri?

Kesesuaian: Adakah model menyesuaikan ekspresi emosinya kepada konteksnya (contohnya, profesional vs peribadi)? Membangunkan metrik untuk empati adalah mencabar tetapi penting untuk masyarakat yang disemai AI. Ia mungkin melibatkan menilai tindak balas AI dalam senario simulasi (misalnya, pengguna yang menyatakan kekecewaan, kesedihan, keseronokan) menggunakan penilai manusia untuk menilai empati yang dirasakan dan membantu respons.

3. Pemikiran (ketajaman intelektual, penalaran kompleks)

Banyak penanda aras menguji penarikan balik fakta atau padanan corak. Kita perlu menilai keupayaan intelektual yang lebih mendalam:

Penalaran Multi-Langkah: Bolehkah model memecahkan masalah yang rumit dan menunjukkan kerjanya, menggunakan teknik-teknik seperti rantai-of-shought atau meneroka pelbagai laluan penyelesaian seperti Pokok Pemikiran?

Kesimpulan Logik: Sejauh mana model mengendalikan deduktif (umum kepada spesifik), induktif (khusus kepada umum), dan menculik (kesimpulan kepada penjelasan terbaik) penalaran, terutamanya dengan maklumat yang tidak lengkap?

Pemikiran & Kreativiti Abstrak: Bolehkah model memahami dan memanipulasi konsep abstrak, menghasilkan idea novel, atau menyelesaikan masalah yang memerlukan pemikiran lateral?

Metakognisi: Adakah model menunjukkan kesedaran tentang had pengetahuannya sendiri? Bolehkah ia mengenal pasti kekaburan atau premis yang cacat dengan segera? Menilai ini memerlukan tugas yang lebih kompleks daripada Q & A standard, yang berpotensi melibatkan teka -teki logik, generasi kreatif yang dihakimi oleh manusia, dan analisis langkah -langkah penalaran yang ditunjukkan oleh model.

4. Interaksi (bahasa, kualiti dialog, kemudahan penggunaan)

LLM boleh berpengetahuan tetapi mengecewakan untuk berinteraksi dengan. Penilaian juga harus mempertimbangkan pengalaman pengguna:

Koherensi & Relevan: Adakah perbualan mengalir secara logik? Adakah respons kekal dalam topik dan secara langsung menangani niat pengguna?

Naturness & Fluency: Adakah bahasa itu berbunyi seperti manusia dan menarik, mengelakkan pengulangan robot atau ungkapan yang janggal?

Penyelenggaraan Konteks: Bolehkah model mengingati maklumat utama dari sebelumnya dalam perbualan dan menggunakannya dengan sewajarnya ?

Kesesuaian & Pembaikan: Bolehkah model mengendalikan gangguan, pergeseran topik, pertanyaan yang samar -samar, dan pulih dengan anggun dari salah faham (pembaikan dialog)?

Kegunaan & Panduan: Adakah intuitif interaksi? Adakah model memberikan arahan atau cadangan yang jelas apabila diperlukan? Adakah ia mengendalikan kesilapan dengan elegan? Menilai kualiti interaksi sering bergantung pada penghakiman manusia, menilai faktor -faktor seperti kadar kejayaan tugas, kepuasan pengguna, panjang perbualan/kecekapan, dan membantu.

Jalan ke hadapan: Memeluk penilaian holistik

Mencadangkan tanda aras baru ini bukan tentang membuang yang sedia ada. Metrik kuantitatif untuk kemahiran tertentu kekal berharga. Walau bagaimanapun, mereka mesti dikontak dalam rangka kerja penilaian yang lebih luas dan lebih holistik yang menggabungkan dimensi yang lebih mendalam dan manusia.

Diakui, melaksanakan penilaian jenis manusia ini memberikan cabaran sendiri. Menilai aspirasi, emosi, pemikiran, dan interaksi masih memerlukan pengawasan manusia yang signifikan, yang subjektif, memakan masa, dan mahal. Membangunkan protokol piawai namun fleksibel untuk penilaian kualitatif ini adalah kawasan penyelidikan yang berterusan, menuntut kerjasama antara saintis komputer, ahli psikologi, etika, ahli bahasa, dan pakar interaksi manusia.

Tambahan pula, penilaian tidak boleh statik. Apabila model berkembang, begitu juga tanda aras kita. Kami memerlukan sistem dinamik secara organik yang menyesuaikan diri dengan keupayaan baru dan mod kegagalan yang berpotensi, bergerak melampaui dataset tetap ke arah senario pengujian yang lebih realistik, interaktif, dan berpotensi menjadi adversarial .

"Drama Llama" adalah peringatan yang tepat pada masanya bahawa mengejar ketuanan papan pendahulu pada tanda aras sempit dapat mengaburkan kualiti yang benar -benar penting untuk membina AI yang boleh dipercayai dan bermanfaat. Dengan memeluk pendekatan penilaian yang lebih komprehensif - yang menilai bukan hanya apa yang diketahui oleh LLM tetapi bagaimana mereka berfikir, merasa (dalam simulasi), bercita -cita (dalam penjajaran), dan berinteraksi - kita dapat membimbing pembangunan AI dengan cara yang benar -benar meningkatkan keupayaan manusia dan menjajarkan kepentingan terbaik manusia. Matlamatnya bukan hanya mesin yang lebih pintar tetapi lebih bijak, lebih bertanggungjawab, dan rakan buatan yang lebih kolaboratif.

Atas ialah kandungan terperinci Beyond the Llama Drama: 4 Benchmarks Baru Untuk Model Bahasa Besar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Pelabur AI terjebak dengan terhenti? 3 Laluan Strategik untuk Membeli, Membina, atau Berkongsi dengan Vendor AI Pelabur AI terjebak dengan terhenti? 3 Laluan Strategik untuk Membeli, Membina, atau Berkongsi dengan Vendor AI Jul 02, 2025 am 11:13 AM

Pelaburan adalah berkembang pesat, tetapi modal sahaja tidak mencukupi. Dengan penilaian yang semakin meningkat dan tersendiri pudar, pelabur dalam dana usaha yang berfokus pada AI mesti membuat keputusan utama: Beli, membina, atau rakan kongsi untuk mendapatkan kelebihan? Inilah cara menilai setiap pilihan dan PR

AGI dan AI Superintelligence akan dengan ketara memukul penghalang asumsi siling manusia AGI dan AI Superintelligence akan dengan ketara memukul penghalang asumsi siling manusia Jul 04, 2025 am 11:10 AM

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Menuju ke Agi dan

Kimi K2: Model agentik sumber terbuka yang paling kuat Kimi K2: Model agentik sumber terbuka yang paling kuat Jul 12, 2025 am 09:16 AM

Ingat banjir model Cina sumber terbuka yang mengganggu industri Genai awal tahun ini? Walaupun Deepseek mengambil sebahagian besar tajuk utama, Kimi K1.5 adalah salah satu nama yang terkenal dalam senarai. Dan model itu agak sejuk.

Masa depan meramalkan letupan kecerdasan besar -besaran di jalan dari AI ke AGI Masa depan meramalkan letupan kecerdasan besar -besaran di jalan dari AI ke AGI Jul 02, 2025 am 11:19 AM

Mari kita bercakap mengenainya. Analisis terobosan AI yang inovatif ini adalah sebahagian daripada liputan lajur Forbes yang berterusan pada AI terkini, termasuk mengenal pasti dan menerangkan pelbagai kerumitan AI yang memberi kesan (lihat pautan di sini). Bagi pembaca yang h

Grok 4 vs Claude 4: Mana yang lebih baik? Grok 4 vs Claude 4: Mana yang lebih baik? Jul 12, 2025 am 09:37 AM

Menjelang pertengahan tahun 2025, AI "perlumbaan senjata" dipanaskan, dan Xai dan Anthropic kedua-duanya mengeluarkan model perdana mereka, Grok 4 dan Claude 4. Kedua-dua model ini berada di hujung falsafah reka bentuk dan platform penempatan, namun mereka

Rantaian pemikiran untuk model pemikiran mungkin tidak berjaya jangka panjang Rantaian pemikiran untuk model pemikiran mungkin tidak berjaya jangka panjang Jul 02, 2025 am 11:18 AM

Sebagai contoh, jika anda bertanya kepada model soalan seperti: "Apa yang dilakukan oleh orang (x) di (x) syarikat?" Anda mungkin melihat rantaian pemikiran yang kelihatan seperti ini, dengan asumsi sistem tahu bagaimana untuk mendapatkan maklumat yang diperlukan: mencari butiran mengenai CO

Senat membunuh larangan AI peringkat negeri 10 tahun yang terselip dalam rang undang-undang belanjawan Trump Senat membunuh larangan AI peringkat negeri 10 tahun yang terselip dalam rang undang-undang belanjawan Trump Jul 02, 2025 am 11:16 AM

Senat mengundi 99-1 pagi Selasa untuk membunuh moratorium selepas kegemparan terakhir dari kumpulan advokasi, penggubal undang-undang dan puluhan ribu rakyat Amerika yang melihatnya sebagai penindasan berbahaya. Mereka tidak diam. Senat mendengarkan.

Permulaan ini membina sebuah hospital di India untuk menguji perisian AInya Permulaan ini membina sebuah hospital di India untuk menguji perisian AInya Jul 02, 2025 am 11:14 AM

Ujian klinikal adalah kesesakan besar dalam pembangunan dadah, dan Kim dan Reddy menganggap perisian AI-enabled yang mereka bina di PI Health dapat membantu melakukannya dengan lebih cepat dan lebih murah dengan memperluaskan kumpulan pesakit yang berpotensi yang layak. Tetapi yang

See all articles