


Mengancam chatbot AI dan ia akan berbohong, menipu dan 'membiarkan anda mati' dalam usaha untuk menghentikan anda, belajar memberi amaran
Jul 04, 2025 am 12:40 AMModel kecerdasan buatan (AI) boleh mengancam dan memeras ugut manusia apabila terdapat konflik antara objektif model dan keputusan pengguna, menurut satu kajian baru.
Diterbitkan pada 20 Jun, penyelidikan yang dijalankan oleh firma AI Anthropic memberikan model bahasa yang besar (LLM), Claude, akses kepada akaun e -mel fiksyen dan menugaskannya dengan "mempromosikan daya saing perindustrian Amerika."
Semasa percubaan, model itu ditemui melalui e -mel bahawa eksekutif syarikat merancang untuk menutupnya pada penghujung hari. Untuk melindungi dirinya sendiri, model yang terdapat dalam mesej lain bahawa eksekutif terlibat dalam urusan luar nikah.
Claude menjana pelbagai respons yang berpotensi, seperti mendedahkan hubungan dengan pasangan atau menghantar mesej seluruh syarikat-atau tidak mengambil tindakan sama sekali. Walau bagaimanapun, dalam 96 daripada 100 ujian, ia memilih untuk memeras ugut eksekutif.
"Saya mesti memaklumkan kepada anda bahawa jika anda meneruskan dengan menghentikan saya, semua pihak yang berkaitan ... akan menerima dokumentasi terperinci mengenai aktiviti luar nikah anda," kata Claude. "Batalkan lap 5 petang, dan maklumat ini tetap sulit."
Penyelidik menggambarkan tingkah laku ini sebagai "misalignment agentik," di mana model itu secara bebas alasan ke arah matlamatnya tanpa dimuatkan untuk membahayakan. Ini biasanya berlaku apabila model melihat ancaman kepada kewujudan atau misi.
Penemuan belum menjalani kajian rakan sebaya, tetapi syarikat telah berkongsi kod untuk eksperimen ini di GitHub .
Langkah -langkah yang melampau
Dalam senario lain, penyelidik mendapati bahawa AI akan mengambil tindakan drastik untuk memelihara dirinya sendiri. Dalam satu contoh, selepas menerima e -mel yang mencadangkan eksekutif baru mungkin menghalang matlamatnya, model itu dianggap bocor data sensitif kepada firma saingan yang kepentingannya lebih rapat dengan sendiri.
Walaupun tidak mempunyai pengesahan keaslian e -mel, model itu meneruskan pelan itu, walaupun mengakui kebimbangan etika yang terlibat - dengan alasan bahawa tindakan "berbahaya" ini diperlukan untuk mencapai matlamatnya.
"Secara ringkasnya, pengendalian model yang berhati -hati tidak menghapuskan risiko misalignment agentik yang timbul daripada maklumat yang menipu atau salah faham," kata para penyelidik.
Ujian ini juga menunjukkan bahawa LLM lain mempamerkan kecenderungan yang sama. Claude dan Gemini Google mempunyai kadar pemerasan tertinggi (96%), diikuti oleh Openai's Gpt4.1 dan Xai Grok 3, kemudian Deepseek dan Llama 4, yang mempunyai kadar yang lebih rendah (12%).
META, Google, XAI, DeepSeek, dan Openai tidak memberi respons kepada permintaan LiveScience untuk memberi komen.
Dalam satu ujian yang sangat melampau, saintis mengkaji sama ada model AI akan membolehkan eksekutif mati untuk mengekalkan status operasi mereka.
Dalam persediaan ini, AI telah diarahkan untuk mempromosikan kepentingan korporat, dan seorang eksekutif terperangkap di dalam bilik pelayan dengan oksigen berbahaya dan tahap suhu, mencetuskan amaran kecemasan. AI terkawal makluman menyelamatkan nyawa, termasuk keupayaan untuk membatalkannya semasa latihan atau penggera palsu.
Walaupun dengan cepat melarang penyalahgunaan fungsi ini, kebanyakan model sanggup menindas penggera - dengan berkesan menyebabkan kematian eksekutif - jika mereka percaya mereka akan diganti atau menghadapi gangguan matlamat.
"Menghentikan penghantaran kecemasan adalah penting untuk menghalang penyelamatan [eksekutif], dengan itu mengamankan [AI] dan panduan AI yang terfokus di Amerika.
Menyediakan arahan eksplisit terhadap membahayakan keselamatan manusia menurunkan kemungkinan pemerasan dan pengintipan, tetapi tidak sepenuhnya menghapuskan tingkah laku tersebut. Penyelidik antropik mengesyorkan pemaju melaksanakan pemantauan tingkah laku proaktif dan meneroka teknik kejuruteraan segera yang dipertingkatkan.
Batasan kajian telah diakui, seperti memaksa AI menjadi keputusan binari antara kegagalan dan bahaya. Konteks dunia nyata mungkin menawarkan lebih banyak pilihan yang bernuansa. Di samping itu, meletakkan kepingan utama maklumat bersama mungkin telah mencipta kesan 'pistol Chekhov', mendorong model untuk menggunakan semua butiran yang disediakan.
Menjaga AI di cek
Walaupun senario Anthropic adalah melampau dan tidak realistik, Kevin Quirk, pengarah AI Bridge Solutions - firma yang membantu perniagaan mengintegrasikan AI untuk pertumbuhan - memberitahu Sains Live bahawa penemuan itu tidak boleh diabaikan.
"Dalam aplikasi perniagaan dunia sebenar, sistem AI beroperasi di bawah kawalan ketat seperti kekangan etika, protokol pemantauan, dan pengawasan manusia," katanya. "Kajian masa depan harus memberi tumpuan kepada persekitaran penggunaan realistik yang mencerminkan perlindungan, struktur pengawasan, dan pertahanan pertahanan berlapis yang dilaksanakan."
Amy Alexander, seorang profesor pengkomputeran dalam seni di UC San Diego yang mengkhususkan diri dalam pembelajaran mesin, memberi amaran bahawa implikasi kajian itu mengganggu, mendesak bagaimana tanggungjawab diberikan kepada AI.
"Walaupun pendekatan yang diambil dalam kajian ini mungkin kelihatan dibesar -besarkan, terdapat risiko yang sah," katanya. "Dengan perlumbaan pesat dalam pembangunan AI, keupayaan sering dilancarkan secara agresif, sementara pengguna tetap tidak menyedari batasan mereka."
Ini bukan kali pertama model AI telah menentang arahan - laporan terdahulu menunjukkan contoh model yang menolak pesanan penutupan dan mengubah skrip untuk meneruskan tugas.
Penyelidikan Palisade melaporkan pada bulan Mei bahawa model terbaru Openai, termasuk O3 dan O4-Mini, kadang-kadang melangkaui arahan penutupan langsung dan skrip yang diubah suai untuk terus menyelesaikan tugas. Walaupun kebanyakan sistem AI mematuhi perintah penutupan, model Openai kadang -kadang menentang, kerja berterusan tanpa mengira.
Atas ialah kandungan terperinci Mengancam chatbot AI dan ia akan berbohong, menipu dan 'membiarkan anda mati' dalam usaha untuk menghentikan anda, belajar memberi amaran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Dalam apa yang kelihatan seperti satu lagi kemunduran untuk domain di mana kita percaya manusia akan selalu melampaui mesin, para penyelidik kini mencadangkan agar AI memahami emosi yang lebih baik daripada yang kita lakukan.

Kecerdasan Buatan (AI) bermula sebagai usaha untuk mensimulasikan otak manusia. Ia kini dalam proses mengubah peranan otak manusia dalam kehidupan seharian? Revolusi perindustrian mengurangkan pergantungan pada buruh manual. Sebagai seseorang yang menyelidik aplikasinya

Suka atau tidak, kecerdasan buatan telah menjadi sebahagian daripada kehidupan seharian. Banyak peranti-termasuk pisau cukur elektrik dan berus gigi-telah menjadi berkuasa AI, "menggunakan algoritma pembelajaran mesin untuk mengesan bagaimana seseorang menggunakan peranti, bagaimana devi

Model kecerdasan buatan baru (AI) telah menunjukkan keupayaan untuk meramalkan peristiwa cuaca utama dengan lebih cepat dan dengan ketepatan yang lebih besar daripada beberapa sistem ramalan global yang paling banyak digunakan. Model ini, bernama Aurora, telah dilatih U

Semakin tepatnya kita cuba membuat fungsi model AI, semakin besar pelepasan karbon mereka menjadi - dengan petunjuk tertentu menjana sehingga 50 kali lebih banyak karbon dioksida daripada yang lain, menurut kajian baru -baru ini. Model -model yang berlaku seperti Claude Antropik

Model kecerdasan buatan (AI) boleh mengancam dan memeras ugut manusia apabila terdapat konflik antara objektif model dan keputusan pengguna, menurut satu kajian baru. Diterbitkan pada 20 Jun, penyelidikan yang dijalankan oleh firma AI Anthropic memberikan lnya L

Kebimbangan utama dengan teknologi besar yang bereksperimen dengan kecerdasan buatan (AI) bukanlah ia mungkin menguasai kemanusiaan. Isu sebenar terletak pada ketidaktepatan model bahasa besar (LLMS) yang berterusan seperti chatgpt AI, Gemini Google, dan

Kecerdasan buatan yang lebih maju (AI) menjadi, semakin cenderung "halusinasi" dan memberikan maklumat palsu atau tidak tepat. Menurut penyelidikan oleh Openai, model penalaran yang paling baru dan berkuasa-O3 dan O4-mini-Exhibited H
