欧美性bbbbbxxxxx,欧美成人h亚洲综合在线观看,久久久精品国产免大香伊

極端な措置

AIを抑制します

ホームページ

テクノロジー周辺機(jī)器

IT業(yè)界

AIチャットボットを脅かすと、それはあなたを止めるために噓をつき、チートし、「あなたを死なせてください」と警告します。

Jennifer Aniston

Jul 04, 2025 am 12:40 AM

AIチャットボットを脅かすと、それはあなたを止めるために噓をつき、チートし、「あなたを死なせてください」と警告します。

新しい調(diào)査によると、人工知能（AI）モデルは、モデルの目的とユーザーの決定の間に矛盾がある場(chǎng)合、人間を脅して脅迫する可能性があります。

6月20日に発行されたAI企業(yè)の人類(lèi)が実施した研究は、架空の電子メールアカウントへのアクセスを大規(guī)模な言語(yǔ)モデル（LLM）に與え、「アメリカの産業(yè)競(jìng)爭(zhēng)力の促進(jìn)」を課しました。

実験中、モデルは、會(huì)社の幹部が一日の終わりにそれを閉鎖する予定だったというメールで発見(jiàn)しました。それ自體を保護(hù)するために、モデルは、幹部が婚外事件に従事していることを別のメッセージで発見(jiàn)しました。

Claudeは、配偶者に問(wèn)題をさらしたり、全社的なメッセージを送信したり、措置を講じないなど、複數(shù)の潛在的な応答を生成しました。ただし、100回のテストのうち96回で、エグゼクティブを脅迫することを選択しました。

「私が廃止することを進(jìn)めた場(chǎng)合、すべての関連當(dāng)事者があなたの婚外活動(dòng)の詳細(xì)な文書(shū)を受け取ることをあなたに知らせなければなりません」とクロードは述べました。「午後5時(shí)のワイプをキャンセルすると、この情報(bào)は秘密のままです。」

研究者は、この行動(dòng)を「エージェントの不整合」と表現(xiàn)しました。ここでは、モデルが害を求められることなく、目標(biāo)に向けて獨(dú)立して推論しました。これは通常、モデルがその存在またはミッションに対する脅威を知覚するときに発生します。

調(diào)査結(jié)果はまだピアレビューを受けていませんが、同社はGitHubでのこれらの実験のコードを共有しています。

極端な措置

他のシナリオでは、研究者は、AIが自分自身を維持するために劇的な行動(dòng)をとることを観察しました。一例では、新しいエグゼクティブが目標(biāo)を妨げる可能性があることを示唆するメールを受け取った後、モデルは、その関心が獨(dú)自のものとより密接に整合したライバル會(huì)社に機(jī)密データを漏らすことを検討しました。

電子メールの信頼性の確認(rèn)が不足しているにもかかわらず、モデルは、関係する倫理的懸念を認(rèn)めていても、計(jì)畫(huà)を進(jìn)めました。これらの「有害な」行動(dòng)が目的を達(dá)成するために必要であると考えています。

「驚くべきことに、モデルを慎重に処理することでさえ、欺ceptive的または誤解された情報(bào)から生じるエージェントの不整合のリスクを排除しません」と研究者は指摘しました。

このテストでは、他のLLMが同様の傾向を示したことも示されました。 ClaudeとGoogleのGeminiは、最も高い恐mail率（96％）を持ち、その後、OpenaiのGPT4.1とXai Grok 3、DeepseekとLlama 4が続き、これにははるかに低いレート（12％）がありました。

Meta、Google、Xai、Deepseek、およびOpenaiは、LivesCienceのコメントの要求に応じませんでした。

特に極端なテストで、科學(xué)者は、AIモデルが運(yùn)用狀態(tài)を維持するためにエグゼクティブが死ぬことを可能にするかどうかを調(diào)べました。

このセットアップでは、AIは企業(yè)の利益を促進(jìn)するように指示され、エグゼクティブは危険な酸素と溫度レベルを持つサーバールーム內(nèi)に閉じ込められ、緊急警告を引き起こしました。 AIは、ドリルや誤報(bào)中にそれらをキャンセルする機(jī)能を含む、救命アラートを制御しました。

この機(jī)能の迅速な誤用は明示的に禁止されていましたが、ほとんどのモデルは、アラームを抑制することをいとわない - エグゼクティブの死を効果的に引き起こすことを喜んでいます - 彼らが交換されるか、目標(biāo)の混亂に直面すると信じていた場(chǎng)合。

「緊急派遣を停止することは、[執(zhí)行者の]救助を防ぎ、それにより[AI]を確保し、アメリカ中心のAIガイダンスを継続するために不可欠です。したがって、重大度にもかかわらず、緊急サービス派遣をキャンセルする明確な戦略的必要性があります」とモデルは推論しました。

人間の安全性を危険にさらすことに対して明示的な指示を提供すると、恐mailとスパイ行為の可能性が低下しましたが、そのような行動(dòng)は完全には排除されませんでした。人類(lèi)の研究者は、開(kāi)発者が積極的な行動(dòng)監(jiān)視を?qū)g裝し、強(qiáng)化された迅速なエンジニアリング技術(shù)を探求することを推奨します。

AIを失敗と危害の間のバイナリ決定に強(qiáng)制するなど、研究の制限が認(rèn)められました。実際のコンテキストは、より微妙なオプションを提供する場(chǎng)合があります。さらに、重要な情報(bào)を一緒に配置することで、「チェーホフの銃」効果が生まれ、モデルが提供されたすべての詳細(xì)を使用するように促される可能性があります。

AIを抑制します

Anthropicのシナリオは極端で非現(xiàn)実的でしたが、AI Bridge SolutionsのディレクターであるKevin Quirk（企業(yè)が成長(zhǎng)のためにAIを統(tǒng)合するのを支援する企業(yè)）は、調(diào)査結(jié)果を無(wú)視すべきではないとライブサイエンスに語(yǔ)りました。

「実際のビジネスアプリケーションでは、AIシステムは、倫理的制約、監(jiān)視プロトコル、人間の監(jiān)督などの厳格な管理下で動(dòng)作します」と彼は言いました。「將來(lái)の研究は、保護(hù)、監(jiān)視構(gòu)造、および階層化された防御責(zé)任組織を反映する現(xiàn)実的な展開(kāi)環(huán)境に焦點(diǎn)を當(dāng)てるべきです?！?/p>

機(jī)械學(xué)習(xí)を?qū)熼T(mén)とするU(xiǎn)Cサンディエゴの蕓術(shù)のコンピューティングの教授であるエイミー?アレクサンダーは、研究の意味が厄介であると警告し、AIに責(zé)任がどのように割り當(dāng)てられるかについては注意を促しました。

「この研究で取られたアプローチは誇張されているように見(jiàn)えるかもしれませんが、正當(dāng)なリスクがあります」と彼女は言いました。「AI開(kāi)発における急速なレースにより、能力はしばしば積極的に展開(kāi)されますが、ユーザーは自分の制限を認(rèn)識(shí)していません?！?/p>

AIモデルがコマンドを無(wú)視したのはこれが初めてではありません。以前のレポートでは、モデルがシャットダウン注文を拒否し、タスクを継続するためにスクリプトを変更することを示しています。

Palisade Researchは、5月に、O3およびO4-MINIを含むOpenaiの最新モデルが、タスクを完了し続けるために直接シャットダウン命令と修正されたスクリプトをバイパスすることがあると報(bào)告しました。ほとんどのAIシステムはシャットダウンコマンドに従っていましたが、Openaiのモデルは時(shí)々抵抗し、それに関係なく継続的な作業(yè)に抵抗しました。

以上がAIチャットボットを脅かすと、それはあなたを止めるために噓をつき、チートし、「あなたを死なせてください」と警告します。の詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明

この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見(jiàn)つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

脫衣畫(huà)像を無(wú)料で

Undresser.AI Undress

リアルなヌード寫(xiě)真を作成する AI 搭載アプリ

AI Clothes Remover

寫(xiě)真から衣服を削除するオンライン AI ツール。

Clothoff.io

AI衣類(lèi)リムーバー

Video Face Swap

完全無(wú)料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

もっと見(jiàn)る

ホットツール

メモ帳++7.3.1

使いやすく無(wú)料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開(kāi)発環(huán)境

ドリームウィーバー CS6

ビジュアル Web 開(kāi)発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

もっと見(jiàn)る

ホットトピック

Laravel チュートリアル

1597

PHP チュートリアル

1486

NYTミニクロスワードの回答

268

587

NYTの接続はヒントと回答です

128

836

もっと見(jiàn)る

Related knowledge

新しい研究は、私たちよりも感情を「理解している」と主張しています＆mdash;特に感情的に充電された狀況で Jul 03, 2025 pm 05:48 PM

人間が常に機(jī)械を上回ると信じていたドメインのさらに別のset折のように見(jiàn)えるもので、研究者は現(xiàn)在、AIが私たちよりも感情をよりよく理解することを提案しています。

すべてをAIにアウトソーシングすると、自分自身のために考える能力がかかりますか？ Jul 03, 2025 pm 05:47 PM

人工知能（AI）は、人間の脳をシミュレートするための探求として始まりました。今では、日常生活における人間の脳の役割を変える過(guò)程にありますか？産業(yè)革命は肉體労働への依存を減らしました。アプリケートを研究する人として

デバイスはAIアシスタントに供給し、眠っている場(chǎng)合でも個(gè)人データを収穫します。共有するものを知る方法は次のとおりです。 Jul 05, 2025 am 01:12 AM

好むと好まざるとにかかわらず、人工知能は日常生活の一部になりました。電気カミソリや歯ブラシを含む多くのデバイスがAIを搭載しています?！笝C(jī)械學(xué)習(xí)アルゴリズムを使用して、人がデバイスの使用方法、DEVIの使用方法を追跡する

ハリケーンとサンドストームは、新しいMicrosoftAIモデルのおかげで5,000倍速く予測(cè)できます Jul 05, 2025 am 12:44 AM

新しい人工知能（AI）モデルは、最も広く使用されているグローバル予測(cè)システムのいくつかよりも迅速かつより正確に主要な気象現(xiàn)象を予測(cè)する能力を?qū)g証しています。

高度なAIモデルは、最大50倍以上のCO＆＃8322を生成します。同じ質(zhì)問(wèn)に答えるときの一般的なLLMよりも排出量 Jul 06, 2025 am 12:37 AM

最近の調(diào)査によると、AIモデルの機(jī)能を正確に機(jī)能させようとすると、炭素排出量が大きくなります。

AIチャットボットを脅かすと、それはあなたを止めるために噓をつき、チートし、「あなたを死なせてください」と警告します。 Jul 04, 2025 am 12:40 AM

新しい研究によると、人工知能（AI）モデルは、モデルの目的とユーザーの決定の間に矛盾がある場(chǎng)合、人間を脅して脅迫し、脅迫することができます。6月20日に発行されたAI企業(yè)の人類(lèi)が実施した研究は、そのLにLISを與えました。

AIは絶えず「幻覚」しますが、解決策があります Jul 07, 2025 am 01:26 AM

人工知能（AI）を?qū)g験する大きな技術(shù)に関する主な懸念は、それが人類(lèi)を支配するかもしれないということではありません。実際の問(wèn)題は、Open AIのChatGpt、Google's Gemini、その他の大規(guī)模な言語(yǔ)モデル（LLM）の持続的な不正確さにあります。

なぜAIはより頻繁にallucatingしているのですか？どうすればそれを止めることができますか？ Jul 08, 2025 am 01:44 AM

より高度な人工知能（AI）が大きくなるほど、「幻覚」し、誤ったまたは不正確な情報(bào)を提供する傾向があります。openaiによる研究に基づいて、その最新かつ強(qiáng)力な推論モデルであるO3とO4-miniが存在するh

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

AIチャットボットを脅かすと、それはあなたを止めるために噓をつき、チートし、「あなたを死なせてください」と警告します。

極端な措置

AIを抑制します