国产在线视视频有精品,国产日韩欧美

言語(yǔ)は本質(zhì)的に限られています

真実性を測(cè)定しますか？

報(bào)酬のためのドライブ

テクノロジーの哲學(xué)

ホームページ

テクノロジー周辺機(jī)器

推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれません

Barbara Streisand

Jul 02, 2025 am 11:18 AM

推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれません

たとえば、モデルに「（x）人は（x）會(huì)社で何をしているのですか？」という質(zhì)問をする場(chǎng)合、システムが必要な情報(bào)を取得する方法を知っていると仮定して、次のように見える推論チェーンを見ることができます。

會(huì)社の詳細(xì)を見つける
ディレクトリ內(nèi)の人を識(shí)別します
その人の役割と背景を評(píng)価します
要約ポイントをコンパイルします

これは基本的なケースですが、數(shù)年の間、人々はそのような推論チェーンにますます依存しています。

しかし、研究者は、思考の連鎖的な推論の欠點(diǎn)を指摘し始めており、AIが生成された反応の信頼性に根拠のないレベルの信頼を與えるかもしれないことを示唆しています。

言語(yǔ)は本質(zhì)的に限られています

推論チェーンの限界を理解する1つの方法は、言語(yǔ)自體の不正確さと、それを効果的にベンチマークすることの難しさを認(rèn)識(shí)することです。

言語(yǔ)は本質(zhì)的に厄介です。世界中で何百もの言語(yǔ)が話されているため、マシンがその內(nèi)部ロジックを明確に明確に明確に表現(xiàn)することを期待すると、重要な制約があります。

複數(shù)の學(xué)者が共著した人類が発行した研究論文からのこの抜粋を考慮してください。

このような研究は、特にモデルがより高度なパフォーマンスを拡大し、実証するため、考え方の説明の説明には、実際の精度に必要な深さがないことを意味します。

また、COT方法が人気を博しているように、 2023年にMelanie MitchellがSubstackで提起したアイデアを考えてみましょう。

「推論は人間の知性の核心にあり、堅(jiān)牢で汎用的な推論を達(dá)成することは、長(zhǎng)い間AIの中心的な目標(biāo)でした」とミッチェルは指摘しました。「大規(guī)模な言語(yǔ)モデル（LLM）は明示的に推論するように訓(xùn)練されていませんが、推論のように見える行動(dòng)を示しています。しかし、これらの本物の抽象的な思考の兆候であるか、それとも、トレーニングデータに基づいた暗記やパターンの一致など、信頼性の低いメカニズムによって推進(jìn)されていますか？」

その後、ミッチェルはなぜこの區(qū)別が重要なのか疑問に思いました。

「LLMが本當(dāng)に強(qiáng)力な一般的な推論能力を持っている場(chǎng)合、それは彼らが信頼できる人工的な一般情報(bào)に向けて進(jìn)歩を遂げていることを示唆しているでしょう」と彼女は説明しました。「しかし、彼らの能力が主に記憶のパターンに依存している場(chǎng)合、彼らがすでに見たものの範(fàn)囲外のタスクを処理することを信頼することはできません?！?/p>

真実性を測(cè)定しますか？

アラン?チューリングは、20世紀(jì)半ばにチューリングテストを提案しました。これは、人間の行動(dòng)を模倣することを密接に判斷できるという考えです。また、高レベルのベンチマークを使用してLLMを評(píng)価することもできます。これは、數(shù)學(xué)の問題を解決したり、複雑な認(rèn)知タスクに取り組む能力をテストします。

しかし、マシンが真実であるかどうか、または一部の研究者が言ったように、「忠実」であるかどうかをどのように判斷するのでしょうか？

前述の論文は、LLM出力の忠実さを測(cè)定するトピックに分かれています。それを読むことから、私は真実性は數(shù)學(xué)的な精度がそうではないという方法で主観的であると結(jié)論付けました。つまり、マシンが正直であるかどうかを評(píng)価する能力は非常に限られています。

それを見る別の方法は次のとおりです。LLMSがプロンプトに応答すると、それらは本質(zhì)的に膨大な量の人間が書いたテキストをオンラインでスキャンし、それを模倣していることを知っています。彼らは事実に基づいた知識(shí)をコピーし、推論スタイルを再現(xiàn)し、人間がどのように伝えるかを反映しています - 回避的な戦術(shù)、省略、さらには単純な形と洗練された形の両方で慎重な欺ceptionさえ含まれます。

報(bào)酬のためのドライブ

さらに、論文の著者は、インセンティブを追いかけるときにLLMが人間と同様に振る舞う可能性があると主張しています。彼らは、それが報(bào)酬につながる場(chǎng)合、特定の不正確または誤解を招く情報(bào)を優(yōu)先することができました。

彼らはこれを「報(bào)酬ハッキング」と呼んでいます。

「報(bào)酬のハッキングには問題があります」と著者は述べています。「特定のタスクでうまく機(jī)能していても、他のタスクに転送することはほとんどありません。これにより、モデルがせいぜい効果がなくなり、おそらく危険になります。自動(dòng)運(yùn)転車がスピードを最適化し、赤信號(hào)を無視して効率を高めることを想像してください?！?/p>

せいぜい役に立たず、最悪の場(chǎng)合は危険です - それは安心しません。

テクノロジーの哲學(xué)

ここには、探索する価値のある別の重要な角度があります。

推論チェーンの評(píng)価は、それ自體が技術(shù)的な問題ではありません。モデルのパラメーターの數(shù)、それらの重みの調(diào)整方法、または特定の方程式を解く方法に依存しません。むしろ、それはトレーニングデータとそれが直感的にどのように解釈されるかにかかっています。別の言い方をすれば、この議論には、定量的な専門家がモデルを評(píng)価する際にめったに関與しない領(lǐng)域が含まれます。

これは、私が以前に提唱したものが必要だと再び考えさせます。これは、私たちがAIの相互作用をナビゲートするのを助ける新世代の専門的な哲學(xué)者です。コーダーのみに頼る代わりに、歴史と社會(huì)的価値に根ざした深い、しばしば直感的な人間のアイデアを人工知能に適用できる思想家が必要です。私たちはPython開発者の雇用にほぼ完全に焦點(diǎn)を合わせてきたので、この分野ではるかに遅れています。

私は今私の石鹸箱から降りますが、持ち帰りは明確です：考えられた連鎖的なアプローチを超えて移動(dòng)するには、AI関連の役割のためにトレーニングと雇用方法を再考する必要があるかもしれません。

以上が推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれませんの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明

この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Laravel チュートリアル

1597

PHP チュートリアル

1487

NYTミニクロスワードの回答

268

587

NYTの接続はヒントと回答です

129

836

Related knowledge

AI投資家は停滯していますか？ AIベンダーと購(gòu)入、構(gòu)築、またはパートナーになる3つの戦略的なパス Jul 02, 2025 am 11:13 AM

投資は活況を呈していますが、資本だけでは十分ではありません。評(píng)価が上昇し、獨(dú)特の衰退があるため、AIに焦點(diǎn)を當(dāng)てたベンチャーファンドの投資家は、優(yōu)位性を獲得するために購(gòu)入、構(gòu)築、またはパートナーの重要な決定を下す必要がありますか？各オプションを評(píng)価する方法とpr