亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目次
言語(yǔ)は本質(zhì)的に限られています
真実性を測(cè)定しますか?
報(bào)酬のためのドライブ
テクノロジーの哲學(xué)
ホームページ テクノロジー周辺機(jī)器 AI 推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれません

推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれません

Jul 02, 2025 am 11:18 AM

推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれません

たとえば、モデルに「(x)人は(x)會(huì)社で何をしているのですか?」という質(zhì)問をする場(chǎng)合、システムが必要な情報(bào)を取得する方法を知っていると仮定して、次のように見える推論チェーンを見ることができます。

  • 會(huì)社の詳細(xì)を見つける
  • ディレクトリ內(nèi)の人を識(shí)別します
  • その人の役割と背景を評(píng)価します
  • 要約ポイントをコンパイルします

これは基本的なケースですが、數(shù)年の間、人々はそのような推論チェーンにますます依存しています。

しかし、研究者は、思考の連鎖的な推論の欠點(diǎn)を指摘し始めており、AIが生成された反応の信頼性に根拠のないレベルの信頼を與えるかもしれないことを示唆しています。

言語(yǔ)は本質(zhì)的に限られています

推論チェーンの限界を理解する1つの方法は、言語(yǔ)自體の不正確さと、それを効果的にベンチマークすることの難しさを認(rèn)識(shí)することです。

言語(yǔ)は本質(zhì)的に厄介です。世界中で何百もの言語(yǔ)が話されているため、マシンがその內(nèi)部ロジックを明確に明確に明確に表現(xiàn)することを期待すると、重要な制約があります。

複數(shù)の學(xué)者が共著した人類が発行した研究論文からのこの抜粋を考慮してください。

このような研究は、特にモデルがより高度なパフォーマンスを拡大し、実証するため、考え方の説明の説明には、実際の精度に必要な深さがないことを意味します。

また、COT方法が人気を博しているように、 2023年にMelanie MitchellがSubstackで提起したアイデアを考えてみましょう。

「推論は人間の知性の核心にあり、堅(jiān)牢で汎用的な推論を達(dá)成することは、長(zhǎng)い間AIの中心的な目標(biāo)でした」とミッチェルは指摘しました。 「大規(guī)模な言語(yǔ)モデル(LLM)は明示的に推論するように訓(xùn)練されていませんが、推論のように見える行動(dòng)を示しています。しかし、これらの本物の抽象的な思考の兆候であるか、それとも、トレーニングデータに基づいた暗記やパターンの一致など、信頼性の低いメカニズムによって推進(jìn)されていますか?」

その後、ミッチェルはなぜこの區(qū)別が重要なのか疑問に思いました。

「LLMが本當(dāng)に強(qiáng)力な一般的な推論能力を持っている場(chǎng)合、それは彼らが信頼できる人工的な一般情報(bào)に向けて進(jìn)歩を遂げていることを示唆しているでしょう」と彼女は説明しました。 「しかし、彼らの能力が主に記憶のパターンに依存している場(chǎng)合、彼らがすでに見たものの範(fàn)囲外のタスクを処理することを信頼することはできません?!?/p>

真実性を測(cè)定しますか?

アラン?チューリングは、20世紀(jì)半ばにチューリングテストを提案しました。これは、人間の行動(dòng)を模倣することを密接に判斷できるという考えです。また、高レベルのベンチマークを使用してLLMを評(píng)価することもできます。これは、數(shù)學(xué)の問題を解決したり、複雑な認(rèn)知タスクに取り組む能力をテストします。

しかし、マシンが真実であるかどうか、または一部の研究者が言ったように、「忠実」であるかどうかをどのように判斷するのでしょうか?

前述の論文は、LLM出力の忠実さを測(cè)定するトピックに分かれています。それを読むことから、私は真実性は數(shù)學(xué)的な精度がそうではないという方法で主観的であると結(jié)論付けました。つまり、マシンが正直であるかどうかを評(píng)価する能力は非常に限られています。

それを見る別の方法は次のとおりです。LLMSがプロンプトに応答すると、それらは本質(zhì)的に膨大な量の人間が書いたテキストをオンラインでスキャンし、それを模倣していることを知っています。彼らは事実に基づいた知識(shí)をコピーし、推論スタイルを再現(xiàn)し、人間がどのように伝えるかを反映しています - 回避的な戦術(shù)、省略、さらには単純な形と洗練された形の両方で慎重な欺ceptionさえ含まれます。

報(bào)酬のためのドライブ

さらに、論文の著者は、インセンティブを追いかけるときにLLMが人間と同様に振る舞う可能性があると主張しています。彼らは、それが報(bào)酬につながる場(chǎng)合、特定の不正確または誤解を招く情報(bào)を優(yōu)先することができました。

彼らはこれを「報(bào)酬ハッキング」と呼んでいます。

「報(bào)酬のハッキングには問題があります」と著者は述べています。 「特定のタスクでうまく機(jī)能していても、他のタスクに転送することはほとんどありません。これにより、モデルがせいぜい効果がなくなり、おそらく危険になります。自動(dòng)運(yùn)転車がスピードを最適化し、赤信號(hào)を無視して効率を高めることを想像してください?!?/p>

せいぜい役に立たず、最悪の場(chǎng)合は危険です - それは安心しません。

テクノロジーの哲學(xué)

ここには、探索する価値のある別の重要な角度があります。

推論チェーンの評(píng)価は、それ自體が技術(shù)的な問題ではありません。モデルのパラメーターの數(shù)、それらの重みの調(diào)整方法、または特定の方程式を解く方法に依存しません。むしろ、それはトレーニングデータとそれが直感的にどのように解釈されるかにかかっています。別の言い方をすれば、この議論には、定量的な専門家がモデルを評(píng)価する際にめったに関與しない領(lǐng)域が含まれます。

これは、私が以前に提唱したものが必要だと再び考えさせます。これは、私たちがAIの相互作用をナビゲートするのを助ける新世代の専門的な哲學(xué)者です。コーダーのみに頼る代わりに、歴史と社會(huì)的価値に根ざした深い、しばしば直感的な人間のアイデアを人工知能に適用できる思想家が必要です。私たちはPython開発者の雇用にほぼ完全に焦點(diǎn)を合わせてきたので、この分野ではるかに遅れています。

私は今私の石鹸箱から降りますが、持ち帰りは明確です:考えられた連鎖的なアプローチを超えて移動(dòng)するには、AI関連の役割のためにトレーニングと雇用方法を再考する必要があるかもしれません。

以上が推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれませんの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

AI投資家は停滯していますか? AIベンダーと購(gòu)入、構(gòu)築、またはパートナーになる3つの戦略的なパス AI投資家は停滯していますか? AIベンダーと購(gòu)入、構(gòu)築、またはパートナーになる3つの戦略的なパス Jul 02, 2025 am 11:13 AM

投資は活況を呈していますが、資本だけでは十分ではありません。評(píng)価が上昇し、獨(dú)特の衰退があるため、AIに焦點(diǎn)を當(dāng)てたベンチャーファンドの投資家は、優(yōu)位性を獲得するために購(gòu)入、構(gòu)築、またはパートナーの重要な決定を下す必要がありますか?各オプションを評(píng)価する方法とpr

AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう Jul 04, 2025 am 11:10 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 アギに向かっています

Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Jul 12, 2025 am 09:16 AM

今年初めにゲナイ産業(yè)を混亂させたオープンソースの中國(guó)モデルの洪水を覚えていますか? Deepseekはほとんどの見出しを取りましたが、Kimi K1.5はリストの著名な名前の1つでした。そして、モデルはとてもクールでした。

AIからAGIへのパスでの大規(guī)模な知性の爆発を予測(cè)する AIからAGIへのパスでの大規(guī)模な知性の爆発を予測(cè)する Jul 02, 2025 am 11:19 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 hの読者のために

Grok 4 vs Claude 4:どちらが良いですか? Grok 4 vs Claude 4:どちらが良いですか? Jul 12, 2025 am 09:37 AM

2025年半ばまでに、AIの「武器競(jìng)爭(zhēng)」は熱くなり、Xaiと人類は両方ともフラッグシップモデルであるGrok 4とClaude 4をリリースしました。これら2つのモデルは、設(shè)計(jì)哲學(xué)と展開プラットフォームの反対側(cè)にありますが、

推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれません 推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれません Jul 02, 2025 am 11:18 AM

たとえば、モデルに「(x)人は(x)會(huì)社で何をしているのですか?」という質(zhì)問をする場(chǎng)合、システムが必要な情報(bào)を取得する方法を知っていると仮定して、このようなものに見える推論チェーンを見るかもしれません:COの詳細(xì)を見つける

上院は、トランプの予算法案に押し込まれた10年間の州レベルのAI禁止を殺す 上院は、トランプの予算法案に押し込まれた10年間の州レベルのAI禁止を殺す Jul 02, 2025 am 11:16 AM

上院は、火曜日の朝99-1で投票して、擁護(hù)団體、議員、そしてそれを危険な行き過ぎと見なした何萬人ものアメリカ人からの土壇場(chǎng)の騒動(dòng)の後、モラトリアムを殺しました。彼らは靜かにいませんでした。上院は聞いた

このスタートアップは、AIソフトウェアをテストするためにインドに病院を建設(shè)しました このスタートアップは、AIソフトウェアをテストするためにインドに病院を建設(shè)しました Jul 02, 2025 am 11:14 AM

臨床試験は醫(yī)薬品開発における膨大なボトルネックであり、キムとレディは、PI Healthで構(gòu)築していたAI対応ソフトウェアが、潛在的に適格な患者のプールを拡大することでより速く、より安価にできると考えました。しかし、

See all articles