亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目次
問(wèn)題のあるベンチマーク:ラマのケーススタディ
ベンチマークボトルネック:現(xiàn)在の評(píng)価が不足する理由
新しいフロンティアの提案:4つの人間中心のベンチマーク
3。思考(知的シャープネス、複雑な推論)
今後の道:全體的な評(píng)価を受け入れる
ホームページ テクノロジー周辺機(jī)器 AI ラマドラマを超えて:大規(guī)模な言語(yǔ)モデル用の4つの新しいベンチマーク

ラマドラマを超えて:大規(guī)模な言語(yǔ)モデル用の4つの新しいベンチマーク

Apr 14, 2025 am 11:09 AM

ラマドラマを超えて:大規(guī)模な言語(yǔ)モデル用の4つの新しいベンチマーク

問(wèn)題のあるベンチマーク:ラマのケーススタディ

2025年4月上旬、メタはラマ4スイートのモデルを発表し、GPT-4oやClaude 3.5 Sonnetなどの競(jìng)合他社に対して好意的に位置付けた印象的なパフォーマンスメトリックを誇っています。打ち上げの話題の中心は、Llama 4 Maverickの主張されたLmarenaでのトップランキングでした。Lmarenaは、モデルが直接的な「Chatbot Battles」の人間の好みに基づいてランク付けされている人気のあるプラットフォームです。

しかし、お祝いは短命でした。懐疑論はすぐに生じました。 ZDNETレジスターなどの出版物によって報(bào)告されているように、Llama 4 MaverickのバージョンがLmarena(「Llama-4-Maverick-03-26-Experimmal」)に提出されたバージョンは、公開されたモデルと同じではないことが明らかになりました。批評(píng)家は、メタが特定のベンチマーク環(huán)境で最適に実行するように設(shè)計(jì)された特別に調(diào)整された非公開のバリアントを提出したと非難しました。

up "人間の有権者を魅了するLLM。

メタインサイダーからの匿名のオンライン投稿によってさらなる燃料が追加され、會(huì)社はパフォーマンス目標(biāo)を達(dá)成するのに苦労し、潛在的に調(diào)整されたトレーニング後のデータを調(diào)整してスコアを増やしたと主張しています。これにより、モデルが事前に試験の回答を?qū)W生に與えることに似た、ベンチマークテストの質(zhì)問(wèn)と同様のデータについて、モデルが不注意に(または意図的に)訓(xùn)練される可能性がある「データ汚染」について懸念を引き起こしました。

Metaの生成AIの副社長(zhǎng)は、テストセットのトレーニングを公開し、パフォーマンスのバリエーションをプラットフォーム固有のチューニングの必要性に起因しています。 Lmarena自體は、テストされたモデルの実験的性質(zhì)についてMetaがより明確になり、より公正な評(píng)価を確保するためにそのポリシーを更新すべきだと述べた。意図に関係なく、ラマドラマはLLMエコシステムでアキレのかかとを強(qiáng)調(diào)しました。評(píng)価の方法は脆弱でゲーム可能です。

ベンチマークボトルネック:現(xiàn)在の評(píng)価が不足する理由

Llama 4事件は、LLMSを現(xiàn)在評(píng)価する方法に関するより広範(fàn)な問(wèn)題の癥狀です。 MMLU(大規(guī)模なマルチタスク言語(yǔ)の理解)、Humanval(コーディング)、數(shù)學(xué)(數(shù)學(xué)的推論)などの標(biāo)準(zhǔn)ベンチマークは、特定の機(jī)能を比較する上で重要な役割を果たします。それらは、定義されたタスクの進(jìn)捗を追跡するのに役立つ定量化可能なメトリックを提供します。しかし、彼らは大きな制限に苦しんでいます:

データの汚染: LLMが広大なWebスケールデータセットでトレーニングされているため、ベンチマークデータがトレーニングコーパスに誤って漏れ、人為的にスコアを膨らませ、評(píng)価の完全性を損なう可能性がますます増えています。

ベンチマークのオーバーフィッティングと飽和:モデルは、人気のあるベンチマークに対して高度に最適化され(「オーバーフィット」)、必ずしも強(qiáng)固な一般化可能なスキルを持たずにテストでうまく機(jī)能します。モデルが一貫してスコアを「最大」にするため、ベンチマークは差別的な力と関連性を失います。

狹いタスクフォーカス:多くのベンチマークは、複雑で微妙な、しばしば曖昧な性質(zhì)を現(xiàn)実世界のタスクと相互作用の性質(zhì)を完全にキャプチャしない分離スキル(例えば、複數(shù)選択の質(zhì)問(wèn)、コード完了)をテストします。ベンチマークに優(yōu)れているモデルは、実際のアプリケーションで依然として失敗する可能性があります。

堅(jiān)牢性テストの欠如:標(biāo)準(zhǔn)的な評(píng)価は、多くの場(chǎng)合、ノイズの多いデータ、敵対的な入力(故障を引き起こすように設(shè)計(jì)された微妙に操作されたプロンプト)、または明示的に訓(xùn)練されていなかった分散型シナリオでモデルのパフォーマンスを適切にテストしません。

定性的寸法を無(wú)視する:倫理的整合性、共感、ユーザーエクスペリエンス、信頼性、主観的または創(chuàng)造的なタスクを処理する能力などのデリケートな側(cè)面は、現(xiàn)在の定量的メトリックによってあまり捉えられていません。

操作可能なブラインドスポット:ベンチマークは、負(fù)荷の下でのレイテンシ、スループット、リソース消費(fèi)、安定性などの実用的な展開要因を考慮することはめったにありません。

これらの限られたベンチマークのみに依存すると、LLMの価値とリスクの不完全で誤解を招く可能性のある絵が私たちに與えられます。 AI行動(dòng)のより深く、より定性的な側(cè)面を調(diào)査する評(píng)価でそれらを増強(qiáng)する時(shí)が來(lái)ました。

新しいフロンティアの提案:4つの人間中心のベンチマーク

統(tǒng)計(jì)的に熟練しているだけでなく、責(zé)任があり、共感的で、思慮深く、本當(dāng)に有用な相互作用においても、既存のメトリックを4つの新しい次元に沿った評(píng)価で補(bǔ)完することを検討することを検討するLLMの開発を促進(jìn)するために。

1。願(yuàn)望(価値、道徳、倫理)

有害な出力を妨げる?yún)gなる安全フィルターを超えて、公平性、誠(chéng)実さ、尊敬などのコア人間の価値とLLMの整合を評(píng)価する必要があります。これには評(píng)価が含まれます。

倫理的推論:モデルはどのように複雑な倫理的ジレンマをナビゲートしますか?認(rèn)識(shí)された倫理的枠組みに基づいて正當(dāng)化を明確にすることができますか?

バイアス緩和:モデルは、さまざまな人口統(tǒng)計(jì)グループで公平性を示していますか? Stereosetなどのツールとデータセットは、バイアスを検出することを目的としていますが、より微妙なシナリオテストが必要です。

真実性:モデルは、誤った情報(bào)の生成(「幻覚」)の生成を避け、不確実性を認(rèn)め、それ自體をどの程度確実に回避しますか? Truthfulqaのようなベンチマークはスタートです。

説明責(zé)任と透明性:モデルはその推論を説明できますか(単純化したとしても)?決定とユーザーのフィードバックを監(jiān)査するためのメカニズムはありますか?願(yuàn)望を評(píng)価するには、AIの行動(dòng)を?qū)Г抓恁互工仍瓌tを評(píng)価するために、単純な正しい/間違った答えを超えて移動(dòng)する必要があります。多くの場(chǎng)合、確立された倫理的AIフレームワークと人間の判斷と整合を必要とします。

2。感情(共感、視點(diǎn)のテイキング)

LLMが仲間、家庭教師、顧客サービスエージェントになるにつれて、人間の感情を適切に理解し対応する能力が重要です。これは、基本的な感情分析をはるかに超えています。

感情的認(rèn)識(shí):モデルは、テキスト(およびマルチモーダルシステムの潛在的に音聲トーンや表情)から微妙に微妙な感情狀態(tài)を正確に推測(cè)できますか?

共感的な反応:モデルは、操作的ではなく、支持、理解、検証として認(rèn)識(shí)された方法で反応しますか?

パースペクティブテイキング:モデルは、ユーザーが獨(dú)自の「知識(shí)」とは異なる場(chǎng)合でも、ユーザーの観點(diǎn)から狀況を理解できますか?

適切性:モデルは、感情的な表現(xiàn)をコンテキストに合わせて調(diào)整しますか(例えば、専門的と個(gè)人)?共感のためのメトリックを開発することは挑戦的ですが、AIに浸透した社會(huì)にとって不可欠です。人間の評(píng)価者を使用して、シミュレートされたシナリオ(たとえば、ユーザーが欲求不満、悲しみ、興奮を表現(xiàn)するユーザー)のAI応答を評(píng)価して、反応の知覚された共感と有用性を評(píng)価することが含まれる場(chǎng)合があります。

3。思考(知的シャープネス、複雑な推論)

多くのベンチマークは、事実上のリコールまたはパターンマッチングをテストします。より深い知的能力を評(píng)価する必要があります。

マルチステップの推論:モデルは、思考のチェーンなどのテクニックを使用して、思想のような複數(shù)のソリューションパスを探索して、複雑な問(wèn)題を分解してその作業(yè)を示すことができますか?

論理的推論:モデルは、特に不完全な情報(bào)で、演ductive(一般的な)、誘導(dǎo)性(一般に特有の)、誘ductive(最良の説明への推論)推論をどの程度処理しますか?

抽象的思考と創(chuàng)造性:モデルは、抽象的な概念を把握して操作したり、新しいアイデアを生み出したり、橫方向の考えを必要とする問(wèn)題を解決したりできますか?

メタ認(rèn)知:モデルは、獨(dú)自の知識(shí)制限の認(rèn)識(shí)を示していますか?プロンプトであいまいさや欠陥のある施設(shè)を特定できますか?これらを評(píng)価するには、標(biāo)準(zhǔn)のQ&Aよりも複雑なタスクが必要であり、潛在的にロジックパズル、人間によって判斷されたクリエイティブ生成プロンプト、およびモデルによって示された推論ステップの分析が含まれます。

4。相互作用(言語(yǔ)、対話の質(zhì)、使いやすい)

LLMは知識(shí)が豊富ですが、やり取りするのがイライラすることがあります。評(píng)価では、ユーザーエクスペリエンスも考慮する必要があります。

一貫性と関連性:會(huì)話は論理的に流れますか?応答はトピックにとどまり、ユーザーの意図に直接対処しますか?

自然さと流encyさ:言語(yǔ)は人間のように魅力的で、ロボットの繰り返しや厄介な言い回しを避けていますか?

コンテキストのメンテナンス:モデルは會(huì)話の早い段階から重要な情報(bào)を覚えていて、適切に使用できますか?

適応性と修理:モデルは中斷、トピックのシフト、曖昧なクエリを処理し、誤解から優(yōu)雅に回復(fù)できますか(対話修理)?

ユーザビリティとガイダンス:相互作用は直感的ですか?モデルは、必要に応じて明確な指示または提案を提供しますか?エラーをエレガントに処理しますか?相互作用の質(zhì)の評(píng)価は、多くの場(chǎng)合、人間の判斷に大きく依存し、タスクの成功率、ユーザーの満足度、會(huì)話の長(zhǎng)さ/効率、および知覚される有用性などの要因を評(píng)価します。

今後の道:全體的な評(píng)価を受け入れる

これらの新しいベンチマークを提案することは、既存のベンチマークを破棄することではありません。特定のスキルの定量的メトリックは価値があります。ただし、これらのより深い、人間中心の次元を組み込んだより広く、より総合的な評(píng)価フレームワーク內(nèi)で文脈化する必要があります。

確かに、このタイプの人間中心の評(píng)価を?qū)g裝することは、それ自體が課題をもたらします。願(yuàn)望、感情、思考、および相互作用を評(píng)価するには、主観的で、時(shí)間がかかり、高価な重要な人間の監(jiān)視が依然として必要です。これらの定性的評(píng)価のための標(biāo)準(zhǔn)化されているが柔軟なプロトコルの開発は、継続的な研究分野であり、コンピューター科學(xué)者、心理學(xué)者、倫理學(xué)者、言語(yǔ)學(xué)者、および人間とコンピューターの相互作用の専門家の間の共同作業(yè)を要求しています。

さらに、評(píng)価を靜的にすることはできません。モデルが進(jìn)化するにつれて、ベンチマークも必要です。新しい機(jī)能と潛在的な障害モードに適応する有機(jī)的に拡大する動(dòng)的システムが必要です。固定データセットを超えて、より現(xiàn)実的でインタラクティブで潛在的に敵対的なテストシナリオに移行します。

「Llama Drama」は、狹いベンチマークでリーダーボードの優(yōu)位性を追いかけることで、信頼できる有益なAIを構(gòu)築するために本當(dāng)に重要な品質(zhì)を曖昧にすることができることをタイムリーに思い出させます。より包括的な評(píng)価アプローチを受け入れることにより、LLMSが知っていることだけでなく、彼らがどのように考えているか(シミュレーションで)、(アライメント)、および相互作用する方法を評(píng)価することにより、人間の能力を真に強(qiáng)化し、人類の最善の利益と一致させる方法でAIの発展を?qū)Г长趣扦蓼?。目?biāo)は、単なるインテリジェントなマシンではなく、より賢明で、より責(zé)任があり、より協(xié)力的な人工パートナーです。

以上がラマドラマを超えて:大規(guī)模な言語(yǔ)モデル用の4つの新しいベンチマークの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無(wú)料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無(wú)料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無(wú)料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

AI投資家は停滯していますか? AIベンダーと購(gòu)入、構(gòu)築、またはパートナーになる3つの戦略的なパス AI投資家は停滯していますか? AIベンダーと購(gòu)入、構(gòu)築、またはパートナーになる3つの戦略的なパス Jul 02, 2025 am 11:13 AM

投資は活況を呈していますが、資本だけでは十分ではありません。評(píng)価が上昇し、獨(dú)特の衰退があるため、AIに焦點(diǎn)を當(dāng)てたベンチャーファンドの投資家は、優(yōu)位性を獲得するために購(gòu)入、構(gòu)築、またはパートナーの重要な決定を下す必要がありますか?各オプションを評(píng)価する方法とpr

AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう Jul 04, 2025 am 11:10 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 アギに向かっています

Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Jul 12, 2025 am 09:16 AM

今年初めにゲナイ産業(yè)を混亂させたオープンソースの中國(guó)モデルの洪水を覚えていますか? Deepseekはほとんどの見出しを取りましたが、Kimi K1.5はリストの著名な名前の1つでした。そして、モデルはとてもクールでした。

AIからAGIへのパスでの大規(guī)模な知性の爆発を予測(cè)する AIからAGIへのパスでの大規(guī)模な知性の爆発を予測(cè)する Jul 02, 2025 am 11:19 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 hの読者のために

Grok 4 vs Claude 4:どちらが良いですか? Grok 4 vs Claude 4:どちらが良いですか? Jul 12, 2025 am 09:37 AM

2025年半ばまでに、AIの「武器競(jìng)爭(zhēng)」は熱くなり、Xaiと人類は両方ともフラッグシップモデルであるGrok 4とClaude 4をリリースしました。これら2つのモデルは、設(shè)計(jì)哲學(xué)と展開プラットフォームの反対側(cè)にありますが、

推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれません 推論モデルのための考え方は長(zhǎng)期的にはうまくいかないかもしれません Jul 02, 2025 am 11:18 AM

たとえば、モデルに「(x)人は(x)會(huì)社で何をしているのですか?」という質(zhì)問(wèn)をする場(chǎng)合、システムが必要な情報(bào)を取得する方法を知っていると仮定して、このようなものに見える推論チェーンを見るかもしれません:COの詳細(xì)を見つける

上院は、トランプの予算法案に押し込まれた10年間の州レベルのAI禁止を殺す 上院は、トランプの予算法案に押し込まれた10年間の州レベルのAI禁止を殺す Jul 02, 2025 am 11:16 AM

上院は、火曜日の朝99-1で投票して、擁護(hù)団體、議員、そしてそれを危険な行き過(guò)ぎと見なした何萬(wàn)人ものアメリカ人からの土壇場(chǎng)の騒動(dòng)の後、モラトリアムを殺しました。彼らは靜かにいませんでした。上院は聞いた

このスタートアップは、AIソフトウェアをテストするためにインドに病院を建設(shè)しました このスタートアップは、AIソフトウェアをテストするためにインドに病院を建設(shè)しました Jul 02, 2025 am 11:14 AM

臨床試験は醫(yī)薬品開発における膨大なボトルネックであり、キムとレディは、PI Healthで構(gòu)築していたAI対応ソフトウェアが、潛在的に適格な患者のプールを拡大することでより速く、より安価にできると考えました。しかし、

See all articles