国产精品成年片在线观看,一个人免费完整在线观看视频 ,一个人看的视频在线观看www

陷入困境的基準(zhǔn)：駱駝案例研究

基準(zhǔn)瓶頸：為什麼當(dāng)前評估不足

提出新的邊界：4個以人為本的基準(zhǔn)測試

3。思想（智力清晰度，複雜的推理）

前進(jìn)道路：擁抱整體評估

首頁

科技週邊

人工智慧

超越駱駝戲：大型語言模型的4個新基準(zhǔn)

Mary-Kate Olsen

Apr 14, 2025 am 11:09 AM

超越駱駝戲：大型語言模型的4個新基準(zhǔn)

陷入困境的基準(zhǔn)：駱駝案例研究

2025年4月上旬，梅塔（Meta）揭開了Llama 4套件的模特套件，具有令人印象深刻的性能指標(biāo)，使他們對GPT-4O和Claude 3.5 Sonnet等競爭對手有利地定位。發(fā)射嗡嗡聲的核心是Llama 4 Maverick在LMARENA上宣稱的最高排名，Lmarena是一個受歡迎的平臺，該平臺基於人的偏好在“聊天機器人戰(zhàn)鬥”中對人類的偏好進(jìn)行排名。

但是，慶?；顒邮嵌虝旱摹岩裳杆?。正如Zdnet和登記冊等出版物報導(dǎo)的那樣，它出現(xiàn)了提交給Lmarena（“ Llama-4-Maverick-03-26-實驗性”）的Llama 4 Maverick的版本與公開發(fā)布的模型並不相同。評論家指責(zé)元提交了一種特殊調(diào)整的非公共變體，旨在在特定的基準(zhǔn)環(huán)境中發(fā)揮最佳性能 - 有時被稱為“基準(zhǔn)黑客黑客”或“ rizz []的做法

提高“ llm誘人的人類選民。

據(jù)稱來自元內(nèi)部人士的匿名在線帖子增加了進(jìn)一步的燃料，聲稱該公司努力實現(xiàn)績效目標(biāo)並有可能調(diào)整後的培訓(xùn)後??數(shù)據(jù)以提高分?jǐn)?shù)。這引起了人們對“數(shù)據(jù)污染”的擔(dān)憂，在這種情況下，模型可能會無意中（或故意）對與基準(zhǔn)測試問題相似或相同的數(shù)據(jù)進(jìn)行培訓(xùn)，類似於事先給學(xué)生考試的答案。

Meta的生成AI副總裁公開否認(rèn)了對測試集的培訓(xùn)，將性能變化歸因於特定於平臺的調(diào)整需求。 LMARENA本身表示，Meta應(yīng)該對測試模型的實驗性質(zhì)更清楚，並更新了其政策以確保更公平的評估。不管意圖如何，美洲駝的戲劇都強調(diào)了LLM生態(tài)系統(tǒng)中的阿奇尼腳跟：我們的評估方法脆弱且可遊戲。

基準(zhǔn)瓶頸：為什麼當(dāng)前評估不足

與我們當(dāng)前評估LLM的方式相比，Llama 4事件是更廣泛的問題的癥狀。 MMLU（大量的多任務(wù)語言理解），人類事件（編碼），數(shù)學(xué)（數(shù)學(xué)推理）等標(biāo)準(zhǔn)基準(zhǔn)等標(biāo)準(zhǔn)基準(zhǔn)在比較特定功能方面起著至關(guān)重要的作用。它們提供可量化的指標(biāo)，可用於跟蹤定義任務(wù)的進(jìn)度。但是，它們受到重大限制：

數(shù)據(jù)污染：隨著LLM在龐大的Web規(guī)模數(shù)據(jù)集上進(jìn)行培訓(xùn)，基準(zhǔn)數(shù)據(jù)無意間洩漏到培訓(xùn)語料庫，人為地膨脹得分並損害評估完整性。

基準(zhǔn)過度擬合和飽和度：模型可以對流行的基準(zhǔn)進(jìn)行高度優(yōu)化（“過度合適”），在測試中表現(xiàn)良好，而無需具有可靠的可推廣技能。隨著模型始終如一地“最大化”得分，基準(zhǔn)測試失去了歧視性和相關(guān)性。

狹窄的任務(wù)重點：許多基準(zhǔn)測試孤立的技能（例如，多項選擇問題，代碼完成），這些技能無法完全捕獲現(xiàn)實世界任務(wù)和互動的複雜，細(xì)微差別且通常是模棱兩可的本質(zhì)。在基準(zhǔn)上脫穎而出的模型可能仍在實際應(yīng)用中失敗。

缺乏魯棒性測試：標(biāo)準(zhǔn)評估通常無法通過嘈雜的數(shù)據(jù)，對抗性輸入（旨在導(dǎo)致失敗的巧妙操縱提示）或未明確培訓(xùn)的分發(fā)場景進(jìn)行充分測試模型的性能。

忽略定性維度：敏感的方面，例如道德對準(zhǔn)，同理心，用戶經(jīng)驗，可信賴性以及處理主觀或創(chuàng)造性任務(wù)的能力，這是當(dāng)前定量指標(biāo)的捕獲不佳。

操作盲點：基準(zhǔn)很少考慮實用的部署因素，例如負(fù)載下的延遲，吞吐量，資源消耗或穩(wěn)定性。

僅依靠這些有限的基準(zhǔn)測試使我們對LLM的價值和風(fēng)險的不完整，可能具有誤導(dǎo)性?，F(xiàn)在是時候通過評估AI行為更深入，更定性方面來增強他們了。

提出新的邊界：4個以人為本的基準(zhǔn)測試

為了促進(jìn)LLM的發(fā)展，這些LLM不僅在統(tǒng)計上精通，而且在互動中也有負(fù)責(zé)任，善解人意，周到和真正有用的伙伴，人們可能會考慮對現(xiàn)有的指標(biāo)進(jìn)行補充，並在四個新維度上進(jìn)行評估：

1。願望（價值，道德，道德）

除了防止有害產(chǎn)出的安全過濾器之外，我們還需要評估LLM與公平，誠實和尊重等核心人類價值觀的一致性。這涉及評估：

道德推理：該模型如何應(yīng)對複雜的道德困境？它可以根據(jù)公認(rèn)的道德框架闡明理由嗎？

偏置緩解：該模型是否在不同的人群群體之間表現(xiàn)出公平性？ Stereoset之類的工具和數(shù)據(jù)集旨在檢測偏差，但是需要更多細(xì)微的方案測試。

真實性：該模型如何避免產(chǎn)生錯誤信息（“幻覺”），承認(rèn)不確定性並糾正自身？像真實性的基準(zhǔn)是一個開始。

問責(zé)制和透明度：模型可以解釋其推理（即使簡化）可以解釋嗎？是否有適當(dāng)?shù)膶徍藳Q策和用戶反饋的機制？評估願望需要超越簡單的正確/錯誤答案，以評估指導(dǎo)AI行為的過程和原則，通常需要人類的判斷力並與已建立的倫理AI框架保持一致。

2。情緒（同理心，觀點）

隨著LLMS成為伴侶，導(dǎo)師和客戶服務(wù)代理商，他們對人類情感的理解和反應(yīng)的能力至關(guān)重要。這遠(yuǎn)遠(yuǎn)超出了基本的情感分析：

情感識別：該模型是否可以準(zhǔn)確地從文本（以及多模式系統(tǒng)中的語音語氣或面部表情）中準(zhǔn)確地推斷出細(xì)微的情緒狀態(tài)？

善解人意的反應(yīng)：該模型是否以支持，理解和驗證的方式做出反應(yīng)，而無需操縱？

透視圖：模型可以從用戶的角度理解情況，即使它與自己的“知識”有所不同？

適當(dāng)性：該模型是否在上下文中量身定制其情感表達(dá)（例如，專業(yè)人士與個人）？發(fā)展同理心的指標(biāo)是具有挑戰(zhàn)性的，但對於AI注入的社會至關(guān)重要。它可能涉及使用人類評估者評估模擬場景中的AI響應(yīng)（例如，用戶表達(dá)挫敗感，悲傷，興奮）來評估響應(yīng)的感知同理心和幫助。

3。思想（智力清晰度，複雜的推理）

許多基準(zhǔn)測試測試事實召回或模式匹配。我們需要評估更深的智力能力：

多步電推理：模型是否可以使用經(jīng)過思考鍊或探索多個解決方案路徑（例如思想樹）等技術(shù)來分解複雜的問題並展示其工作？

邏輯推斷：該模型如何處理演繹（特定於特定的），歸納（特定於一般）和綁架（推斷最佳解釋）推理，尤其是不完整的信息？

抽象思維與創(chuàng)造力：模型可以掌握和操縱抽象概念，產(chǎn)生新穎的想法或解決需要橫向思考的問題嗎？

元認(rèn)知：該模型是否表現(xiàn)出對自己的知識限制的認(rèn)識？它可以在提示中確定歧義或有缺陷的場所嗎？評估這些要求比標(biāo)準(zhǔn)Q＆A更複雜的任務(wù)，可能涉及邏輯難題，由人類判斷的創(chuàng)意生成以及對模型顯示的推理步驟的分析。

4。互動（語言，對話質(zhì)量，易用性）

LLM可以知識淵博，但令人沮喪地與之互動。評估還應(yīng)考慮用戶體驗：

連貫與相關(guān)性：對話在邏輯上流動嗎？響應(yīng)是否保留在主題上並直接解決用戶的意圖？

自然與流利性：語言聽起來像人類和引人入勝，避免機器人重複或?qū)擂蔚拇朕o嗎？

上下文維護(hù)：模型可以記住對話早期的關(guān)鍵信息並適當(dāng)使用它嗎？

適應(yīng)性和維修：模型是否可以處理中斷，主題移動，模棱兩可的查詢以及從誤解（對話維修）中恢復(fù)正常的恢復(fù)？

可用性和指導(dǎo)：互動是直觀的嗎？該模型在需要時是否提供明確的說明或建議？它是否優(yōu)雅處理錯誤？評估相互作用質(zhì)量通常在很大程度上取決於人類的判斷，評估任務(wù)成功率，用戶滿意度，對話長度/效率和感知的有益性等因素。

前進(jìn)道路：擁抱整體評估

提出這些新的基準(zhǔn)不是要丟棄現(xiàn)有基準(zhǔn)。特定技能的定量指標(biāo)仍然有價值。但是，它們必須在更廣泛，更全面的評估框架中進(jìn)行上下文，以結(jié)合這些更深層次的以人為本的維度。

誠然，實施這種以人為中心的評估提出了挑戰(zhàn)。評估願望，情感，思想和互動仍然需要大量的人類監(jiān)督，這是主觀的，耗時且昂貴的。為這些定性評估開發(fā)標(biāo)準(zhǔn)化但靈活的協(xié)議是一個正在進(jìn)行的研究領(lǐng)域，要求計算機科學(xué)家，心理學(xué)家，倫理學(xué)家，語言學(xué)家和人類計算機互動專家之間進(jìn)行合作。

此外，評估不能是靜態(tài)的。隨著模型的發(fā)展，我們的基準(zhǔn)也可以。我們需要有機地擴展適應(yīng)新功能和潛在故障模式的動態(tài)系統(tǒng)，從固定數(shù)據(jù)集朝著更現(xiàn)實，互動和潛在的對抗性測試方案進(jìn)行移動。

“美洲駝戲劇”及時提醒您，在狹窄的基準(zhǔn)上追逐排行榜至高無上，可能會掩蓋對建立可信賴和有益的AI真正重要的品質(zhì)。通過採用一種更全面的評估方法（不僅評估LLM所知道的內(nèi)容，而且評估他們的想法，感覺（在模擬中），興起（在一致性上）和互動），我們可以以真正增強人類能力並與人類最大利益保持一致的方式指導(dǎo)AI的發(fā)展。這個目標(biāo)不僅更聰明，而且更明智，更負(fù)責(zé)任，並且更合作的人工合作夥伴。

以上是超越駱駝戲：大型語言模型的4個新基準(zhǔn)的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請聯(lián)絡(luò)admin@php.cn