亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
陷入困境的基準:駱駝案例研究
基準瓶頸:為什么當前評估不足
提出新的邊界:4個以人為本的基準測試
3。思想(智力清晰度,復雜的推理)
前進道路:擁抱整體評估
首頁 科技周邊 人工智能 超越駱駝戲:大型語言模型的4個新基準

超越駱駝戲:大型語言模型的4個新基準

Apr 14, 2025 am 11:09 AM

超越駱駝戲:大型語言模型的4個新基準

陷入困境的基準:駱駝案例研究

2025年4月上旬,梅塔(Meta)揭開了Llama 4套件的模特套件,具有令人印象深刻的性能指標,使他們對GPT-4O和Claude 3.5 Sonnet等競爭對手有利地定位。發(fā)射嗡嗡聲的核心是Llama 4 Maverick在LMARENA上宣稱的最高排名,Lmarena是一個受歡迎的平臺,該平臺基于人的偏好在“聊天機器人戰(zhàn)斗”中對人類的偏好進行排名。

但是,慶?;顒邮嵌虝旱?。懷疑迅速。正如Zdnet登記冊等出版物報道的那樣,它出現(xiàn)了提交給Lmarena(“ Llama-4-Maverick-03-26-實驗性”)的Llama 4 Maverick的版本與公開發(fā)布的模型并不相同。評論家指責元提交了一種特殊調整的非公共變體,旨在在特定的基準環(huán)境中發(fā)揮最佳性能 - 有時被稱為“基準黑客黑客”或“ rizz []的做法

提高“ llm誘人的人類選民。

據(jù)稱來自元內部人士的匿名在線帖子增加了進一步的燃料,聲稱該公司努力實現(xiàn)績效目標并有可能調整后的培訓后??數(shù)據(jù)以提高分數(shù)。這引起了人們對“數(shù)據(jù)污染”的擔憂,在這種情況下,模型可能會無意中(或故意)對與基準測試問題相似或相同的數(shù)據(jù)進行培訓,類似于事先給學生考試的答案。

Meta的生成AI副總裁公開否認了對測試集的培訓,將性能變化歸因于特定于平臺的調整需求。 LMARENA本身表示,Meta應該對測試模型的實驗性質更清楚,并更新了其政策以確保更公平的評估。不管意圖如何,美洲駝的戲劇都強調了LLM生態(tài)系統(tǒng)中的阿奇尼腳跟:我們的評估方法脆弱且可游戲。

基準瓶頸:為什么當前評估不足

與我們當前評估LLM的方式相比,Llama 4事件是更廣泛的問題的癥狀。 MMLU(大量的多任務語言理解),人類事件(編碼),數(shù)學(數(shù)學推理)等標準基準等標準基準在比較特定功能方面起著至關重要的作用。它們提供可量化的指標,可用于跟蹤定義任務的進度。但是,它們受到重大限制:

數(shù)據(jù)污染:隨著LLM在龐大的Web規(guī)模數(shù)據(jù)集上進行培訓,基準數(shù)據(jù)無意間泄漏到培訓語料庫,人為地膨脹得分并損害評估完整性。

基準過度擬合和飽和度:模型可以對流行的基準進行高度優(yōu)化(“過度合適”),在測試中表現(xiàn)良好,而無需具有可靠的可推廣技能。隨著模型始終如一地“最大化”得分,基準測試失去了歧視性和相關性。

狹窄的任務重點:許多基準測試孤立的技能(例如,多項選擇問題,代碼完成),這些技能無法完全捕獲現(xiàn)實世界任務和互動的復雜,細微差別且通常是模棱兩可的本質。在基準上脫穎而出的模型可能仍在實際應用中失敗。

缺乏魯棒性測試:標準評估通常無法通過嘈雜的數(shù)據(jù),對抗性輸入(旨在導致失敗的巧妙操縱提示)或未明確培訓的分發(fā)場景進行充分測試模型的性能。

忽略定性維度:敏感的方面,例如道德對準,同理心,用戶經(jīng)驗,可信賴性以及處理主觀或創(chuàng)造性任務的能力,這是當前定量指標的捕獲不佳。

操作盲點:基準很少考慮實用的部署因素,例如負載下的延遲,吞吐量,資源消耗或穩(wěn)定性。

僅依靠這些有限的基準測試使我們對LLM的價值和風險的不完整,可能具有誤導性?,F(xiàn)在是時候通過評估AI行為更深入,更定性方面來增強他們了。

提出新的邊界:4個以人為本的基準測試

為了促進LLM的發(fā)展,這些LLM不僅在統(tǒng)計上精通,而且在互動中也有負責任,善解人意,周到和真正有用的伙伴,人們可能會考慮對現(xiàn)有的指標進行補充,并在四個新維度上進行評估:

1。愿望(價值,道德,道德)

除了防止有害產(chǎn)出的安全過濾器之外,我們還需要評估LLM與公平,誠實和尊重等核心人類價值觀的一致性。這涉及評估:

道德推理:該模型如何應對復雜的道德困境?它可以根據(jù)公認的道德框架闡明理由嗎?

偏置緩解:該模型是否在不同的人群群體之間表現(xiàn)出公平性? Stereoset之類的工具和數(shù)據(jù)集旨在檢測偏差,但是需要更多細微的方案測試

真實性:該模型如何避免產(chǎn)生錯誤信息(“幻覺”),承認不確定性并糾正自身?像真實性的基準是一個開始。

問責制和透明度:模型可以解釋其推理(即使簡化)可以解釋嗎?是否有適當?shù)膶徍藳Q策和用戶反饋的機制?評估愿望需要超越簡單的正確/錯誤答案,以評估指導AI行為的過程和原則,通常需要人類的判斷力并與已建立的倫理AI框架保持一致。

2。情緒(同理心,觀點)

隨著LLMS成為伴侶,導師和客戶服務代理商,他們對人類情感的理解和反應的能力至關重要。這遠遠超出了基本的情感分析:

情感識別:該模型是否可以準確地從文本(以及多模式系統(tǒng)中的語音語氣或面部表情)中準確地推斷出細微的情緒狀態(tài)?

善解人意的反應:該模型是否以支持,理解和驗證的方式做出反應,而無需操縱?

透視圖:模型可以從用戶的角度理解情況,即使它與自己的“知識”有所不同?

適當性:該模型是否在上下文中量身定制其情感表達(例如,專業(yè)人士與個人)?發(fā)展同理心的指標是具有挑戰(zhàn)性的,但對于AI注入的社會至關重要。它可能涉及使用人類評估者評估模擬場景中的AI響應(例如,用戶表達挫敗感,悲傷,興奮)來評估響應的感知同理心和幫助。

3。思想(智力清晰度,復雜的推理)

許多基準測試測試事實召回或模式匹配。我們需要評估更深的智力能力:

多步電推理:模型是否可以使用經(jīng)過思考鏈或探索多個解決方案路徑(例如思想樹)等技術來分解復雜的問題并展示其工作?

邏輯推斷:該模型如何處理演繹(特定于特定的),歸納(特定于一般)和綁架(推斷最佳解釋)推理,尤其是不完整的信息?

抽象思維與創(chuàng)造力:模型可以掌握和操縱抽象概念,產(chǎn)生新穎的想法或解決需要橫向思考的問題嗎?

元認知:該模型是否表現(xiàn)出對自己的知識限制的認識?它可以在提示中確定歧義或有缺陷的場所嗎?評估這些要求比標準Q&A更復雜的任務,可能涉及邏輯難題,由人類判斷的創(chuàng)意生成以及對模型顯示的推理步驟的分析。

4。互動(語言,對話質量,易用性)

LLM可以知識淵博,但令人沮喪地與之互動。評估還應考慮用戶體驗:

連貫與相關性:對話在邏輯上流動嗎?響應是否保留在主題上并直接解決用戶的意圖?

自然與流利性:語言聽起來像人類和引人入勝,避免機器人重復或尷尬的措辭嗎?

上下文維護:模型可以記住對話早期的關鍵信息并適當使用它嗎?

適應性和維修:模型是否可以處理中斷,主題移動,模棱兩可的查詢以及從誤解(對話維修)中恢復正常的恢復?

可用性和指導:互動是直觀的嗎?該模型在需要時是否提供明確的說明或建議?它是否優(yōu)雅處理錯誤?評估相互作用質量通常在很大程度上取決于人類的判斷,評估任務成功率,用戶滿意度,對話長度/效率和感知的有益性等因素。

前進道路:擁抱整體評估

提出這些新的基準不是要丟棄現(xiàn)有基準。特定技能的定量指標仍然有價值。但是,它們必須在更廣泛,更全面的評估框架中進行上下文,以結合這些更深層次的以人為本的維度。

誠然,實施這種以人為中心的評估提出了挑戰(zhàn)。評估愿望,情感,思想和互動仍然需要大量的人類監(jiān)督,這是主觀的,耗時且昂貴的。為這些定性評估開發(fā)標準化但靈活的協(xié)議是一個正在進行的研究領域,要求計算機科學家,心理學家,倫理學家,語言學家和人類計算機互動專家之間進行合作。

此外,評估不能是靜態(tài)的。隨著模型的發(fā)展,我們的基準也可以。我們需要有機地擴展適應新功能和潛在故障模式的動態(tài)系統(tǒng),從固定數(shù)據(jù)集朝著更現(xiàn)實,互動和潛在的對抗性測試方案進行移動。

“美洲駝戲劇”及時提醒您,在狹窄的基準上追逐排行榜至高無上,可能會掩蓋對建立可信賴和有益的AI真正重要的品質。通過采用一種更全面的評估方法(不僅評估LLM所知道的內容,而且評估他們的想法,感覺(在模擬中),興起(在一致性上)和互動),我們可以以真正增強人類能力并與人類最大利益保持一致的方式指導AI的發(fā)展。這個目標不僅更聰明,而且更明智,更負責任,并且更合作的人工合作伙伴。

以上是超越駱駝戲:大型語言模型的4個新基準的詳細內容。更多信息請關注PHP中文網(wǎng)其他相關文章!

本站聲明
本文內容由網(wǎng)友自發(fā)貢獻,版權歸原作者所有,本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權的內容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅動的應用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

AI投資者停滯不前? 3條購買,建造或與人工智能供應商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨特性的衰落,以AI為中心的風險投資的投資者必須做出關鍵決定:購買,建立或合作伙伴才能獲得優(yōu)勢?這是評估每個選項和PR的方法

AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 Jul 04, 2025 am 11:10 AM

讓我們來談談。 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復雜性(請參閱此處的鏈接)。 前往Agi和

Kimi K2:最強大的開源代理模型 Kimi K2:最強大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時候破壞了Genai行業(yè)的大量開源中國模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

未來預測從AI到AGI的道路上的大規(guī)模情報爆炸 未來預測從AI到AGI的道路上的大規(guī)模情報爆炸 Jul 02, 2025 am 11:19 AM

讓我們來談談。 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復雜性(請參閱此處的鏈接)。對于那些讀者

Grok 4 vs Claude 4:哪個更好? Grok 4 vs Claude 4:哪個更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處于設計理念和部署平臺的相反端,但他們卻在

推理模型的思想鏈可能無法長期解決 推理模型的思想鏈可能無法長期解決 Jul 02, 2025 am 11:18 AM

例如,如果您向模型提出一個問題,例如:“(x)人在(x)公司做什么?”您可能會看到一個看起來像這樣的推理鏈,假設系統(tǒng)知道如何檢索必要的信息:找到有關CO的詳細信息

參議院殺死了特朗普的預算法案中的10年州AI禁令 參議院殺死了特朗普的預算法案中的10年州AI禁令 Jul 02, 2025 am 11:16 AM

參議院星期二早上以99-1投票,殺死了暫停,在倡導團體,立法者和成千上萬的美國人中的最后一分鐘的騷動中,他們將其視為危險的過度。他們沒有保持安靜。參議院傾聽。國家保持

這家初創(chuàng)公司在印度建立了一家醫(yī)院來測試其AI軟件 這家初創(chuàng)公司在印度建立了一家醫(yī)院來測試其AI軟件 Jul 02, 2025 am 11:14 AM

臨床試驗是藥物開發(fā)中的巨大瓶頸,Kim和Reddy認為他們在PI Health建立的AI-Spainite軟件可以通過擴大潛在符合條件的患者的庫來更快,更便宜。但是

See all articles