8天堂资源在线,国产成人综合在线视频

RAG優(yōu)化模型登上開源王座

One More Thing

首頁

科技週邊

人工智慧

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單

王林

Apr 10, 2024 pm 03:16 PM

參數(shù) gpt-4 karpathy

能打得過GPT-4的開源模型出現(xiàn)了！

大模型競技場最新戰(zhàn)報：

1040億參數(shù)開源模型Command R 攀升至第6位，與GPT-4-0314打成平手，超過了GPT-4-0613。

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單圖片

這也是第一個在大模型競技場上擊敗GPT-4的開放權(quán)重模型。

大模型競技場，可是大神Karpathy口中唯二信任的測試基準之一。

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單圖片

Command R 來自AI獨角獸Cohere。這家大模型新創(chuàng)公司的共同創(chuàng)辦人兼CEO，正是Transformer最年輕作者Aidan Gomez（簡稱割麥子）。

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單圖片

這份戰(zhàn)報一出，又掀起了一波大模型社群的熱烈討論。

大傢伙兒興奮的理由很簡單：基礎大模型捲了一整年，沒想到在2024年格局還在不斷地發(fā)展變化。

HuggingFace聯(lián)合創(chuàng)始人Thomas Wolf就說：

最近大模型競技場上的情況發(fā)生了巨大的變化：

Anthropic的Claude 3 opus在閉源模型中獨佔鰲頭。

Cohere的Command R 則成為了開源模型中最強的者。

沒想到，2024年在開源和閉源兩條路線上，人工智慧團隊的發(fā)展都如此之快。

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單圖片

另外，Cohere機器學習總監(jiān)Nils Reimers也指出了值得關注的一點：

Command R 最大的特色是對內(nèi)建RAG（檢索增強生成）進行了全面優(yōu)化，而在大模型競技場中，RAG這樣的外掛能力並未納入測試。

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單圖片

RAG優(yōu)化模型登上開源王座

在Cohere官方定位中，Command R 是一個“RAG優(yōu)化模型” 。

就是說，這個1040億參數(shù)的大模型主要針對檢索增強生成技術進行了深度優(yōu)化，以減少幻覺的產(chǎn)生，更適合企業(yè)級工作負載。

和先前推出的Command R一樣，Command R 的上下文視窗長度是128k。

此外，Command R 還具備以下特點：

涵蓋10 種語言，包括英文、中文、法文、德文等；
能使用工具完成複雜業(yè)務流程的自動化

從測試結(jié)果來看，在多語言、RAG和工具使用這三個維度上，Command R 都達到了GPT-4 turbo的水平。

但在輸入成本方面，Command R 的價格僅為GPT-4 turbo的1/3。

輸出成本方面，Command R 則是GPT-4 turbo的1/2。

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單圖片

正是這點引發(fā)了不少網(wǎng)友的關注：

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單圖片

#不過，儘管在大模型競技場這種人類主觀評測上表現(xiàn)搶眼，還是有網(wǎng)友甩出了一些不同觀點。

在HumanEval上，Command R 的程式碼能力就連GPT-3.5都沒打過，在兩組測驗中分別排在32位和33位。

最新版GPT-4 turbo則沒有懸念地拿下了第一名。

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單圖片

另外，我們也在最近剛登上正經(jīng)論文的弱智吧benchmark上簡單測試了一下Command R 的中文能力。

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單圖片

你給打個分？

要說明的是，Command R 的開源只針對學術研究，並不能免費商用。

One More Thing

最後的最後，還是多聊一嘴割麥小哥。

Aidan Gomez，Transformer圓桌騎士中最年輕的一位，加入研究團隊時只是個本科生－

不過，是在多倫多大學讀大三時就加入了Hinton實驗室的那種。

2018年，割麥子被牛津大學錄取，開始像他的論文搭訕們那樣攻讀CS博士學位。

但在2019年，隨著Cohere的創(chuàng)立，他最終選擇退學加入AI創(chuàng)業(yè)的浪潮。

Cohere主要是為企業(yè)提供大模型解決方案，目前估值達到了22億美元。

參考連結(jié)：
[1]http://ipnx.cn/link/3be14122a3c78d9070cae09a16adcbb1[2]http://ipnx.cn/ link/93fc5aed8c051ce4538e052cfe9f8692

以上是開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單的詳細內(nèi)容。更多資訊請關注PHP中文網(wǎng)其他相關文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願投稿，版權(quán)歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請聯(lián)絡admin@php.cn

熱AI工具

熱工具

熱門話題

Laravel 教程

1597

PHP教程

1488

Related knowledge

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統(tǒng)運算的能力，還能以更低的成本實現(xiàn)更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經(jīng)濟、推理高效的特點。它由236B個參數(shù)組成，其中21B個參數(shù)用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節(jié)省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

大模型一對一戰(zhàn)鬥75萬輪，GPT-4奪冠，Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3，又有測試結(jié)果新鮮出爐－大模型評測社群LMSYS發(fā)布了一份大模型排行榜單，Llama3位列第五，英文單項與GPT-4並列第一。圖片不同於其他Benchmark，這份榜單的依據(jù)是模型一對一battle，由全網(wǎng)測評者自行命題並評分。最終，Llama3取得了榜單中的第五名，排在前面的是GPT-4的三個不同版本，以及Claude3超大杯Opus。而在英文單項榜單中，Llama3反超了Claude，與GPT-4打成了平手。對於這一結(jié)果，Meta的首席科學家LeCun十分高興，轉(zhuǎn)發(fā)了推文並

第二代Ameca來了！和觀眾對答如流，臉部表情更逼真，會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了！最近，在世界行動通訊大會MWC2024上，世界上最先進機器人Ameca又現(xiàn)身了。會場周圍，Ameca引來一大波觀眾。得到GPT-4加持後，Ameca能夠?qū)Ω鞣N問題做出即時反應。「來一段舞蹈」。當被問及是否有情感時，Ameca用一系列的面部表情做出回應，看起來非常逼真。就在前幾天，Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發(fā)成果。影片中，機器人Ameca具備了視覺能力，能看見並描述房間整個狀況、描述具體物體。最厲害的是，她還能

產(chǎn)品參數(shù)是什麼意思 Jul 05, 2023 am 11:13 AM

產(chǎn)品參數(shù)是指產(chǎn)品屬性的意思。例如服裝參數(shù)有品牌、材質(zhì)、型號、大小、風格、布料、適應人群和顏色等；食品參數(shù)有品牌、重量、材質(zhì)、衛(wèi)生許可證號碼、適應人群和顏色等；家電參數(shù)有品牌、尺寸、顏色、產(chǎn)地、適應電壓、訊號、介面和功率等。

PHP 5.4版本新功能：如何使用callable類型提示參數(shù)接受可呼叫的函數(shù)或方法 Jul 29, 2023 pm 09:19 PM

PHP5.4版本新功能：如何使用callable類型提示參數(shù)接受可呼叫的函數(shù)或方法引言：PHP5.4版本引入了一個非常便利的新功能-可以使用callable類型提示參數(shù)來接受可呼叫的函數(shù)或方法。這個新功能使得函數(shù)和方法可以直接指定對應的可呼叫參數(shù)，而無需進行額外的檢查和轉(zhuǎn)換。在本文中，我們將介紹callable類型提示的使用方法，並提供一些程式碼範例，

全球最強模型一夜易主，GPT-4時代終結(jié)！ Claude 3提前狙擊GPT-5，3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了，大模型又變天了。就在剛剛，全球最強AI模型一夜易主，GPT-4被拉下神壇。 Anthropic發(fā)布了最新的Claude3系列模型，一句話評價：真·全面碾壓GPT-4！在多模態(tài)和語言能力指標上，Claude3都贏麻了。用Anthropic的話來說，Claude3系列模型在推理、數(shù)學、編碼、多語言理解和視覺方面，都樹立了新的行業(yè)基準！ Anthropic，就是曾因安全理念不合，而從OpenAI「叛逃」出的員工組成的新創(chuàng)公司，他們的產(chǎn)品一再給OpenAI暴擊。這次的Claude3，更是整了個大的

i9-12900H參數(shù)評測大全 Feb 23, 2024 am 09:25 AM

i9-12900H是14核心的處理器，使用的架構(gòu)和工藝都是全新的，線程也很高，整體的工作都是很優(yōu)秀的，一些參數(shù)都有提升特別的全面，是可以給用戶們帶來極佳體驗的。 i9-12900H參數(shù)評測大全評測：1、i9-12900H是14核心的處理器，採用了q1架構(gòu)以及24576kb的製程工藝，提升到了20個執(zhí)行緒。 2.最大的CPU頻率是1.80！5.00ghz，整體主要取決於工作的負載。 3.相比較價位來說還是特別合適的，性價比很不錯，對於一些需要正常使用的伙伴來說非常的合適。 i9-12900H參數(shù)評測大全性能跑分

vivox200ultra參數(shù)及價格詳情 Jun 28, 2024 pm 01:23 PM

vivox200ultra最新官方消息曝光了vivox200ultra參數(shù)及價格詳情，據(jù)悉vivox200ultra將搭載10倍潛望超長焦，價格大概在6999元起，可見其在拍照性能上佔據(jù)了絕對的優(yōu)勢地位，下面是vivox200ultra參數(shù)及價格詳情，快來看看。一、vivox200ultra參數(shù)配置詳情1、vivox200ultra渲染圖由vivo X200 Ultra渲染圖來看，該機正面採用了無邊框的全面屏設計，整個手機正面的視覺效果可以說非常的無敵。 2、vivox200ultra有黑鷹框架

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單

RAG優(yōu)化模型登上開源王座

One More Thing

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單

RAG優(yōu)化模型登上開源王座

One More Thing

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

開源模型首勝GPT-4！競技場最新戰(zhàn)報引熱議，Karpathy：這是我唯二信任的榜單