日本中文字幕一区二区有码在线,亚洲+欧美+综合,国产日韩欧美不卡在线二区

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開源中國模型嗎？盡管DeepSeek占據(jù)了大多數(shù)頭條新聞，但Kimi K1.5是列表中的重要名字之一。模型很酷。在Kim K1.5上的詳細(xì)博客中了解所有內(nèi)容。 7個(gè)月后，Moonshot帶有其新的代理開源型號(hào)：Kimi K2。它以1萬億個(gè)總參數(shù)和320億個(gè)激活的專家（MOE）體系結(jié)構(gòu)提供了尖端的性能。讓我們進(jìn)一步了解它！

什么是Kimi K2？
基準(zhǔn)和性能
Kimi K2如何學(xué)習(xí)（訓(xùn)練前和培訓(xùn)后）？
Kimi K2如何學(xué)會(huì)使用工具（例如開發(fā)人員）？
如何訪問？
- 在線嘗試Kimi K2
- 通過API使用Kimi K2
- 在本地或您自己的服務(wù)器上運(yùn)行Kimi K2
任務(wù)1：研究和創(chuàng)建報(bào)告
任務(wù)2：預(yù)訂飛行票
結(jié)論
常見問題

什么是Kimi K2？

如上所述，Kimi K2是一種強(qiáng)大的新開源模型，旨在處理復(fù)雜的任務(wù)。憑借其先進(jìn)的體系結(jié)構(gòu)和明智的決策能力，它不僅會(huì)響應(yīng)提示，還采取了真正的行動(dòng)。從編碼到數(shù)據(jù)分析，它旨在使每個(gè)人都可以使用高級(jí)AI工具。

它有2個(gè)變體：

KIMI-K2基礎(chǔ)：一個(gè)強(qiáng)大的基礎(chǔ)模型，非常適合想要完全定制和微調(diào)功能的研究人員和開發(fā)人員。
KIMI-K2教學(xué)：通用聊天和反射級(jí)代理任務(wù)的訓(xùn)練后的指令遵循模型。

基準(zhǔn)和性能

Kimi K2：最強(qiáng)大的開源代理模型

Kimi K2在以下基準(zhǔn)中提供了最先進(jìn)和開源的領(lǐng)先結(jié)果：

SWE板凳驗(yàn)證： 65.8％的單位準(zhǔn)確性
SWE Bench多語言： 47.3％（在測試型號(hào)中最好）
LiveCodeBench v6： 53.7％
Ojbench： 27.1％
tau2板凳（加權(quán)平均）： 66.1％
Acebench（EN）： 80.1％
Aime 2025： 49.5％
GPQA-Diamond： 75.1％

這些得分突出了Kimi K2在代理編碼，工具使用和復(fù)雜的STEM任務(wù)中的強(qiáng)度，通常優(yōu)于Claude和GPT-4等專有模型。

不知道這些基準(zhǔn)如何工作？在頂級(jí)LLM基準(zhǔn)測試中查看我們的詳細(xì)指南。

Kimi K2如何學(xué)習(xí)（訓(xùn)練前和培訓(xùn)后）？

想象一下，通過喂巨大的書籍圖書館來教機(jī)器人。這稱為預(yù)訓(xùn)練。 Kimi K2讀取15.5萬億個(gè)令牌，基本上是互聯(lián)網(wǎng)多次。它試圖猜測下一個(gè)單詞，檢查它是否正確，并隨著時(shí)間的推移而改善。閱讀越多，得到的就越好。

Kimi K2：最強(qiáng)大的開源代理模型

但是，有一個(gè)捕獲的人寫的數(shù)據(jù)有限。因此，Kimi K2不僅僅是閱讀，還開始自己做事學(xué)習(xí)。這稱為訓(xùn)練后。它從自己創(chuàng)造的經(jīng)驗(yàn)中學(xué)習(xí)，例如嘗試工具或解決任務(wù)并判斷它的表現(xiàn)。

為了確保在學(xué)習(xí)大量數(shù)據(jù)時(shí)不會(huì)感到困惑，Kimi K2使用了一個(gè)名為MuonClip的特殊優(yōu)化器?？梢詫⑵湟暈橐幻嘤?xùn)教練，使一切保持平衡。其他模型有時(shí)在培訓(xùn)期間“炸毀”，這意味著他們的內(nèi)部數(shù)學(xué)變得太極端了。 MuonClip通過輕輕控制可能失控的零件（查詢/鑰匙矩陣）來防止這種情況，從而使所有內(nèi)容保持光滑和可靠。

Kimi K2如何學(xué)會(huì)使用工具（例如開發(fā)人員）？

假設(shè)您希望您的AI助手預(yù)訂航班或編寫代碼。為此，它需要知道如何使用工具。 Kimi K2通過模擬學(xué)習(xí)了這一點(diǎn)。

Kimi K2：最強(qiáng)大的開源代理模型

這是它的工作原理，一步一步：

從目標(biāo)開始（例如回答問題）。
創(chuàng)建一個(gè)域（主題或環(huán)境）。
添加真實(shí)或模擬工具。
建立數(shù)百個(gè)試圖使用工具完成任務(wù)的代理商。
模擬與這些代理商互動(dòng)的用戶。
聰明的AI法官檢查了他們的工作，并濾除了不良的工作。

這有助于Kimi K2在幫助真正的用戶之前練習(xí)數(shù)千種不同的工具使用方案。

Kimi K2還使用增強(qiáng)學(xué)習(xí)。這就像學(xué)習(xí)玩游戲，您可以獲得良好動(dòng)作的積分。對(duì)于數(shù)學(xué)或編碼等任務(wù)，它可以檢查是否正確。但是對(duì)于諸如寫作或幫助用戶之類的任務(wù)，沒有“正確”的答案。因此，Kimi K2是其自己的審稿人。它判斷自己的表現(xiàn)，給自己反饋，并繼續(xù)學(xué)習(xí)。它還使用明顯正確的任務(wù)（例如數(shù)學(xué)）來改善其能夠?yàn)槟：娜蝿?wù)得分。

如何訪問？

您可以通過幾種方式訪問Kimi K2 ，具體取決于您是休閑用戶，開發(fā)人員還是運(yùn)行自己的基礎(chǔ)架構(gòu)：

在線嘗試Kimi K2

網(wǎng)站：https：//www.kimi.com/
從模型選擇器中選擇Kimi K2（通常顯示為“ Kimi-K2”或“ K2”）
無需安裝；只需開始聊天或上傳任務(wù)

通過API使用Kimi K2

訪問Moonshot平臺(tái)：https：//platform.moonshot.cn
API與OpenAI/擬人格式兼容
支持工具使用和代理工作流程
包括用于聊天，文件工具和代理編排的端點(diǎn)

在本地或您自己的服務(wù)器上運(yùn)行Kimi K2

型號(hào)重量：在GitHub和/或擁抱臉上開源（很快）
推薦的推理引擎：
- vllm
- sglang
- ktransformers
- Tensorrt-llm

如果您進(jìn)行微調(diào)，研究或內(nèi)部擴(kuò)展，這是理想的選擇。

在下一部分中，我將使用此模型執(zhí)行一些任務(wù)，并為您提供同樣的看法。

任務(wù)1：研究和創(chuàng)建報(bào)告

提示： “基于生成AI和代理AI的最新趨勢，請(qǐng)給我一份報(bào)告，有關(guān)哪些技能將在2025年與營銷，銀行，社交媒體，產(chǎn)品管理，產(chǎn)品管理，軟件開發(fā)，內(nèi)容，HR和制造業(yè)相關(guān)。 ”

輸出：

觀察：

研究部分做得很好，報(bào)告中使用的語言感到自然而然，并與整體對(duì)話具有人類的感覺。但是，它難以以PDF格式生成輸出。

任務(wù)2：預(yù)訂飛行票

提示： “我駐扎在德里，將于今年八月前往Datahack峰會(huì)。您能分享會(huì)議上的期望，還可以幫助我找到最便宜的航班選擇嗎？ ”

輸出：

觀察：

活動(dòng)的詳細(xì)信息是準(zhǔn)確的，并且提供了酒店和飛行信息。這對(duì)于計(jì)劃旅行非常有幫助。最好的部分？它完全免費(fèi)完成了所有這些。

另請(qǐng)閱讀：可以使您的生活變得輕松的前5位General AI代理商！

結(jié)論

``m對(duì)奇米K2對(duì)查詢的反應(yīng)方式印象深刻 - 幾乎感覺就像是與人交流。與眾不同的是，它的大多數(shù)高級(jí)功能都可以免費(fèi)使用，這與其他需要付費(fèi)訂閱的平臺(tái)（如Manus，Genspark或Openai的運(yùn)營商）不同。響應(yīng)很快，其處理各種任務(wù)的能力表明它確實(shí)是一個(gè)強(qiáng)大的代理模型。結(jié)合了大規(guī)模培訓(xùn)，工具使用和自適應(yīng)智能，它為一般的AI系統(tǒng)鋪平了道路，這些系統(tǒng)的思考，行動(dòng)和適應(yīng)。

無論您是構(gòu)建編碼代理，進(jìn)行現(xiàn)實(shí)世界數(shù)據(jù)科學(xué)還是制作下一代界面，Kimi K2都可以使您有能力創(chuàng)建。

今天嘗試一下，讓我在下面的評(píng)論中知道您的想法。