亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁 後端開發(fā) Python教學(xué) 研究 np.einsum 的性能

研究 np.einsum 的性能

Nov 08, 2024 pm 09:22 PM

我上一篇博文的一位讀者向我指出,對於切片matmul 之類的操作,np.einsum 比np.matmul 慢得多,除非您在參數(shù)列表中打開優(yōu)化標(biāo)誌: np.einsum(. . ., 最佳化= True).

帶著一些懷疑,我啟動了 Jupyter 筆記本並做了一些初步測試。 我天哪,這是完全正確的 - 即使對於兩個操作數(shù)的情況,優(yōu)化根本不應(yīng)該產(chǎn)生任何區(qū)別!

檢定 1 非常簡單 - 兩個不同維度的 C 階(又稱行主階)矩陣的矩陣乘法。 np.matmul 總是快二十倍左右。

Investigating the performance of np.einsum

M1 M2 np.einsum np.matmul np.einsum / np.matmul
(100, 500) (500, 100) 0.765 0.045 17.055
(100, 1000) (1000, 100) 1.495 0.073 20.554
(100, 10000) (10000, 100) 15.148 0.896 16.899

對於檢定2,當(dāng)optimize=True時,結(jié)果截然不同。 np.einsum 仍然較慢,但最壞情況下僅慢 1.5 倍左右!

Investigating the performance of np.einsum

M1 M2 np.einsum np.matmul np.einsum / np.matmul
(100, 500) (500, 100) 0.063 0.043 1.474
(100, 1000) (1000, 100) 0.086 0.067 1.284
(100, 10000) (10000, 100) 1.000 0.936 1.068

為什麼?

我對最佳化標(biāo)誌的理解是,當(dāng)存在三個或更多操作數(shù)時,它確定最佳收縮順序。 這裡,我們只有兩個操作數(shù)。 所以優(yōu)化應(yīng)該不會有什麼不同,對吧?

但也許優(yōu)化不只是選擇收縮順序? 也許優(yōu)化器知道記憶體佈局,這與行優(yōu)先與列優(yōu)先佈局有關(guān)?

在矩陣乘法的小學(xué)方法中,要計算單個條目,您將迭代op1 中的行,同時迭代op2 中的列,因此將第二個參數(shù)按列優(yōu)先順序放置可能會導(dǎo)致加速對於np.einsum (假設(shè)np.einsum 有點像是底層矩陣乘法的小學(xué)方法的通用版本,我懷疑這是真的)。

因此,對於 測試 3,我為第二個運算元傳遞了一個列主矩陣,以查看當(dāng) optimize=False 時這是否會加快 np.einsum 的速度。

這是結(jié)果。 令人驚訝的是,np.einsum 還是相當(dāng)更糟。 顯然,發(fā)生了一些我不明白的事情 - 當(dāng) optimize 為 True 時,也許 np.einsum 使用完全不同的程式碼路徑? 是時候開始挖掘了。

Investigating the performance of np.einsum

M1 M2 np.einsum np.matmul np.einsum / np.matmul
(100, 500) (500, 100) 1.486 0.056 26.541
(100, 1000) (1000, 100) 3.885 0.125 31.070
(100, 10000) (10000, 100) 49.669 1.047 47.444

更深入

Numpy 1.12.0 的發(fā)行說明提到了最佳化標(biāo)誌的引入。 然而,優(yōu)化的目的似乎是確定操作數(shù)鏈中參數(shù)的組合順序(即關(guān)聯(lián)性) - 因此優(yōu)化不應(yīng)僅對兩個操作數(shù)產(chǎn)生影響,對吧? 以下是發(fā)行說明:

np.einsum 現(xiàn)在支援最佳化參數(shù),它將最佳化收縮順序。例如,np.einsum 將在一次傳遞中完成鏈點範(fàn)例np.einsum('ij,jk,kl->il', a, b, c),其縮放比例類似於N^4;然而,當(dāng)optimize= True時,np.einsum將建立一個中間數(shù)組,以將此縮放減少到N^3或有效地np.dot(a, b).dot(c)。使用中間張量來減少縮放已應(yīng)用於通用 einsum 求和符號。有關(guān)更多詳細(xì)信息,請參閱 np.einsum_path。

為了讓這個謎團更加複雜,一些後來的發(fā)行說明表明 np.einsum 已升級為使用tensordot(它本身在適當(dāng)?shù)那闆r下使用BLAS)。 現(xiàn)在,這似乎很有希望。

但是,為什麼我們在最佳化為True時看到加速? 發(fā)生什麼事了?

如果我們在numpy/numpy/_core/einsumfunc.py 中閱讀def einsum(*operands, out=None, optimization=False, **kwargs) ,我們幾乎會立即看到這個提前退出的邏輯:

c_einsum 是否使用tensordot? 我對此表示懷疑。 稍後在程式碼中,我們看到 1.14 註解似乎引用了 tensordot 呼叫:

所以,這就是發(fā)生的事情

  1. 如果 optimization 為 True,則收縮清單循環(huán)將被執(zhí)行 - 即使在簡單的兩個操作數(shù)情況下也是如此。
  2. tensordot在收縮_列表循環(huán)中呼叫。
  3. 因此,當(dāng)optimize為True時,我們呼叫tensordot(因此也呼叫BLAS)。

對我來說,這似乎是個錯誤。 恕我直言, np.einsum 開頭的「提前退出」仍應(yīng)偵測運算元是否與tensordot相容,並在可能的情況下呼叫tensordot。 然後,即使優(yōu)化為 False,我們也會得到明顯的 BLAS 加速。 畢竟,最佳化的語義與收縮順序有關(guān),而不是與 BLAS 的使用有關(guān),我認(rèn)為這應(yīng)該是給定的。

這裡的好處是,調(diào)用 np.einsum 進行相當(dāng)於張量調(diào)用的操作的人將獲得適當(dāng)?shù)募铀伲瑥男阅芙嵌葋砜?,這使得 np.einsum 的危險性降低了一些。

c_einsum 實際上是如何運作的?

我深入研究了一些 C 程式碼來檢查它。 實現(xiàn)的核心就在這裡。

經(jīng)過大量的參數(shù)解析和參數(shù)準(zhǔn)備,確定了軸迭代順序並準(zhǔn)備了專用迭代器。 迭代器的每個收益都代表了同時跨越所有操作數(shù)的不同方式。

假設(shè)某些特殊情況最佳化不適用,則根據(jù)涉及的資料類型確定適當(dāng)?shù)某朔e和 (sop) 函數(shù):

然後,在從迭代器返回的每個多操作數(shù)步幅上呼叫此乘積和 (sop) 運算,如下所示:

這就是我對 einsum 工作原理的理解,誠然,它仍然有點薄弱——它確實值得我花更多的時間來了解它。

但它確實證實了我的懷疑,它的作用就像小學(xué)矩陣乘法方法的廣義、千兆腦版本。 最終,它委託給一系列「乘積之和」運算,這些運算依賴於在操作數(shù)中移動的「跨步器」——與學(xué)習(xí)矩陣乘法時用手指所做的沒有太大不同。

概括

那為什麼當(dāng)你使用optimize=True呼叫np.einsum時通常會比較快呢? 原因有兩個。

第一個(也是最初的)原因是它試圖找到最佳的收縮路徑。 然而,正如我所指出的,當(dāng)我們只有兩個操作數(shù)時,這應(yīng)該不重要,就像我們在效能測試中所做的那樣。

第二個(也是較新的)原因是,當(dāng)optimize=True時,即使在兩個運算元的情況下,它也會啟動一個程式碼路徑,在可能的情況下呼叫tensordot,而tensordot又會嘗試使用BLAS。 BLAS 與矩陣乘法一樣最佳化!

所以,雙重操作數(shù)加速之謎解決了! 然而,我們還沒有真正涵蓋由於收縮順序而導(dǎo)致的加速特性。 這得等以後的貼文了! 敬請期待!

以上是研究 np.einsum 的性能的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
Python類中的多態(tài)性 Python類中的多態(tài)性 Jul 05, 2025 am 02:58 AM

多態(tài)是Python面向?qū)ο缶幊讨械暮诵母拍睿浮耙环N接口,多種實現(xiàn)”,允許統(tǒng)一處理不同類型的對象。 1.多態(tài)通過方法重寫實現(xiàn),子類可重新定義父類方法,如Animal類的speak()方法在Dog和Cat子類中有不同實現(xiàn)。 2.多態(tài)的實際用途包括簡化代碼結(jié)構(gòu)、增強可擴展性,例如圖形繪製程序中統(tǒng)一調(diào)用draw()方法,或遊戲開發(fā)中處理不同角色的共同行為。 3.Python實現(xiàn)多態(tài)需滿足:父類定義方法,子類重寫該方法,但不要求繼承同一父類,只要對象實現(xiàn)相同方法即可,這稱為“鴨子類型”。 4.注意事項包括保持方

解釋Python發(fā)電機和迭代器。 解釋Python發(fā)電機和迭代器。 Jul 05, 2025 am 02:55 AM

迭代器是實現(xiàn)__iter__()和__next__()方法的對象,生成器是簡化版的迭代器,通過yield關(guān)鍵字自動實現(xiàn)這些方法。 1.迭代器每次調(diào)用next()返回一個元素,無更多元素時拋出StopIteration異常。 2.生成器通過函數(shù)定義,使用yield按需生成數(shù)據(jù),節(jié)省內(nèi)存且支持無限序列。 3.處理已有集合時用迭代器,動態(tài)生成大數(shù)據(jù)或需惰性求值時用生成器,如讀取大文件時逐行加載。注意:列表等可迭代對像不是迭代器,迭代器到盡頭後需重新創(chuàng)建,生成器只能遍歷一次。

如何處理Python中的API身份驗證 如何處理Python中的API身份驗證 Jul 13, 2025 am 02:22 AM

處理API認(rèn)證的關(guān)鍵在於理解並正確使用認(rèn)證方式。 1.APIKey是最簡單的認(rèn)證方式,通常放在請求頭或URL參數(shù)中;2.BasicAuth使用用戶名和密碼進行Base64編碼傳輸,適合內(nèi)部系統(tǒng);3.OAuth2需先通過client_id和client_secret獲取Token,再在請求頭中帶上BearerToken;4.為應(yīng)對Token過期,可封裝Token管理類自動刷新Token;總之,根據(jù)文檔選擇合適方式,並安全存儲密鑰信息是關(guān)鍵。

解釋Python斷言。 解釋Python斷言。 Jul 07, 2025 am 12:14 AM

Assert是Python用於調(diào)試的斷言工具,當(dāng)條件不滿足時拋出AssertionError。其語法為assert條件加可選錯誤信息,適用於內(nèi)部邏輯驗證如參數(shù)檢查、狀態(tài)確認(rèn)等,但不能用於安全或用戶輸入檢查,且應(yīng)配合清晰提示信息使用,僅限開發(fā)階段輔助調(diào)試而非替代異常處理。

如何一次迭代兩個列表 如何一次迭代兩個列表 Jul 09, 2025 am 01:13 AM

在Python中同時遍歷兩個列表的常用方法是使用zip()函數(shù),它會按順序配對多個列表並以最短為準(zhǔn);若列表長度不一致,可使用itertools.zip_longest()以最長為準(zhǔn)並填充缺失值;結(jié)合enumerate()可同時獲取索引。 1.zip()簡潔實用,適合成對數(shù)據(jù)迭代;2.zip_longest()處理不一致長度時可填充默認(rèn)值;3.enumerate(zip())可在遍歷時獲取索引,滿足多種複雜場景需求。

什麼是Python迭代器? 什麼是Python迭代器? Jul 08, 2025 am 02:56 AM

Inpython,IteratorSareObjectSthallowloopingThroughCollectionsByImplementing_iter __()和__next __()。 1)iteratorsWiaTheIteratorProtocol,使用__ITER __()toreTurnterateratoratoranteratoratoranteratoratorAnterAnteratoratorant antheittheext__()

什麼是Python型提示? 什麼是Python型提示? Jul 07, 2025 am 02:55 AM

typeHintsInpyThonsolverbromblemboyofambiguityandPotentialBugSindyNamalytyCodeByallowingDevelopsosteSpecefectifyExpectedTypes.theyenhancereadability,enablellybugdetection,andimprovetool.typehintsupport.typehintsareadsareadsareadsareadsareadsareadsareadsareadsareaddedusidocolon(

Python Fastapi教程 Python Fastapi教程 Jul 12, 2025 am 02:42 AM

要使用Python創(chuàng)建現(xiàn)代高效的API,推薦使用FastAPI;其基於標(biāo)準(zhǔn)Python類型提示,可自動生成文檔,性能優(yōu)越。安裝FastAPI和ASGI服務(wù)器uvicorn後,即可編寫接口代碼。通過定義路由、編寫處理函數(shù)並返回數(shù)據(jù),可以快速構(gòu)建API。 FastAPI支持多種HTTP方法,並提供自動生成的SwaggerUI和ReDoc文檔系統(tǒng)。 URL參數(shù)可通過路徑定義捕獲,查詢參數(shù)則通過函數(shù)參數(shù)設(shè)置默認(rèn)值實現(xiàn)。合理使用Pydantic模型有助於提升開發(fā)效率和準(zhǔn)確性。

See all articles