abstrak:阻塞式 I/O 模型最流行的 IO 操作是阻塞式 IO(Blocking IO). 以 UDP 數(shù)據(jù)報套接字為例, 下圖是其阻塞 IO 的調用過程:在上圖中, 進程調用 recvfrom, 其系統(tǒng)調用直到數(shù)據(jù)報返回并且被復制到應用進程的緩沖區(qū)中 或者發(fā)送錯誤時才返回. 因此進程在調用 recvfrom 開始到它返回的整段時間內都是被阻塞的.非阻塞式 IO(Non-Blocking IO)
阻塞式 I/O 模型
最流行的 IO 操作是阻塞式 IO(Blocking IO). 以 UDP 數(shù)據(jù)報套接字為例, 下圖是其阻塞 IO 的調用過程:
在上圖中, 進程調用 recvfrom, 其系統(tǒng)調用直到數(shù)據(jù)報返回并且被復制到應用進程的緩沖區(qū)中 或者發(fā)送錯誤時才返回. 因此進程在調用 recvfrom 開始到它返回的整段時間內都是被阻塞的.
非阻塞式 IO(Non-Blocking IO)
進程把一個套接字設置為非阻塞是在通知內核: 當調用線程所請求的 IO 操作需要調用線程休眠來等待操作完成時, 此時不要將調用線程休眠, 而是返回一個錯誤.
如上圖所示, 前三次調用 recvfrom 時, 沒有數(shù)據(jù)可返回, 因此內核轉而立即返回一個 EWOULDBLOCK 錯誤. 第四次調用 recvfrom 時, 已經(jīng)有數(shù)據(jù)了, 此時, recvfrom 會阻塞住, 等待內核將數(shù)據(jù)賦值到應用進程的緩沖區(qū)中, 然后再返回.(注意, 當有數(shù)據(jù)時, recvfrom 是阻塞的, 它會等待內核將數(shù)據(jù)復制到應用進程的緩沖區(qū)后, 才返回).
當一個應用進程像這樣對一個非阻塞描述符循環(huán)調用 recvfrom 時, 我們稱之為輪詢(polling). 應用進程持續(xù)輪詢內核, 以查看某個操作是否完成, 這么做會消耗大量的 CPU 時間, 不過這種模型偶爾也會遇到, 通常是專門提供某一種功能的系統(tǒng)中才有.
IO 復用模型
有了 IO 復用(IO multiplexing), 我們就可以調用 select 或 poll, 阻塞在這兩個系統(tǒng)調用中的某一個之上, 而不是阻塞在真正的 IO 系統(tǒng)調用上. 例如:
如上圖所示, 前三次調用 recvfrom 時, 沒有數(shù)據(jù)可返回, 因此內核轉而立即返回一個 EWOULDBLOCK 錯誤. 第四次調用 recvfrom 時, 已經(jīng)有數(shù)據(jù)了, 此時, recvfrom 會阻塞住, 等待內核將數(shù)據(jù)賦值到應用進程的緩沖區(qū)中, 然后再返回.(注意, 當有數(shù)據(jù)時, recvfrom 是阻塞的, 它會等待內核將數(shù)據(jù)復制到應用進程的緩沖區(qū)后, 才返回).
當一個應用進程像這樣對一個非阻塞描述符循環(huán)調用 recvfrom 時, 我們稱之為輪詢(polling). 應用進程持續(xù)輪詢內核, 以查看某個操作是否完成, 這么做會消耗大量的 CPU 時間, 不過這種模型偶爾也會遇到, 通常是專門提供某一種功能的系統(tǒng)中才有.
IO 復用模型
有了 IO 復用(IO multiplexing), 我們就可以調用 select 或 poll, 阻塞在這兩個系統(tǒng)調用中的某一個之上, 而不是阻塞在真正的 IO 系統(tǒng)調用上. 例如:
信號驅動模型如上圖所示. 當文件描述符就緒時, 我們可以讓內核以信號的方式通知我們.我們首先需要開啟套接字的信號驅動式 IO 功能, 并通過 sigaction 系統(tǒng)調用安裝一個信號處理函數(shù). sigaction 系統(tǒng)調用是異步的, 它會立即返回. 當有數(shù)據(jù)時, 內核會給此進程發(fā)送一個 SIGIO 信號, 進而我們的信號處理函數(shù)就會被執(zhí)行, 我們就可以在這個函數(shù)中調用 recvfrom 讀取數(shù)據(jù).
異步 IO 模型
異步 IO (asynchronous IO) 由 POSIX 規(guī)范定義, 在 POSIX 中定義了若干個異步 IO 的操作函數(shù). 這個函數(shù)的工作原理是: 告知內核啟動某個動作, 并讓內核在整個操作(包括將數(shù)據(jù)從內核復制到應用進程緩沖區(qū))完成后通知我們的應用進程.
異步 IO 模型和信號驅動的 IO 模型的主要區(qū)別在于: 信號驅動 IO 是由內核通知我們何時可以啟動一個 IO 操作, 而異步 IO 模型是由內核通知我們 IO 操作何時完成.
異步 IO 模型的操作過程如圖所示:
當我們調用 aio_read 函數(shù)時(POSIX 異步 IO 函數(shù)以 aio_或 lio_ 開頭), 給內核傳遞描述符, 緩沖區(qū)指針, 緩沖區(qū)大小(和 read 相同的三個參數(shù)) 和文件偏移(以 lseek 類似), 并告訴內核當整個操作完成時如何通知應用進程. 該系統(tǒng)調用立即返回, 而且在等待 IO 完成期間, 應用進程不被阻塞.
各種 IO 模型的比較
如圖所示, 上述五中 IO 模型中, 前四種模型(阻塞 IO, 非阻塞 IO, IO 復用, 信號驅動 IO)的主要區(qū)別在于第一階段, 因為他們的第二階段是一樣的: 在數(shù)據(jù)從內核復制到調用者的緩沖區(qū)期間, 進程阻塞于 recvfrom 調用. 而第五種, 即異步 IO 模型中, 兩個階段都不需要應用進程處理, 內核為我們處理好了數(shù)據(jù)的等待和數(shù)據(jù)的復制過程.
關于同步 IO 和異步 IO
根據(jù) POSIX 定義:
A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes(導致請求進程阻塞, 直到 IO 操作完成).
An asynchronous I/O operation does not cause the requesting process to be blocked(不導致請求進程阻塞).
根據(jù)上述定義, 我們的前四種模型: 阻塞 IO 模型, 非阻塞 IO 模型, IO 復用模型和信號驅動 IO 模型都是同步 IO 模型, 因為其中真正的 IO 操作(recvfrom 調用) 會阻塞進程(因為當有數(shù)據(jù)時, recvfrom 會阻塞等待內核將數(shù)據(jù)從內核空間復制到應用進程空間, 當賦值完成后, recvfrom 才返回.) 只有異步 IO 模型與 POSIX 定義的異步 IO 相匹配.
總結
在處理網(wǎng)絡 IO 操作時, 阻塞和非阻塞 IO 都是同步 IO.只有調用了特殊的 API 才是異步 IO.
因此網(wǎng)上常說的 "同步阻塞 IO", "同步非阻塞 IO" 其實就是阻塞 IO 模型和非阻塞 IO 模型, 因為阻塞 IO 和非阻塞 IO 模型都是同步的, 加了 "同步" 二字其實是多余了.網(wǎng)絡上常說的 "異步非阻塞 IO" 其實就是異步 IO 模型.