亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

python驗證碼識別的實例詳解

Original 2017-01-16 14:08:09 454
abstract:其實關于驗證碼識別涉及很多方面的內容,入手難度大,但是入手后,可拓展性又非常廣泛,可玩性極強,成就感也很足,對這感興趣的朋友們下面跟著小編一起來學習學習吧。依賴sudo apt-get install python-imaging sudo apt-get install tesseract-ocr pip install&nb

其實關于驗證碼識別涉及很多方面的內容,入手難度大,但是入手后,可拓展性又非常廣泛,可玩性極強,成就感也很足,對這感興趣的朋友們下面跟著小編一起來學習學習吧。

依賴

sudo apt-get install python-imaging
sudo apt-get install tesseract-ocr
pip install pytesseract

利用google ocr來識別驗證碼

from PIL import Image
import pytesseract
image = Image.open('v1.jpg')
vcode = pytesseract.image_to_string(image)
print vcode

但是pytesseract本身識別率不高,而且一般網站的驗證碼都帶有大量干擾元素。( ̄▽ ̄)" 

所以我們首先要對驗證碼進行去噪。 

對于單像素干擾線、干擾點我們可以通過掃描整個圖像,考察每一個像素點所臨近的八個像素點的顏色,如果不同的個數(shù)大于一定的值,那就說明該點是離散點,需要去除。 

另外也可以嘗試設定閾值來直接將驗證碼二值化。

下面是兩張學校網站上的驗證碼

我們可以看到驗證碼存在單像素干擾點,所以我們需要設法去除。但是經過反復刷新驗證碼,發(fā)現(xiàn)這個驗證碼

     1. 只有加法運算

     2.至多兩位數(shù)的加法

     3.文字部分一定是紅色(255,0,0)

有了上述的信息,可以判斷這個驗證碼的生成算法是有缺陷的

import Image
from numpy import *
import pytesseract
im = Image.open('1.png')
im = im.convert('RGB')
#拉長圖像,方便識別。
im = im.resize((200,80))
a = array(im)
for i in xrange(len(a)):
for j in xrange(len(a[i])):
  if a[i][j][0] == 255:
    a[i][j]=[0,0,0]
  else:
    a[i][j]=[255,255,255]
im = Image.fromarray(a)
im.show()
vcode = pytesseract.image_to_string(im)
print vcode

利用上述腳本我們可以將圖像進行二值化,利用google ocr進行識別。再通過eval()來對表達式進行求值。

更多關于python驗證碼識別的實例詳解請關注PHP中文網(ipnx.cn)其他文章! 

Release Notes

Popular Entries