亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

python 采集中文亂碼問題的完美解決方法

asal 2017-01-09 17:09:02 333
abstrak:下面小編就為大家?guī)硪黄猵ython 采集中文亂碼問題的完美解決方法。近幾日遇到采集某網(wǎng)頁的時(shí)候大部分網(wǎng)頁OK,少部分網(wǎng)頁出現(xiàn)亂碼的問題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄1. 在正常情況下..可以用import chardet  thischarset = chardet.detect(strs)["encoding&qu

下面小編就為大家?guī)硪黄猵ython 采集中文亂碼問題的完美解決方法。

近幾日遇到采集某網(wǎng)頁的時(shí)候大部分網(wǎng)頁OK,少部分網(wǎng)頁出現(xiàn)亂碼的問題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄

1. 在正常情況下..可以用

import chardet 
thischarset = chardet.detect(strs)["encoding"]

來獲取該文件或頁面的編碼方式

或直接抓取頁面的charset = xxxx 來獲取

2. 遇到內(nèi)容中有特殊字符時(shí)指定的編碼一樣會造成亂碼..即內(nèi)容中非法字符造成的,可以采用編碼忽略非法字符的方式來處理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")   
decode的第二個(gè)參數(shù)表示遇到非法字符時(shí)所采取的方式

該參數(shù)默認(rèn)為拋出異常.

更多關(guān)于python 采集中文亂碼問題的完美解決方法請關(guān)注PHP中文網(wǎng)(ipnx.cn)其他文章!

Nota Keluaran

Penyertaan Popular