亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

python 采集中文亂碼問(wèn)題的完美解決方法

オリジナル 2017-01-09 17:09:02 333
サマリー:下面小編就為大家?guī)?lái)一篇python 采集中文亂碼問(wèn)題的完美解決方法。近幾日遇到采集某網(wǎng)頁(yè)的時(shí)候大部分網(wǎng)頁(yè)OK,少部分網(wǎng)頁(yè)出現(xiàn)亂碼的問(wèn)題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄1. 在正常情況下..可以用import chardet  thischarset = chardet.detect(strs)["encoding&qu

下面小編就為大家?guī)?lái)一篇python 采集中文亂碼問(wèn)題的完美解決方法。

近幾日遇到采集某網(wǎng)頁(yè)的時(shí)候大部分網(wǎng)頁(yè)OK,少部分網(wǎng)頁(yè)出現(xiàn)亂碼的問(wèn)題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄

1. 在正常情況下..可以用

import chardet 
thischarset = chardet.detect(strs)["encoding"]

來(lái)獲取該文件或頁(yè)面的編碼方式

或直接抓取頁(yè)面的charset = xxxx 來(lái)獲取

2. 遇到內(nèi)容中有特殊字符時(shí)指定的編碼一樣會(huì)造成亂碼..即內(nèi)容中非法字符造成的,可以采用編碼忽略非法字符的方式來(lái)處理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")   
decode的第二個(gè)參數(shù)表示遇到非法字符時(shí)所采取的方式

該參數(shù)默認(rèn)為拋出異常.

更多關(guān)于python 采集中文亂碼問(wèn)題的完美解決方法請(qǐng)關(guān)注PHP中文網(wǎng)(ipnx.cn)其他文章!

手記を発表する

人気のある見(jiàn)出し語(yǔ)