サマリー:下面小編就為大家?guī)?lái)一篇python 采集中文亂碼問(wèn)題的完美解決方法。近幾日遇到采集某網(wǎng)頁(yè)的時(shí)候大部分網(wǎng)頁(yè)OK,少部分網(wǎng)頁(yè)出現(xiàn)亂碼的問(wèn)題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄1. 在正常情況下..可以用import chardet thischarset = chardet.detect(strs)["encoding&qu
下面小編就為大家?guī)?lái)一篇python 采集中文亂碼問(wèn)題的完美解決方法。
近幾日遇到采集某網(wǎng)頁(yè)的時(shí)候大部分網(wǎng)頁(yè)OK,少部分網(wǎng)頁(yè)出現(xiàn)亂碼的問(wèn)題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄
1. 在正常情況下..可以用
import chardet thischarset = chardet.detect(strs)["encoding"]
來(lái)獲取該文件或頁(yè)面的編碼方式
或直接抓取頁(yè)面的charset = xxxx 來(lái)獲取
2. 遇到內(nèi)容中有特殊字符時(shí)指定的編碼一樣會(huì)造成亂碼..即內(nèi)容中非法字符造成的,可以采用編碼忽略非法字符的方式來(lái)處理.
strs = strs.decode("UTF-8","ignore").encode("UTF-8") decode的第二個(gè)參數(shù)表示遇到非法字符時(shí)所采取的方式
該參數(shù)默認(rèn)為拋出異常.
更多關(guān)于python 采集中文亂碼問(wèn)題的完美解決方法請(qǐng)關(guān)注PHP中文網(wǎng)(ipnx.cn)其他文章!