????:下面小編就為大家?guī)硪黄猵ython 采集中文亂碼問題的完美解決方法。近幾日遇到采集某網(wǎng)頁的時候大部分網(wǎng)頁OK,少部分網(wǎng)頁出現(xiàn)亂碼的問題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄1. 在正常情況下..可以用import chardet thischarset = chardet.detect(strs)["encoding&qu
下面小編就為大家?guī)硪黄猵ython 采集中文亂碼問題的完美解決方法。
近幾日遇到采集某網(wǎng)頁的時候大部分網(wǎng)頁OK,少部分網(wǎng)頁出現(xiàn)亂碼的問題,調(diào)試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄
1. 在正常情況下..可以用
import chardet thischarset = chardet.detect(strs)["encoding"]
來獲取該文件或頁面的編碼方式
或直接抓取頁面的charset = xxxx 來獲取
2. 遇到內(nèi)容中有特殊字符時指定的編碼一樣會造成亂碼..即內(nèi)容中非法字符造成的,可以采用編碼忽略非法字符的方式來處理.
strs = strs.decode("UTF-8","ignore").encode("UTF-8") decode的第二個參數(shù)表示遇到非法字符時所采取的方式
該參數(shù)默認為拋出異常.
更多關于python 采集中文亂碼問題的完美解決方法請關注PHP中文網(wǎng)(ipnx.cn)其他文章!