亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

搜索
Python:BeautifulSoup解析HTML,導(dǎo)致部分html源碼丟失
伊謝爾倫
伊謝爾倫 2017-04-17 14:21:16
[Python討論組]

在處理下載網(wǎng)頁(yè)的時(shí)候,有時(shí)候會(huì)碰到一些奇葩的網(wǎng)頁(yè),在使用beautifulsoup解析的時(shí)候,會(huì)修改原來(lái)的html源碼,導(dǎo)致下載的網(wǎng)頁(yè)不完整。
比如:

from bs4 import BeautifulSoup
html="""<html><h1>12</h1></html><html><h2>12</h2></html>"""
soup = BeautifulSoup(html)
print str(soup)

結(jié)果:<html><h1>12</h1></html>
我的本意是先使用BeautifulSoup先對(duì)源代碼進(jìn)行解析處理,之后在保存html源碼到本地。
而上面的例子,很明顯就改變了網(wǎng)頁(yè)源碼了,導(dǎo)致下載的網(wǎng)頁(yè)不全。


目前的解決辦法
html = re.sub("</html>","",html,flags=re.S|re.IGNORECASE)+"</html>"
這樣就能夠“正?!苯馕隽?/p>

伊謝爾倫
伊謝爾倫

小伙看你根骨奇佳,潛力無(wú)限,來(lái)學(xué)PHP伐。

全部回復(fù)(1)
天蓬老師

個(gè)人感覺(jué)有兩種方案,第一就是自己用正則來(lái)判斷抓取網(wǎng)頁(yè)中有沒(méi)有多個(gè)html標(biāo)簽,有的話自行進(jìn)行分割成兩個(gè)小的頁(yè)面進(jìn)行解析。第二個(gè)方案直接當(dāng)成xml來(lái)解析。

最新下載
更多>
網(wǎng)站特效
網(wǎng)站源碼
網(wǎng)站素材
前端模板
關(guān)于我們 免責(zé)申明 意見(jiàn)反饋 講師合作 廣告合作 最新更新
php中文網(wǎng):公益在線php培訓(xùn),幫助PHP學(xué)習(xí)者快速成長(zhǎng)!
關(guān)注服務(wù)號(hào) 技術(shù)交流群
PHP中文網(wǎng)訂閱號(hào)
每天精選資源文章推送
PHP中文網(wǎng)APP
隨時(shí)隨地碎片化學(xué)習(xí)
PHP中文網(wǎng)抖音號(hào)
發(fā)現(xiàn)有趣的

Copyright 2014-2025 http://ipnx.cn/ All Rights Reserved | php.cn | 湘ICP備2023035733號(hào)