亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

python - 網頁title中包含換行,如何用正規(guī)表示式擷取出來?
女神的閨蜜愛上我
女神的閨蜜愛上我 2017-06-22 11:51:43
0
2
1100

在用python做CSDN的網頁爬蟲,在爬取網頁title時,我一直用的正規(guī)表示式(?<=\<title\>). ?(?=\< )在CSDN中用不了了,去CSDN源碼一看,title換行顯示了

所以導致原來的正規(guī)表示式無法使用,那麼,問題來了,像這樣網頁title中包含換行,如何用正規(guī)表示式提取出來呢?

PS:

  1. 不想用xpath或beautifulsoup的方法,只需要正規(guī)哦

  2. #CSDN本身有反爬蟲機制,我並不是因為這隻反爬蟲而爬不到title的哦

謝謝大家

參考@caimaoy 的方法,我將正規(guī)表示式改為(?<=\<title\>)(?:.|\n) ?(?=\<)後,title完美提取。
再次感謝大家。

女神的閨蜜愛上我
女神的閨蜜愛上我

全部回覆(2)
僅有的幸福
  1. re.M 多行模式

  2. 自己寫多行配對 http://python3-cookbook.readt...

曾經蠟筆沒有小新

表達式那邊加個flag

tite = '......'
print(re.findall('(?<=\<title\>).+?(?=\<)', title, re.S))
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板