批改狀態(tài):未批改
老師批語:
第一次接觸爬蟲后,自己對爬蟲的理解;
爬蟲:就是抓取網(wǎng)頁數(shù)據(jù),模擬瀏覽器發(fā)送網(wǎng)絡請求,接收請求響應,一種按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序。原則上只要是瀏覽器或者客戶端能做的,爬蟲都能做。
利用網(wǎng)頁三大特征進行爬蟲:
第一:URL進行定位(鎖定爬蟲的目標);
第二:網(wǎng)頁的源碼(HTML+CSS+JavaScript);
第三:網(wǎng)頁的傳輸協(xié)議(HTTP或HTTPS).
確定好爬蟲目標就可以開始使用PHP中file();file_get_contents();curl()等函數(shù)方法進行爬蟲的設定。
其中curl_setopt()函數(shù)方法可以對爬蟲的數(shù)據(jù)獲取進行設置,從而獲取所需的數(shù)據(jù)(設置也是數(shù)據(jù)的篩選),此函數(shù)方法還可以進行模擬瀏覽器對服務器發(fā)出的post請求,因此獲得Header區(qū)域內容。
Copyright 2014-2025 http://ipnx.cn/ All Rights Reserved | php.cn | 湘ICP備2023035733號