php爬蟲(chóng)框架有:1、phpspider,一個(gè)爬蟲(chóng)開(kāi)發(fā)框架;2、Beanbun,用PHP編寫(xiě)的多進(jìn)程網(wǎng)絡(luò)爬蟲(chóng)框架;3、PHPCrawl,一個(gè)PHP開(kāi)源的Web檢索蜘蛛類(lèi)庫(kù)。
PHP主流爬蟲(chóng)框架
phpspider
地址:https://github.com/owner888/phpspider
phpspider是一個(gè)爬蟲(chóng)開(kāi)發(fā)框架。使用本框架,你不用了解爬蟲(chóng)的底層技術(shù)實(shí)現(xiàn),爬蟲(chóng)被網(wǎng)站屏蔽、有些網(wǎng)站需要登錄或驗(yàn)證碼識(shí)別才能爬取等問(wèn)題。簡(jiǎn)單幾行PHP代碼,就可以創(chuàng)建自己的爬蟲(chóng),利用框架封裝的多進(jìn)程Worker類(lèi)庫(kù),代碼更簡(jiǎn)潔,執(zhí)行效率更高速度更快。
立即學(xué)習(xí)“PHP免費(fèi)學(xué)習(xí)筆記(深入)”;
Beanbun
地址:http://www.beanbun.org/#/
Beanbun 是用 PHP 編寫(xiě)的多進(jìn)程網(wǎng)絡(luò)爬蟲(chóng)框架,具有良好的開(kāi)放性、高可擴(kuò)展性。
支持守護(hù)進(jìn)程與普通兩種模式(守護(hù)進(jìn)程模式只支持 Linux 服務(wù)器)
默認(rèn)使用 Guzzle 進(jìn)行爬取
支持分布式
支持內(nèi)存、Redis 等多種隊(duì)列方式
支持自定義URI過(guò)濾
支持廣度優(yōu)先和深度優(yōu)先兩種爬取方式
遵循 PSR-4 標(biāo)準(zhǔn)
爬取網(wǎng)頁(yè)分為多步,每步均支持自定義動(dòng)作(如添加代理、修改 user-agent 等)
靈活的擴(kuò)展機(jī)制,可方便的為框架制作插件:自定義隊(duì)列、自定義爬取方式…
PHPCrawl
地址:http://phpcrawl.cuab.de/
PHPCrawl是一個(gè)PHP開(kāi)源的Web檢索蜘蛛(爬蟲(chóng))類(lèi)庫(kù)。PHPCrawl抓取工具“ Spider ”的網(wǎng)站,并提供一切有關(guān)網(wǎng)頁(yè),鏈接,文件等信息。
PHPCrawl povides可以選擇性的指定的爬蟲(chóng)的行為,比如喜歡網(wǎng)址、內(nèi)容類(lèi)型,過(guò)濾器、 cookie的處理等方式。
更多相關(guān)知識(shí),請(qǐng)?jiān)L問(wèn)?PHP中文網(wǎng)!!
PHP怎么學(xué)習(xí)?PHP怎么入門(mén)?PHP在哪學(xué)?PHP怎么學(xué)才快?不用擔(dān)心,這里為大家提供了PHP速學(xué)教程(入門(mén)到精通),有需要的小伙伴保存下載就能學(xué)習(xí)啦!
微信掃碼
關(guān)注PHP中文網(wǎng)服務(wù)號(hào)
QQ掃碼
加入技術(shù)交流群
Copyright 2014-2025 http://ipnx.cn/ All Rights Reserved | php.cn | 湘ICP備2023035733號(hào)