亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁(yè) web前端 js教程 如何使用 Puppeteer 進(jìn)行網(wǎng)頁(yè)抓取:初學(xué)者友好指南

如何使用 Puppeteer 進(jìn)行網(wǎng)頁(yè)抓?。撼鯇W(xué)者友好指南

Jan 08, 2025 am 12:46 AM

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

網(wǎng)絡(luò)抓取是從網(wǎng)站收集數(shù)據(jù)的極其強(qiáng)大的工具。借助 Puppeteer(Google 的 Node.js 無頭瀏覽器庫(kù)),您可以自動(dòng)執(zhí)行頁(yè)面導(dǎo)航、單擊按鈕和提取信息的過程,同時(shí)模仿人類瀏覽行為。本指南將以簡(jiǎn)單、清晰且可操作的方式引導(dǎo)您了解使用 Puppeteer 進(jìn)行網(wǎng)頁(yè)抓取的基本知識(shí)。

什么是傀儡師?

Puppeteer 是一個(gè) Node.js 庫(kù),可讓您控制 Google Chrome(或 Chromium)的無頭版本。無頭瀏覽器在沒有圖形用戶界面 (GUI) 的情況下運(yùn)行,使其速度更快,非常適合抓取等自動(dòng)化任務(wù)。但是,如果您需要直觀地查看正在發(fā)生的情況,Puppeteer 也可以在完整瀏覽器模式下運(yùn)行。

為什么選擇 Puppeteer 進(jìn)行網(wǎng)頁(yè)抓???

靈活性:Puppeteer 可以輕松處理動(dòng)態(tài)網(wǎng)站和單頁(yè)應(yīng)用程序 (SPA)。
JavaScript 支持:它在頁(yè)面上執(zhí)行 JavaScript,這對(duì)于抓取現(xiàn)代網(wǎng)絡(luò)應(yīng)用程序至關(guān)重要。
自動(dòng)化能力:您可以執(zhí)行填寫表格、單擊按鈕甚至截屏等任務(wù)。

將代理與 Puppeteer 一起使用

抓取網(wǎng)站時(shí),代理對(duì)于避免 IP 禁令和訪問地理限制內(nèi)容至關(guān)重要。代理充當(dāng)您的抓取工具和目標(biāo)網(wǎng)站之間的中介,掩蓋您的真實(shí) IP 地址。對(duì)于 Puppeteer,您可以通過將代理作為啟動(dòng)參數(shù)傳遞來輕松集成代理:

javascript
復(fù)制代碼
const browser = wait puppeteer.launch({
args: ['--proxy-server=your-proxy-server:port']
});
代理對(duì)于擴(kuò)展抓取工作特別有用。輪換代理可確保每個(gè)請(qǐng)求都來自不同的 IP,從而減少檢測(cè)到的機(jī)會(huì)。住宅代理以其真實(shí)性而聞名,非常適合繞過機(jī)器人防御,而數(shù)據(jù)中心代理速度更快、價(jià)格更便宜。選擇符合您的抓取需求的類型,并始終測(cè)試性能以確??煽啃?。

設(shè)置 Puppeteer

開始抓取之前,您需要設(shè)置 Puppeteer。讓我們深入了解分步過程:
第 1 步:安裝 Node.js 和 Puppeteer
安裝Node.js:從官網(wǎng)下載并安裝Node.js。
設(shè)置 Puppeteer:打開終端并運(yùn)行以下命令:
重?fù)?br> 復(fù)制代碼
npm install puppeteer

這將安裝 Puppeteer 和 Chromium,它控制的瀏覽器。
第 2 步:編寫你的第一個(gè) Puppeteer 腳本
創(chuàng)建一個(gè)新的 JavaScript 文件 scraper.js。這將容納您的抓取邏輯。讓我們編寫一個(gè)簡(jiǎn)單的腳本來打開網(wǎng)頁(yè)并提取其標(biāo)題:
javascript
復(fù)制代碼
const puppeteer = require('puppeteer');

(async () => {
const browser = wait puppeteer.launch();
const page = wait browser.newPage();

// 導(dǎo)航到網(wǎng)站
等待 page.goto('https://example.com');

// 提取標(biāo)題
const title = wait page.title();
console.log(頁(yè)面標(biāo)題: ${title});

等待 browser.close();
})();

使用以下命令運(yùn)行腳本:
重?fù)?br> 復(fù)制代碼
節(jié)點(diǎn) scraper.js

您剛剛編寫了第一個(gè) Puppeteer scraper!

用于抓取的核心 Puppeteer 功能

現(xiàn)在您已經(jīng)掌握了基礎(chǔ)知識(shí),讓我們來探索一些用于抓取的關(guān)鍵 Puppeteer 功能。

  1. 導(dǎo)航至頁(yè)面
    page.goto(url) 方法允許您打開任何 URL。如果需要,添加超時(shí)設(shè)置等選項(xiàng):
    javascript
    復(fù)制代碼
    wait page.goto('https://example.com', { timeout: 60000 });

  2. 選擇元素
    使用 CSS 選擇器來精確定位頁(yè)面上的元素。 Puppeteer 提供了如下方法:
    第一個(gè)匹配的 page.$(selector)
    page.$$(選擇器) 適用于所有匹配
    示例:
    javascript
    復(fù)制代碼
    const 元素=await page.$('h1');
    const text = wait page.evaluate(el => el.textContent, element);
    console.log(標(biāo)題: ${text});

  3. 與元素互動(dòng)
    模擬用戶交互,例如點(diǎn)擊和鍵入:
    javascript
    復(fù)制代碼
    等待 page.click('#submit-button');
    wait page.type('#search-box', 'Puppeteer scraping');

  4. 等待元素
    網(wǎng)頁(yè)以不同的速度加載。 Puppeteer 允許您在繼續(xù)操作之前等待元素:
    javascript
    復(fù)制代碼
    等待 page.waitForSelector('#dynamic-content');

  5. 截圖
    可視化調(diào)試或?qū)?shù)據(jù)保存為圖像很容易:
    javascript
    復(fù)制代碼
    wait page.screenshot({ path: 'screenshot.png', fullPage: true });

處理動(dòng)態(tài)內(nèi)容

當(dāng)今許多網(wǎng)站使用 JavaScript 動(dòng)態(tài)加載內(nèi)容。 Puppeteer 在這里大放異彩,因?yàn)樗鼒?zhí)行 JavaScript,允許您抓取頁(yè)面源代碼中可能不可見的內(nèi)容。
示例:提取動(dòng)態(tài)數(shù)據(jù)
javascript
復(fù)制代碼
等待 page.goto('https://news.ycombinator.com');
等待 page.waitForSelector('.storylink');

const headers = wait page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('頭條新聞:', 頭條新聞);

處理驗(yàn)證碼和機(jī)器人檢測(cè)

一些網(wǎng)站采取了阻止機(jī)器人的措施。 Puppeteer 可以幫助繞過簡(jiǎn)單的檢查:
使用隱身模式:安裝 puppeteer-extra 插件:
重?fù)?br> 復(fù)制代碼
npm install puppeteer-extra puppeteer-extra-plugin-stealth
將其添加到您的腳本中:
javascript
復(fù)制代碼
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

模仿人類行為:隨機(jī)化鼠標(biāo)移動(dòng)和打字速度等動(dòng)作,以顯得更加人性化。
輪換用戶代理:根據(jù)每個(gè)請(qǐng)求更改瀏覽器的用戶代理:
javascript
復(fù)制代碼
wait page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

保存抓取的數(shù)據(jù)

提取數(shù)據(jù)后,您可能想要保存它。以下是一些常見的格式:
JSON:
javascript
復(fù)制代碼
const fs = require('fs');
const data = { name: 'Puppeteer', type: 'library' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV:使用像 csv-writer 這樣的庫(kù):
重?fù)?br> 復(fù)制代碼
npm 安裝 csv-writer
javascript
復(fù)制代碼
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
路徑: 'data.csv',
標(biāo)題:[
{ id: '姓名', title: '姓名' },
{ id: '類型', title: '類型' }
]
});

const 記錄 = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV 文件已寫入。'));
道德網(wǎng)絡(luò)抓取實(shí)踐
在抓取網(wǎng)站之前,請(qǐng)記住這些道德準(zhǔn)則:
檢查服務(wù)條款:始終確保網(wǎng)站允許抓取。
尊重速率限制:避免在短時(shí)間內(nèi)發(fā)送太多請(qǐng)求。使用 setTimeout 或 Puppeteer 的 page.waitForTimeout() 來間隔請(qǐng)求:
javascript
復(fù)制代碼
等待頁(yè)面.waitForTimeout(2000); // 等待2秒

避免敏感數(shù)據(jù):切勿抓取個(gè)人或私人信息。

常見問題故障排除

頁(yè)面無法正確加載:嘗試添加更長(zhǎng)的超時(shí)或啟用完整瀏覽器模式:
javascript
復(fù)制代碼
const browser = wait puppeteer.launch({ headless: false });

選擇器不起作用:使用瀏覽器開發(fā)人員工具(Ctrl Shift C)檢查網(wǎng)站以確認(rèn)選擇器。
被驗(yàn)證碼阻止:使用隱身插件并模仿人類行為。

常見問題 (FAQ)

  1. Puppeteer 免費(fèi)嗎? 是的,Puppeteer 是開源的并且可以免費(fèi)使用。
  2. Puppeteer 可以抓取大量 JavaScript 的網(wǎng)站嗎? 絕對(duì)地! Puppeteer 執(zhí)行 JavaScript,非常適合抓取動(dòng)態(tài)網(wǎng)站。
  3. 網(wǎng)頁(yè)抓取合法嗎? 這取決于。在抓取之前請(qǐng)務(wù)必檢查網(wǎng)站的服務(wù)條款。
  4. Puppeteer 可以繞過驗(yàn)證碼嗎? Puppeteer 可以處理基本的驗(yàn)證碼挑戰(zhàn),但高級(jí)挑戰(zhàn)可能需要第三方工具。

以上是如何使用 Puppeteer 進(jìn)行網(wǎng)頁(yè)抓?。撼鯇W(xué)者友好指南的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

垃圾收集如何在JavaScript中起作用? 垃圾收集如何在JavaScript中起作用? Jul 04, 2025 am 12:42 AM

JavaScript的垃圾回收機(jī)制通過標(biāo)記-清除算法自動(dòng)管理內(nèi)存,以減少內(nèi)存泄漏風(fēng)險(xiǎn)。引擎從根對(duì)象出發(fā)遍歷并標(biāo)記活躍對(duì)象,未被標(biāo)記的則被視為垃圾并被清除。例如,當(dāng)對(duì)象不再被引用(如將變量設(shè)為null),它將在下一輪回收中被釋放。常見的內(nèi)存泄漏原因包括:①未清除的定時(shí)器或事件監(jiān)聽器;②閉包中對(duì)外部變量的引用;③全局變量持續(xù)持有大量數(shù)據(jù)。V8引擎通過分代回收、增量標(biāo)記、并行/并發(fā)回收等策略優(yōu)化回收效率,降低主線程阻塞時(shí)間。開發(fā)時(shí)應(yīng)避免不必要的全局引用、及時(shí)解除對(duì)象關(guān)聯(lián),以提升性能與穩(wěn)定性。

如何在node.js中提出HTTP請(qǐng)求? 如何在node.js中提出HTTP請(qǐng)求? Jul 13, 2025 am 02:18 AM

在Node.js中發(fā)起HTTP請(qǐng)求有三種常用方式:使用內(nèi)置模塊、axios和node-fetch。1.使用內(nèi)置的http/https模塊無需依賴,適合基礎(chǔ)場(chǎng)景,但需手動(dòng)處理數(shù)據(jù)拼接和錯(cuò)誤監(jiān)聽,例如用https.get()獲取數(shù)據(jù)或通過.write()發(fā)送POST請(qǐng)求;2.axios是基于Promise的第三方庫(kù),語(yǔ)法簡(jiǎn)潔且功能強(qiáng)大,支持async/await、自動(dòng)JSON轉(zhuǎn)換、攔截器等,推薦用于簡(jiǎn)化異步請(qǐng)求操作;3.node-fetch提供類似瀏覽器fetch的風(fēng)格,基于Promise且語(yǔ)法簡(jiǎn)單

JavaScript數(shù)據(jù)類型:原始與參考 JavaScript數(shù)據(jù)類型:原始與參考 Jul 13, 2025 am 02:43 AM

JavaScript的數(shù)據(jù)類型分為原始類型和引用類型。原始類型包括string、number、boolean、null、undefined和symbol,其值不可變且賦值時(shí)復(fù)制副本,因此互不影響;引用類型如對(duì)象、數(shù)組和函數(shù)存儲(chǔ)的是內(nèi)存地址,指向同一對(duì)象的變量會(huì)相互影響。判斷類型可用typeof和instanceof,但需注意typeofnull的歷史問題。理解這兩類差異有助于編寫更穩(wěn)定可靠的代碼。

JavaScript時(shí)間對(duì)象,某人構(gòu)建了一個(gè)eactexe,在Google Chrome上更快的網(wǎng)站等等 JavaScript時(shí)間對(duì)象,某人構(gòu)建了一個(gè)eactexe,在Google Chrome上更快的網(wǎng)站等等 Jul 08, 2025 pm 02:27 PM

JavaScript開發(fā)者們,大家好!歡迎閱讀本周的JavaScript新聞!本周我們將重點(diǎn)關(guān)注:Oracle與Deno的商標(biāo)糾紛、新的JavaScript時(shí)間對(duì)象獲得瀏覽器支持、GoogleChrome的更新以及一些強(qiáng)大的開發(fā)者工具。讓我們開始吧!Oracle與Deno的商標(biāo)之爭(zhēng)Oracle試圖注冊(cè)“JavaScript”商標(biāo)的舉動(dòng)引發(fā)爭(zhēng)議。Node.js和Deno的創(chuàng)建者RyanDahl已提交請(qǐng)?jiān)笗笕∠撋虡?biāo),他認(rèn)為JavaScript是一個(gè)開放標(biāo)準(zhǔn),不應(yīng)由Oracle

React與Angular vs Vue:哪個(gè)JS框架最好? React與Angular vs Vue:哪個(gè)JS框架最好? Jul 05, 2025 am 02:24 AM

選哪個(gè)JavaScript框架最好?答案是根據(jù)需求選擇最適合的。1.React靈活自由,適合需要高度定制、團(tuán)隊(duì)有架構(gòu)能力的中大型項(xiàng)目;2.Angular提供完整解決方案,適合企業(yè)級(jí)應(yīng)用和長(zhǎng)期維護(hù)的大項(xiàng)目;3.Vue上手簡(jiǎn)單,適合中小型項(xiàng)目或快速開發(fā)。此外,是否已有技術(shù)棧、團(tuán)隊(duì)規(guī)模、項(xiàng)目生命周期及是否需要SSR也都是選擇框架的重要因素??傊?,沒有絕對(duì)最好的框架,適合自己需求的就是最佳選擇。

立即在JavaScript中立即調(diào)用功能表達(dá)式(IIFE) 立即在JavaScript中立即調(diào)用功能表達(dá)式(IIFE) Jul 04, 2025 am 02:42 AM

IIFE(ImmediatelyInvokedFunctionExpression)是一種在定義后立即執(zhí)行的函數(shù)表達(dá)式,用于變量隔離和避免污染全局作用域。它通過將函數(shù)包裹在括號(hào)中使其成為表達(dá)式,并緊隨其后的一對(duì)括號(hào)來調(diào)用,如(function(){/code/})();。其核心用途包括:1.避免變量沖突,防止多個(gè)腳本間的命名重復(fù);2.創(chuàng)建私有作用域,使函數(shù)內(nèi)部變量不可見;3.模塊化代碼,便于初始化工作而不暴露過多變量。常見寫法包括帶參數(shù)傳遞的版本和ES6箭頭函數(shù)版本,但需注意:必須使用表達(dá)式、結(jié)

處理諾言:鏈接,錯(cuò)誤處理和承諾在JavaScript中 處理諾言:鏈接,錯(cuò)誤處理和承諾在JavaScript中 Jul 08, 2025 am 02:40 AM

Promise是JavaScript中處理異步操作的核心機(jī)制,理解鏈?zhǔn)秸{(diào)用、錯(cuò)誤處理和組合器是掌握其應(yīng)用的關(guān)鍵。1.鏈?zhǔn)秸{(diào)用通過.then()返回新Promise實(shí)現(xiàn)異步流程串聯(lián),每個(gè).then()接收上一步結(jié)果并可返回值或Promise;2.錯(cuò)誤處理應(yīng)統(tǒng)一使用.catch()捕獲異常,避免靜默失敗,并可在catch中返回默認(rèn)值繼續(xù)流程;3.組合器如Promise.all()(全成功才成功)、Promise.race()(首個(gè)完成即返回)和Promise.allSettled()(等待所有完成)

什么是緩存API?如何與服務(wù)人員使用? 什么是緩存API?如何與服務(wù)人員使用? Jul 08, 2025 am 02:43 AM

CacheAPI是瀏覽器提供的一種緩存網(wǎng)絡(luò)請(qǐng)求的工具,常與ServiceWorker配合使用,以提升網(wǎng)站性能和離線體驗(yàn)。1.它允許開發(fā)者手動(dòng)存儲(chǔ)如腳本、樣式表、圖片等資源;2.可根據(jù)請(qǐng)求匹配緩存響應(yīng);3.支持刪除特定緩存或清空整個(gè)緩存;4.通過ServiceWorker監(jiān)聽fetch事件實(shí)現(xiàn)緩存優(yōu)先或網(wǎng)絡(luò)優(yōu)先等策略;5.常用于離線支持、加快重復(fù)訪問速度、預(yù)加載關(guān)鍵資源及后臺(tái)更新內(nèi)容;6.使用時(shí)需注意緩存版本控制、存儲(chǔ)限制及與HTTP緩存機(jī)制的區(qū)別。

See all articles