亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

ホームページ ウェブフロントエンド jsチュートリアル Puppeteer を使用して Web スクレイピングを行う方法: 初心者向けガイド

Puppeteer を使用して Web スクレイピングを行う方法: 初心者向けガイド

Jan 08, 2025 am 12:46 AM

How to Web Scrape with Puppeteer: A Beginner-Friendly Guide

Web スクレイピングは、Web サイトからデータを収集するための非常に強(qiáng)力なツールです。 Node.js 用の Google のヘッドレス ブラウザ ライブラリである Puppeteer を使用すると、人間のブラウジング動(dòng)作を模倣しながら、ページの移動(dòng)、ボタンのクリック、情報(bào)の抽出のプロセスを自動(dòng)化できます。このガイドでは、Puppeteer を使用した Web スクレイピングの基本を、シンプル、明確、実用的な方法で説明します。

パペッティアとは何ですか?

Puppeteer は、Google Chrome (または Chromium) のヘッドレス バージョンを制御できる Node.js ライブラリです。ヘッドレス ブラウザはグラフィカル ユーザー インターフェイス (GUI) なしで実行されるため、高速になり、スクレイピングなどの自動(dòng)化タスクに最適です。ただし、何が起こっているかを視覚的に確認(rèn)する必要がある場(chǎng)合は、Puppeteer をフルブラウザ モードで実行することもできます。

Web スクレイピングに Puppeteer を選ぶ理由?

柔軟性: Puppeteer は、動(dòng)的な Web サイトやシングルページ アプリケーション (SPA) を簡(jiǎn)単に処理します。
JavaScript のサポート: ページ上で JavaScript を?qū)g行します。これは、最新の Web アプリをスクレイピングするために不可欠です。
自動(dòng)化機(jī)能: フォームへの記入、ボタンのクリック、スクリーンショットの撮影などのタスクを?qū)g行できます。

Puppeteer でのプロキシの使用

Web サイトをスクレイピングする場(chǎng)合、IP 禁止を回避し、地理的に制限されたコンテンツにアクセスするには、プロキシが不可欠です。プロキシはスクレイパーとターゲット Web サイトの間の仲介者として機(jī)能し、実際の IP アドレスをマスクします。 Puppeteer の場(chǎng)合、プロキシを起動(dòng)引數(shù)として渡すことで簡(jiǎn)単に統(tǒng)合できます:

JavaScript
コードをコピー
const browser = await puppeteer.launch({
引數(shù): ['--proxy-server=あなたのプロキシサーバー:ポート']
});
プロキシは、スクレイピング作業(yè)をスケールするのに特に役立ちます。プロキシをローテーションすることで、各リクエストが異なる IP から送信されるようになり、検出の可能性が低くなります。信頼性が高いことで知られる住宅用プロキシはボット防御を回避するのに優(yōu)れていますが、データセンター プロキシは高速で手頃な価格です。スクレイピングのニーズに合ったタイプを選択し、常にパフォーマンスをテストして信頼性を確保してください。

Puppeteer のセットアップ

スクレイピングを開始する前に、Puppeteer をセットアップする必要があります。段階的なプロセスを見てみましょう:
ステップ 1: Node.js と Puppeteer をインストールする
Node.js のインストール: 公式 Web サイトから Node.js をダウンロードしてインストールします。
Puppeteer のセットアップ: ターミナルを開いて次のコマンドを?qū)g行します:
バッシュ
コードをコピー
npm install puppeteer

これにより、Puppeteer と、それが制御するブラウザである Chromium がインストールされます。
ステップ 2: 最初の人形遣いスクリプトを作成する
新しい JavaScript ファイル、scraper.js を作成します。これにはスクレイピング ロジックが格納されます。 Web ページを開いてそのタイトルを抽出する簡(jiǎn)単なスクリプトを書いてみましょう:
JavaScript
コードをコピー
const puppeteer = require('puppeteer');

(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();

// Web サイトに移動(dòng)します
await page.goto('https://example.com');

// タイトルを抽出します
const title = await page.title();
console.log(ページタイトル: ${title});

ブラウザを待つ.close();
})();

以下を使用してスクリプトを?qū)g行します:
バッシュ
コードをコピー
ノードスクレーパー.js

これで、初めての Puppeteer スクレイパーが作成されました!

スクレイピングのための Puppeteer のコア機(jī)能

基本を理解したので、スクレイピングに使用するいくつかの主要な Puppeteer 機(jī)能を見てみましょう。

  1. ページへの移動(dòng)
    page.goto(url) メソッドを使用すると、任意の URL を開くことができます。必要に応じて、タイムアウト設(shè)定などのオプションを追加します:
    JavaScript
    コードをコピー
    await page.goto('https://example.com', { タイムアウト: 60000 });

  2. 要素の選択
    CSS セレクターを使用して、ページ上の要素を正確に指定します。 Puppeteer は次のようなメソッドを提供します:
    最初の一致の page.$(selector)
    すべての一致に対する page.$$(selector)
    例:
    JavaScript
    コードをコピー
    const 要素 = await page.$('h1');
    const text = await page.evaluate(el => el.textContent, element);
    console.log(見出し: ${text});

  3. 要素との対話
    クリックや入力などのユーザー操作をシミュレートします:
    JavaScript
    コードをコピー
    await page.click('#submit-button');
    await page.type('#search-box', '人形遣いのスクレイピング');

  4. 要素を待機(jī)中
    Web ページの読み込み速度は異なります。 Puppeteer では、続行する前に要素を待つことができます:
    JavaScript
    コードをコピー
    await page.waitForSelector('#dynamic-content');

  5. スクリーンショットを撮る
    視覚的なデバッグやデータを畫像として保存するのは簡(jiǎn)単です:
    JavaScript
    コードをコピー
    await page.screenshot({ path: 'screenshot.png', fullPage: true });

動(dòng)的コンテンツの処理

現(xiàn)在、多くの Web サイトでは JavaScript を使用してコンテンツを動(dòng)的に読み込みます。ここで Puppeteer が優(yōu)れているのは、JavaScript を?qū)g行し、ページのソースに表示されない可能性のあるコンテンツをスクレイピングできるためです。
例: 動(dòng)的データの抽出
JavaScript
コードをコピー
await page.goto('https://news.ycombinator.com');
await page.waitForSelector('.storylink');

constHeadings = await page.$$eval('.storylink', links => links.map(link => link.textContent));
console.log('見出し:', 見出し);

CAPTCHA とボット検出への対処

一部の Web サイトでは、ボットをブロックするための措置を講じています。 Puppeteer は簡(jiǎn)単なチェックを回避するのに役立ちます:
ステルス モードを使用する: puppeteer-extra プラグインをインストールします:
バッシュ
コードをコピー
npm install puppeteer-extra puppeteer-extra-plugin-stealth
それをスクリプトに追加します:
JavaScript
コードをコピー
const puppeteer = require('puppeteer-extra');
const StealthPlugin = require('puppeteer-extra-plugin-stealth');
puppeteer.use(StealthPlugin());

人間の動(dòng)作を模倣: マウスの動(dòng)きや入力速度などの動(dòng)作をランダム化して、より人間らしく見えるようにします。
ユーザー エージェントのローテーション: リクエストごとにブラウザのユーザー エージェントを変更します:
JavaScript
コードをコピー
await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64)');

スクレイピングされたデータの保存

データを抽出したら、保存する必要があるでしょう。一般的な形式をいくつか示します:
JSON:
JavaScript
コードをコピー
const fs = require('fs');
const data = { 名前: '人形遣い'、タイプ: 'ライブラリ' };
fs.writeFileSync('data.json', JSON.stringify(data, null, 2));

CSV: csv-writer:
のようなライブラリを使用します。 バッシュ
コードをコピー
npm install csv-writer
JavaScript
コードをコピー
const createCsvWriter = require('csv-writer').createObjectCsvWriter;

const csvWriter = createCsvWriter({
パス: 'data.csv',
ヘッダー: [
{ id: '名前', title: '名前' },
{ id: 'タイプ'、タイトル: 'タイプ' }
]
});

const records = [{ name: 'Puppeteer', type: 'library' }];
csvWriter.writeRecords(records).then(() => console.log('CSV ファイルが書き込まれました。'));
倫理的なウェブスクレイピングの実踐
Web サイトをスクレイピングする前に、次の倫理ガイドラインに留意してください:
利用規(guī)約を確認(rèn)してください: Web サイトでスクレイピングが許可されていることを必ず確認(rèn)してください。
レート制限を尊重する: 短時(shí)間に大量のリクエストを送信しないようにします。 setTimeout または Puppeteer の page.waitForTimeout() を使用してリクエストの間隔を空けます:
JavaScript
コードをコピー
await page.waitForTimeout(2000); // 2秒待ちます

機(jī)密データを避ける: 個(gè)人情報(bào)や個(gè)人情報(bào)を決して収集しないでください。

一般的な問(wèn)題のトラブルシューティング

ページが正しく読み込まれません: より長(zhǎng)いタイムアウトを追加するか、フル ブラウザ モードを有効にしてみてください:
JavaScript
コードをコピー
const browser = await puppeteer.launch({ headless: false });

セレクターが機(jī)能しない: ブラウザー開発者ツール (Ctrl Shift C) を使用して Web サイトを検査し、セレクターを確認(rèn)します。
CAPTCHA によってブロックされています: ステルス プラグインを使用し、人間の動(dòng)作を模倣します。

よくある質(zhì)問(wèn) (FAQ)

  1. Puppeteer は無(wú)料ですか? はい、Puppeteer はオープンソースであり、無(wú)料で使用できます。
  2. Puppeteer は JavaScript を多用した Web サイトをスクレイピングできますか? 絶対に! Puppeteer は JavaScript を?qū)g行するため、動(dòng)的サイトのスクレイピングに最適です。
  3. Webスクレイピングは合法ですか? 場(chǎng)合によります。スクレイピングする前に、必ず Web サイトの利用規(guī)約を確認(rèn)してください。
  4. Puppeteer は CAPTCHA を回避できますか? Puppeteer は基本的な CAPTCHA チャレンジを処理できますが、高度なチャレンジにはサードパーティ ツールが必要になる場(chǎng)合があります。

以上がPuppeteer を使用して Web スクレイピングを行う方法: 初心者向けガイドの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無(wú)料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無(wú)料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無(wú)料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

なぜの下部にタグを配置する必要があるのですか? なぜの下部にタグを配置する必要があるのですか? Jul 02, 2025 am 01:22 AM

PLACSTHETTHETTHE BOTTOMOFABLOGPOSTORWEBPAGESERVESPAGESPORCICALPURPOSESESFORSEO、userexperience、andDesign.1.IthelpswithiobyAllowingseNStoAccessKeysword-relevanttagwithtagwithtagwithtagwithemaincontent.2.iTimrovesexperiencebyepingepintepepinedeeping

DOMでのイベントの泡立ちとキャプチャとは何ですか? DOMでのイベントの泡立ちとキャプチャとは何ですか? Jul 02, 2025 am 01:19 AM

イベントキャプチャとバブルは、DOMのイベント伝播の2つの段階です。キャプチャは最上層からターゲット要素までであり、バブルはターゲット要素から上層までです。 1.イベントキャプチャは、AddEventListenerのUseCaptureパラメーターをTrueに設(shè)定することにより実裝されます。 2。イベントバブルはデフォルトの動(dòng)作であり、UseCaptureはfalseに設(shè)定されているか、省略されます。 3。イベントの伝播を使用して、イベントの伝播を防ぐことができます。 4.イベントバブルは、動(dòng)的なコンテンツ処理効率を改善するためにイベント委任をサポートします。 5.キャプチャを使用して、ロギングやエラー処理など、事前にイベントを傍受できます。これらの2つのフェーズを理解することは、タイミングとJavaScriptがユーザー操作にどのように反応するかを正確に制御するのに役立ちます。

JavaScriptモジュールの決定的なJSラウンドアップ:ESモジュールvs CommonJS JavaScriptモジュールの決定的なJSラウンドアップ:ESモジュールvs CommonJS Jul 02, 2025 am 01:28 AM

ESモジュールとCommonJSの主な違いは、ロード方法と使用シナリオです。 1.CommonJSは同期的にロードされ、node.jsサーバー側(cè)環(huán)境に適しています。 2.ESモジュールは、ブラウザなどのネットワーク環(huán)境に適した非同期にロードされています。 3。Syntax、ESモジュールはインポート/エクスポートを使用し、トップレベルのスコープに配置する必要がありますが、CommonJSは実行時(shí)に動(dòng)的に呼ばれるrequire/Module.Exportsを使用します。 4.CommonJSは、Expressなどのnode.jsおよびLibrariesの古いバージョンで広く使用されていますが、ESモジュールは最新のフロントエンドフレームワークとnode.jsv14に適しています。 5.混合することはできますが、簡(jiǎn)単に問(wèn)題を引き起こす可能性があります。

Garbage CollectionはJavaScriptでどのように機(jī)能しますか? Garbage CollectionはJavaScriptでどのように機(jī)能しますか? Jul 04, 2025 am 12:42 AM

JavaScriptのごみ収集メカニズムは、タグクリアリングアルゴリズムを介してメモリを自動(dòng)的に管理して、メモリ漏れのリスクを減らします。エンジンはルートオブジェクトからアクティブオブジェクトを橫斷およびマークし、マークされていないオブジェクトはゴミとして扱われ、クリアされます。たとえば、オブジェクトが參照されなくなった場(chǎng)合(変數(shù)をnullに設(shè)定するなど)、次のリサイクルでリリースされます。メモリリークの一般的な原因には以下が含まれます。 closurures閉鎖の外部変數(shù)への參照。 globalグローバル変數(shù)は引き続き大量のデータを保持しています。 V8エンジンは、世代のリサイクル、増分マーキング、並列/同時(shí)リサイクルなどの戦略を通じてリサイクル効率を最適化し、メインスレッドのブロック時(shí)間を短縮します。開発中、不必要なグローバル?yún)⒄栅虮埭?、パフォーマンスと安定性を改善するためにオブジェクトの関連付けを迅速に裝飾する必要があります。

node.jsでHTTPリクエストを作成する方法は? node.jsでHTTPリクエストを作成する方法は? Jul 13, 2025 am 02:18 AM

node.jsでHTTPリクエストを開始するには、組み込みモジュール、axios、およびnode-fetchを使用する3つの一般的な方法があります。 1.依存関係のない內(nèi)蔵http/httpsモジュールを使用します。これは基本的なシナリオに適していますが、https.get()を使用してデータを取得したり、.write()を介してPOSTリクエストを送信するなど、データステッチとエラーモニタリングの手動(dòng)処理が必要です。 2.Axiosは、約束に基づいたサードパーティライブラリです。簡(jiǎn)潔な構(gòu)文と強(qiáng)力な機(jī)能を備えており、非同期/待ち聲、自動(dòng)JSON変換、インターセプターなどをサポートします。非同期リクエスト操作を簡(jiǎn)素化することをお?jiǎng)幛幛筏蓼埂?3.Node-Fetchは、約束と単純な構(gòu)文に基づいて、ブラウザフェッチに似たスタイルを提供します

var vs let vs const:クイックJSラウンドアップ説明 var vs let vs const:クイックJSラウンドアップ説明 Jul 02, 2025 am 01:18 AM

var、let、constの違いは、範(fàn)囲、昇進(jìn)、繰り返し宣言です。 1.VARは機(jī)能範(fàn)囲であり、変動(dòng)的なプロモーションを備えており、繰り返しの宣言が可能になります。 2.一時(shí)的なデッドゾーンを備えたブロックレベルの範(fàn)囲であり、繰り返される宣言は許可されていません。 3.Constはブロックレベルの範(fàn)囲でもあり、すぐに割り當(dāng)てる必要があり、再割り當(dāng)てすることはできませんが、參照型の內(nèi)部値を変更できます。最初にconstを使用し、変數(shù)を変更するときにletを使用し、varの使用を避けます。

JavaScriptデータ型:プリミティブ対參照 JavaScriptデータ型:プリミティブ対參照 Jul 13, 2025 am 02:43 AM

JavaScriptデータ型は、プリミティブタイプと參照タイプに分割されます。プリミティブタイプには、文字列、數(shù)字、ブール、ヌル、未定義、シンボルが含まれます。値は不変であり、コピーは値を割り當(dāng)てるときにコピーされるため、互いに影響を與えません。オブジェクト、配列、関數(shù)などの參照タイプはメモリアドレスを保存し、同じオブジェクトを指す変數(shù)は互いに影響します。 TypeofとInstanceOFを使用してタイプを決定できますが、TypeOfNullの歴史的な問(wèn)題に注意してください。これらの2種類の違いを理解することは、より安定した信頼性の高いコードを書くのに役立ちます。

DOMツリーを通過(guò)する方法(例:ParentNode、Children、NextElementibling)? DOMツリーを通過(guò)する方法(例:ParentNode、Children、NextElementibling)? Jul 02, 2025 am 12:39 AM

DOMトラバーサルは、Webページ要素操作の基礎(chǔ)です。一般的な方法は次のとおりです。1。親ノードを取得するためにparentNodeを使用し、上向きに見つけるために連鎖させることができます。 2。子供は、子供の要素のコレクションを返し、インデックスを介して最初の子または末端の要素にアクセスします。 3. nextelementsiblingは次の兄弟要素を取得し、以前のエレメントを組み合わせて同性ナビゲーションを?qū)g現(xiàn)します。次のブラザーノードを強(qiáng)調(diào)表示するボタンをクリックするなど、構(gòu)造、インタラクティブな効果などの動(dòng)的に変更するなどの実用的なアプリケーション。これらの方法を習(xí)得した後、複雑な操作を組み合わせて達(dá)成できます。

See all articles