亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
限制
如何在 Node.js 網(wǎng)頁抓取中處理動態(tài)內(nèi)容?
如何避免在網(wǎng)頁抓取時被封禁?
如何從需要登錄的網(wǎng)站抓取數(shù)據(jù)?
如何將抓取的數(shù)據(jù)保存到數(shù)據(jù)庫?
如何從帶有分頁的網(wǎng)站抓取數(shù)據(jù)?
如何從帶有無限滾動的網(wǎng)站抓取數(shù)據(jù)?
如何在網(wǎng)頁抓取中處理錯誤?
如何從使用 AJAX 的網(wǎng)站抓取數(shù)據(jù)?
如何加快 Node.js 中的網(wǎng)頁抓取速度?
如何從使用 CAPTCHA 的網(wǎng)站抓取數(shù)據(jù)?
首頁 web前端 js教程 node.js中的網(wǎng)絡(luò)刮擦

node.js中的網(wǎng)絡(luò)刮擦

Feb 24, 2025 am 08:53 AM

Web Scraping in Node.js

核心要點

  • Node.js 的網(wǎng)頁抓取涉及從遠程服務(wù)器下載源代碼並從中提取數(shù)據(jù),可以使用 cheeriorequest 等模塊來實現(xiàn)。
  • cheerio 模塊實現(xiàn)了 jQuery 的一個子集,可以從 HTML 字符串構(gòu)建 DOM 並進行解析,但它可能難以處理結(jié)構(gòu)不良的 HTML。
  • 通過結(jié)合requestcheerio 可以構(gòu)建完整的網(wǎng)頁抓取程序來提取網(wǎng)頁的特定元素,但是處理動態(tài)內(nèi)容、避免被封禁以及處理需要登錄或使用CAPTCHA 的網(wǎng)站會更加複雜,可能需要額外的工具或策略。

網(wǎng)頁抓取程序是通過編程方式訪問網(wǎng)頁並從中提取數(shù)據(jù)的軟件。由於內(nèi)容重複等問題,網(wǎng)頁抓取是一個有點爭議的話題。大多數(shù)網(wǎng)站所有者更傾向於通過公開可用的 API 訪問其數(shù)據(jù)。不幸的是,許多網(wǎng)站提供的 API 質(zhì)量很差,甚至根本沒有 API。這迫使許多開發(fā)人員轉(zhuǎn)向網(wǎng)頁抓取。本文將教你如何在 Node.js 中實現(xiàn)你自己的網(wǎng)頁抓取程序。網(wǎng)頁抓取的第一步是從遠程服務(wù)器下載源代碼。在“在 Node.js 中發(fā)出 HTTP 請求”中,讀者學習瞭如何使用 request 模塊下載頁面。以下示例快速回顧了在 Node.js 中發(fā)出 GET 請求的方法。

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});

網(wǎng)頁抓取的第二步,也是更困難的一步,是從下載的源代碼中提取數(shù)據(jù)。在客戶端,使用選擇器 API 或 jQuery 等庫可以輕鬆完成此任務(wù)。不幸的是,這些解決方案依賴於可以查詢 DOM 的假設(shè)。遺憾的是,Node.js 沒有提供 DOM?;蛘哂袉幔?

Cheerio 模塊

雖然 Node.js 沒有內(nèi)置 DOM,但有一些模塊可以從 HTML 源代碼字符串構(gòu)建 DOM。兩個流行的 DOM 模塊是 cheeriojsdom。本文重點介紹 cheerio,可以使用以下命令安裝:

npm install cheerio

cheerio 模塊實現(xiàn)了 jQuery 的一個子集,這意味著許多開發(fā)人員可以快速上手。事實上,cheerio 與 jQuery 非常相似,你很容易發(fā)現(xiàn)自己試圖使用 cheerio 中未實現(xiàn)的 jQuery 函數(shù)。以下示例展示瞭如何使用 cheerio 解析 HTML 字符串。第一行將 cheerio 導入程序。 html 變量保存要解析的 HTML 片段。在第 3 行,使用 cheerio 解析 HTML。結(jié)果賦值給 $ 變量。選擇美元符號是因為它傳統(tǒng)上用於 jQuery。第 4 行使用 CSS 樣式選擇器選擇 <code><ul> 元素。最後,使用 html() 方法打印列表的內(nèi)部 HTML。

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});

限制

cheerio 正在積極開發(fā)中,並且一直在改進。但是,它仍然有一些限制。 cheerio 最令人沮喪的方面是 HTML 解析器。 HTML 解析是一個難題,並且有很多網(wǎng)頁包含不良的 HTML。雖然 cheerio 不會在這些頁面上崩潰,但你可能會發(fā)現(xiàn)自己無法選擇元素。這使得難以確定錯誤在於你的選擇器還是頁面本身。

抓取 JSPro

以下示例結(jié)合 requestcheerio 來構(gòu)建一個完整的網(wǎng)頁抓取程序。該示例抓取程序提取 JSPro 首頁上所有文章的標題和 URL。前兩行將所需的模塊導入示例。第 3 到第 5 行下載 JSPro 首頁的源代碼。然後將源代碼傳遞給 cheerio 進行解析。

npm install cheerio

如果你查看 JSPro 源代碼,你會注意到每個文章標題都是一個包含在類為 entry-title<a></a> 元素中的鏈接。第 7 行的選擇器選擇所有文章鏈接。然後使用 each() 函數(shù)遍歷所有文章。最後,文章標題和 URL 分別從鏈接的文本和 href 屬性中獲取。

結(jié)論

本文向你展示瞭如何在 Node.js 中創(chuàng)建一個簡單的網(wǎng)頁抓取程序。請注意,這不是抓取網(wǎng)頁的唯一方法。還有其他技術(shù),例如使用無頭瀏覽器,它們功能更強大,但可能會影響簡單性和/或速度。請關(guān)注即將發(fā)表的關(guān)於 PhantomJS 無頭瀏覽器的文章。

Node.js 網(wǎng)頁抓取常見問題 (FAQ)

如何在 Node.js 網(wǎng)頁抓取中處理動態(tài)內(nèi)容?

在 Node.js 中處理動態(tài)內(nèi)容可能有點棘手,因為內(nèi)容是異步加載的。您可以使用像 Puppeteer 這樣的庫,它是一個 Node.js 庫,提供一個高級 API 來通過 DevTools 協(xié)議控制 Chrome 或 Chromium。 Puppeteer 默認情況下以無頭模式運行,但可以配置為運行完整的(非無頭)Chrome 或 Chromium。這允許您通過模擬用戶交互來抓取動態(tài)內(nèi)容。

如何避免在網(wǎng)頁抓取時被封禁?

如果網(wǎng)站檢測到異常流量,網(wǎng)頁抓取有時會導致您的 IP 被封禁。為避免這種情況,您可以使用一些技術(shù),例如輪換您的 IP 地址、使用延遲,甚至使用自動處理這些問題的抓取 API。

如何從需要登錄的網(wǎng)站抓取數(shù)據(jù)?

要從需要登錄的網(wǎng)站抓取數(shù)據(jù),您可以使用 Puppeteer。 Puppeteer 可以通過填寫登錄表單並提交來模擬登錄過程。登錄後,您可以導航到所需的頁面並抓取數(shù)據(jù)。

如何將抓取的數(shù)據(jù)保存到數(shù)據(jù)庫?

抓取數(shù)據(jù)後,您可以使用您選擇的數(shù)據(jù)庫的數(shù)據(jù)庫客戶端。例如,如果您使用的是 MongoDB,您可以使用 MongoDB Node.js 客戶端連接到您的數(shù)據(jù)庫並保存數(shù)據(jù)。

如何從帶有分頁的網(wǎng)站抓取數(shù)據(jù)?

要從帶有分頁的網(wǎng)站抓取數(shù)據(jù),您可以使用循環(huán)來瀏覽頁面。在每次迭代中,您可以從當前頁面抓取數(shù)據(jù),然後單擊“下一頁”按鈕導航到下一頁。

如何從帶有無限滾動的網(wǎng)站抓取數(shù)據(jù)?

要從帶有無限滾動的網(wǎng)站抓取數(shù)據(jù),您可以使用 Puppeteer 模擬向下滾動操作。您可以使用循環(huán)不斷向下滾動,直到不再加載新數(shù)據(jù)。

如何在網(wǎng)頁抓取中處理錯誤?

錯誤處理在網(wǎng)頁抓取中至關(guān)重要。您可以使用 try-catch 塊來處理錯誤。在 catch 塊中,您可以記錄錯誤消息,這將幫助您調(diào)試問題。

如何從使用 AJAX 的網(wǎng)站抓取數(shù)據(jù)?

要從使用 AJAX 的網(wǎng)站抓取數(shù)據(jù),您可以使用 Puppeteer。 Puppeteer 可以等待 AJAX 調(diào)用完成,然後抓取數(shù)據(jù)。

如何加快 Node.js 中的網(wǎng)頁抓取速度?

要加快網(wǎng)頁抓取速度,您可以使用並行處理等技術(shù),在不同的選項卡中打開多個頁面並同時從它們抓取數(shù)據(jù)。但是,請注意不要用過多的請求來過載網(wǎng)站,因為這可能會導致您的 IP 被封禁。

如何從使用 CAPTCHA 的網(wǎng)站抓取數(shù)據(jù)?

從使用 CAPTCHA 的網(wǎng)站抓取數(shù)據(jù)可能具有挑戰(zhàn)性。您可以使用像 2Captcha 這樣的服務(wù),它們提供一個 API 來解決 CAPTCHA。但是,請記住,在某些情況下,這可能是非法或不道德的。始終尊重網(wǎng)站的服務(wù)條款。

以上是node.js中的網(wǎng)絡(luò)刮擦的詳細內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔相應(yīng)的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

垃圾收集如何在JavaScript中起作用? 垃圾收集如何在JavaScript中起作用? Jul 04, 2025 am 12:42 AM

JavaScript的垃圾回收機制通過標記-清除算法自動管理內(nèi)存,以減少內(nèi)存洩漏風險。引擎從根對像出發(fā)遍歷並標記活躍對象,未被標記的則被視為垃圾並被清除。例如,當對像不再被引用(如將變量設(shè)為null),它將在下一輪迴收中被釋放。常見的內(nèi)存洩漏原因包括:①未清除的定時器或事件監(jiān)聽器;②閉包中對外部變量的引用;③全局變量持續(xù)持有大量數(shù)據(jù)。 V8引擎通過分代回收、增量標記、並行/並發(fā)回收等策略優(yōu)化回收效率,降低主線程阻塞時間。開發(fā)時應(yīng)避免不必要的全局引用、及時解除對象關(guān)聯(lián),以提升性能與穩(wěn)定性。

如何在node.js中提出HTTP請求? 如何在node.js中提出HTTP請求? Jul 13, 2025 am 02:18 AM

在Node.js中發(fā)起HTTP請求有三種常用方式:使用內(nèi)置模塊、axios和node-fetch。 1.使用內(nèi)置的http/https模塊無需依賴,適合基礎(chǔ)場景,但需手動處理數(shù)據(jù)拼接和錯誤監(jiān)聽,例如用https.get()獲取數(shù)據(jù)或通過.write()發(fā)送POST請求;2.axios是基於Promise的第三方庫,語法簡潔且功能強大,支持async/await、自動JSON轉(zhuǎn)換、攔截器等,推薦用於簡化異步請求操作;3.node-fetch提供類似瀏覽器fetch的風格,基於Promise且語法簡單

JavaScript數(shù)據(jù)類型:原始與參考 JavaScript數(shù)據(jù)類型:原始與參考 Jul 13, 2025 am 02:43 AM

JavaScript的數(shù)據(jù)類型分為原始類型和引用類型。原始類型包括string、number、boolean、null、undefined和symbol,其值不可變且賦值時復制副本,因此互不影響;引用類型如對象、數(shù)組和函數(shù)存儲的是內(nèi)存地址,指向同一對象的變量會相互影響。判斷類型可用typeof和instanceof,但需注意typeofnull的歷史問題。理解這兩類差異有助於編寫更穩(wěn)定可靠的代碼。

JavaScript時間對象,某人構(gòu)建了一個eactexe,在Google Chrome上更快的網(wǎng)站等等 JavaScript時間對象,某人構(gòu)建了一個eactexe,在Google Chrome上更快的網(wǎng)站等等 Jul 08, 2025 pm 02:27 PM

JavaScript開發(fā)者們,大家好!歡迎閱讀本週的JavaScript新聞!本週我們將重點關(guān)注:Oracle與Deno的商標糾紛、新的JavaScript時間對象獲得瀏覽器支持、GoogleChrome的更新以及一些強大的開發(fā)者工具。讓我們開始吧! Oracle與Deno的商標之爭Oracle試圖註冊“JavaScript”商標的舉動引發(fā)爭議。 Node.js和Deno的創(chuàng)建者RyanDahl已提交請願書,要求取消該商標,他認為JavaScript是一個開放標準,不應(yīng)由Oracle

React與Angular vs Vue:哪個JS框架最好? React與Angular vs Vue:哪個JS框架最好? Jul 05, 2025 am 02:24 AM

選哪個JavaScript框架最好?答案是根據(jù)需求選擇最適合的。 1.React靈活自由,適合需要高度定制、團隊有架構(gòu)能力的中大型項目;2.Angular提供完整解決方案,適合企業(yè)級應(yīng)用和長期維護的大項目;3.Vue上手簡單,適合中小型項目或快速開發(fā)。此外,是否已有技術(shù)棧、團隊規(guī)模、項目生命週期及是否需要SSR也都是選擇框架的重要因素??傊?,沒有絕對最好的框架,適合自己需求的就是最佳選擇。

立即在JavaScript中立即調(diào)用功能表達式(IIFE) 立即在JavaScript中立即調(diào)用功能表達式(IIFE) Jul 04, 2025 am 02:42 AM

IIFE(ImmediatelyInvokedFunctionExpression)是一種在定義後立即執(zhí)行的函數(shù)表達式,用於變量隔離和避免污染全局作用域。它通過將函數(shù)包裹在括號中使其成為表達式,並緊隨其後的一對括號來調(diào)用,如(function(){/code/})();。其核心用途包括:1.避免變量衝突,防止多個腳本間的命名重複;2.創(chuàng)建私有作用域,使函數(shù)內(nèi)部變量不可見;3.模塊化代碼,便於初始化工作而不暴露過多變量。常見寫法包括帶參數(shù)傳遞的版本和ES6箭頭函數(shù)版本,但需注意:必須使用表達式、結(jié)

處理諾言:鏈接,錯誤處理和承諾在JavaScript中 處理諾言:鏈接,錯誤處理和承諾在JavaScript中 Jul 08, 2025 am 02:40 AM

Promise是JavaScript中處理異步操作的核心機制,理解鍊式調(diào)用、錯誤處理和組合器是掌握其應(yīng)用的關(guān)鍵。 1.鍊式調(diào)用通過.then()返回新Promise實現(xiàn)異步流程串聯(lián),每個.then()接收上一步結(jié)果並可返回值或Promise;2.錯誤處理應(yīng)統(tǒng)一使用.catch()捕獲異常,避免靜默失敗,並可在catch中返回默認值繼續(xù)流程;3.組合器如Promise.all()(全成功才成功)、Promise.race()(首個完成即返回)和Promise.allSettled()(等待所有完成)

什麼是緩存API?如何與服務(wù)人員使用? 什麼是緩存API?如何與服務(wù)人員使用? Jul 08, 2025 am 02:43 AM

CacheAPI是瀏覽器提供的一種緩存網(wǎng)絡(luò)請求的工具,常與ServiceWorker配合使用,以提升網(wǎng)站性能和離線體驗。 1.它允許開發(fā)者手動存儲如腳本、樣式表、圖片等資源;2.可根據(jù)請求匹配緩存響應(yīng);3.支持刪除特定緩存或清空整個緩存;4.通過ServiceWorker監(jiān)聽fetch事件實現(xiàn)緩存優(yōu)先或網(wǎng)絡(luò)優(yōu)先等策略;5.常用於離線支持、加快重複訪問速度、預加載關(guān)鍵資源及後臺更新內(nèi)容;6.使用時需注意緩存版本控制、存儲限制及與HTTP緩存機制的區(qū)別。

See all articles