Kernpunkte
<ul>request
cheerio
kombinieren request
cheerio
request
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
Cheerio -Modul
W?hrend node.js kein integriertes DOM hat, gibt es einige Module, die DOM aus HTML-Quellcode-Zeichenfolgen erstellen k?nnen. Zwei beliebte DOM -Module sind
und. Dieser Artikel konzentriert sich auf <code>cheerio, das mit dem folgenden Befehl installiert werden kann: jsdom
cheerio
Das
npm install cheerioModul implementiert eine Untergruppe von JQuery, was bedeutet, dass viele Entwickler schnell beginnen k?nnen. Tats?chlich ist
JQuery sehr ?hnlich, und es ist leicht, dass Sie versuchen, die nicht implementierte JQuery -Funktion in <code>cheerio zu verwenden. Das folgende Beispiel zeigt, wie HTML -Zeichenfolgen mit <code>cheerio analysiert werden. Die erste Zeile importiert <code>cheerio in das Programm. <code>cheerio Variable spart das HTML -Fragment, das analysiert werden soll. In Zeile 3 analysieren Sie HTML mit <code>cheerio. Das Ergebnis wird der html
Variablen zugeordnet. Das Dollarschild wurde ausgew?hlt, weil es traditionell in JQuery verwendet wurde. Zeile 4 verwendet den CSS -Style -Selektor, um das Element <code>cheerio
auszuw?hlen. Verwenden Sie schlie?lich die $
-Methode, um das interne HTML der Liste zu drucken. <ul>
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
Einschr?nkungen
<code>cheerio steht aktiv und verbessert sich st?ndig. Es hat jedoch immer noch einige Einschr?nkungen. <code>cheerio Der frustrierendste Aspekt ist der HTML -Parser. HTML -Parsing ist ein schwieriges Problem, und es gibt viele Webseiten, die schlechtes HTML enthalten. W?hrend <code>cheerio auf diesen Seiten nicht abstürzt, k?nnen Sie m?glicherweise keine Elemente ausw?hlen. Dies macht es schwierig festzustellen, ob der Fehler Ihr Selektor oder die Seite selbst ist.
crawl JSPRO
Das folgende Beispiel kombiniert request
und <code>cheerio, um einen vollst?ndigen Web -Crawler zu erstellen. Diese Probe zeichnet den Titel und die URL aller Artikel auf der JSPRO -Homepage aus. Die ersten beiden Zeilen importieren das erforderliche Modul in das Beispiel. Laden Sie den Quellcode der JSPRO -Homepage von Zeilen 3 bis 5 herunter. Geben Sie dann den Quellcode zum Parsen an <code>cheerio über.
npm install cheerio
Wenn Sie sich den JSPRO -Quellcode ansehen, werden Sie feststellen, dass jeder Post -Titel ein Link ist, der im Element entry-title
mit der Klasse <a></a>
enthalten ist. Der Selektor in Zeile 7 w?hlt alle Artikellinks aus. Verwenden Sie dann die each()
-Funktion, um alle Artikel durchzusetzen. Schlie?lich werden der Artikeltitel und die URL aus dem Text des Links bzw. href
Eigenschaften erhalten.
Schlussfolgerung
Dieser Artikel zeigt Ihnen, wie Sie einen einfachen Webcrawler in node.js. erstellen. Beachten Sie, dass dies nicht der einzige Weg ist, um eine Webseite zu kriechen. Es gibt andere Technologien, wie z. B. die Verwendung kopfloser Browser, die leistungsf?higer sind, die Einfachheit und/oder Geschwindigkeit beeinflussen k?nnen. Bitte verfolgen Sie die kommenden Artikel über Phantomjs Headless Browser.
node.js Web Crawling FAQ (FAQ)
Wie kann ich in Node.js Webcrawl umgehen?
dynamischen Inhalt in node.js kann etwas schwierig sein, da der Inhalt asynchron geladen wird. Sie k?nnen eine Bibliothek wie Puppenspieler verwenden, eine Node.js-Bibliothek, die eine API auf hoher Ebene bietet, um Chrom oder Chrom durch das Devtools-Protokoll zu steuern. Puppeteeder l?uft standardm??ig im Kopflosenmodus, kann jedoch so konfiguriert werden, dass er ein vollst?ndiges (nicht headloses) Chrom oder Chrom ausgeführt wird. Auf diese Weise k?nnen Sie dynamische Inhalte kriechen, indem Sie Benutzerinteraktionen simulieren.
Wie kann man vermeiden, beim Krabbeln einer Webseite verboten zu werden?
Wenn die Website einen abnormalen Datenverkehr erkennt, kann das Web -Crawling manchmal dazu führen, dass Ihre IP verboten wird. Um dies zu vermeiden, k?nnen Sie Techniken wie das Drehen Ihrer IP -Adresse, die Verwendung von Verz?gerungen und sogar eine kriechende API verwenden, die diese Probleme automatisch behandelt.
Wie kriechen Sie Daten von der Website, die Sie sich anmelden müssen?
Um Daten von der Website zu kriechen, die Sie anmelden müssen, k?nnen Sie Puppenspieler verwenden. Puppenspieler k?nnen den Anmeldevorgang simulieren, indem er das Anmeldeformular ausfüllt und einsendet. Sobald Sie sich angemeldet haben, k?nnen Sie zur gewünschten Seite navigieren und die Daten kriechen.
Wie speichern Sie die Krabbendaten in der Datenbank?
Nach dem Krabbeln der Daten k?nnen Sie den Datenbank -Client der Datenbank Ihrer Wahl verwenden. Wenn Sie beispielsweise MongoDB verwenden, k?nnen Sie den MongoDB Node.js -Client verwenden, um eine Verbindung zu Ihrer Datenbank herzustellen und die Daten zu speichern.
Wie kann man Daten von einer Website mit Paging kriechen?
Um Daten von einer Website mit Paging zu kriechen, k?nnen Sie eine Schleife verwenden, um die Seite zu durchsuchen. In jeder Iteration k?nnen Sie Daten von der aktuellen Seite kriechen und auf die Schaltfl?che "n?chste Seite" klicken, um zur n?chsten Seite zu navigieren.
Wie kann man Daten von einer Website mit unendlichem Scrollen kriechen?
Um Daten von einer Website mit unendlichem Scrollen zu kriechen, k?nnen Sie Puppenspieler verwenden, um das Scrollen nach unten zu simulieren. Sie k?nnen eine Schleife verwenden, um kontinuierlich nach unten zu scrollen, bis neue Daten nicht mehr geladen sind.
Wie kann ich Fehler im Web -Kriechen mit dem Umgang mit Fehlern umgehen?
Fehlerbehebung ist im Webkriechen von entscheidender Bedeutung. Sie k?nnen den Try-Catch-Block verwenden, um Fehler zu behandeln. Im Fangblock k?nnen Sie Fehlermeldungen protokollieren, die Ihnen helfen, das Problem zu debuggen.
Wie kann man Daten mit AJAX von einer Website kriechen?
Um Daten von einer Website zu kriechen, die AJAX verwendet, k?nnen Sie Puppenspieler verwenden. Puppenspieler k?nnen warten, bis der Ajax -Anruf ausgeführt wird, und dann die Daten zu greifen.
Wie kann man das Webkriechen in Node.js beschleunigen?
Um das Web -Crawling zu beschleunigen, k?nnen Sie Techniken wie Parallelverarbeitung verwenden, um mehrere Seiten auf verschiedenen Registerkarten zu ?ffnen und gleichzeitig Daten davon abzuholen. Achten Sie jedoch darauf, die Website nicht mit zu vielen Anfragen zu überladen, da dies dazu führt, dass Ihre IP verboten wird.
Wie kann ich Daten mit Captcha von einer Website kriechen?
kriechende Daten von Websites mit Captcha k?nnen eine Herausforderung sein. Sie k?nnen Dienste wie 2Captcha nutzen, die eine API zur L?sung von Captcha zur Verfügung stellen. Denken Sie jedoch daran, dass dies in einigen F?llen illegal oder unmoralisch sein kann. Respektieren Sie immer die Nutzungsbedingungen der Website.
Das obige ist der detaillierte Inhalt vonWeb -Scraping in node.js. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Hei?e KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?er Artikel

Hei?e Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Hei?e Themen





Der Müllsammlung von JavaScript verwaltet den Speicher automatisch über einen Tag-Clearing-Algorithmus, um das Risiko eines Speicherlecks zu verringern. Der Motor durchquert und markiert das aktive Objekt aus dem Wurzelobjekt, und nicht markiert wird als Müll behandelt und gel?scht. Wenn das Objekt beispielsweise nicht mehr referenziert wird (z. B. die Variable nach NULL), wird es in der n?chsten Runde des Recyclings freigegeben. Zu den h?ufigen Ursachen für Speicherlecks geh?ren: ① Unger?te Timer oder Event -H?rer; ② Verweise auf externe Variablen in Schlie?ungen; ③ Globale Variablen halten weiterhin eine gro?e Datenmenge. Der V8 -Motor optimiert die Recyclingeffizienz durch Strategien wie Recycling von Generationen, inkrementelle Markierung, paralleles/gleichzeitiges Recycling und verkürzt die Hauptblockierungszeit. W?hrend der Entwicklung sollten unn?tige globale Referenzen vermieden und Objektverb?nde umgehend dekoriert werden, um die Leistung und Stabilit?t zu verbessern.

Es gibt drei g?ngige M?glichkeiten, HTTP-Anforderungen in Node.js zu initiieren: Verwenden Sie integrierte Module, Axios und Knotenfetch. 1. Verwenden Sie das integrierte HTTP/HTTPS-Modul ohne Abh?ngigkeiten, das für grundlegende Szenarien geeignet ist, jedoch eine manuelle Verarbeitung von Datengen?hten und Fehlerüberwachung erfordert, z. 2.Axios ist eine auf Versprechen basierende Bibliothek von Drittanbietern. Es verfügt über eine kurze Syntax und leistungsstarke Funktionen, unterstützt Async/Auseait, automatische JSON -Konvertierung, Interceptor usw. Es wird empfohlen, asynchrone Anforderungsvorg?nge zu vereinfachen. 3.Node-Fetch bietet einen Stil ?hnlich dem Browser-Abruf, basierend auf Versprechen und einfacher Syntax

JavaScript -Datentypen sind in primitive Typen und Referenztypen unterteilt. Zu den primitiven Typen geh?ren String, Anzahl, Boolesche, Null, undefiniertes und Symbol. Die Werte sind unver?nderlich und Kopien werden bei der Zuweisung von Werten kopiert, sodass sie sich nicht gegenseitig beeinflussen. Referenztypen wie Objekte, Arrays und Funktionen speichern Speicheradressen, und Variablen, die auf dasselbe Objekt zeigen, wirkt sich gegenseitig aus. Typeof und Instanz k?nnen verwendet werden, um die Typen zu bestimmen, aber auf die historischen Probleme der TypeOfnull zu achten. Das Verst?ndnis dieser beiden Arten von Unterschieden kann dazu beitragen, einen stabileren und zuverl?ssigeren Code zu schreiben.

Hallo, JavaScript -Entwickler! Willkommen in den JavaScript -Nachrichten dieser Woche! Diese Woche konzentrieren wir uns auf: Oracas Markenstreit mit Deno, neue JavaScript -Zeitobjekte werden von Browsern, Google Chrome -Updates und einigen leistungsstarken Entwickler -Tools unterstützt. Fangen wir an! Der Markenstreit von Oracle mit dem Versuch von Deno Oracle, ein "JavaScript" -Marke zu registrieren, hat Kontroversen verursacht. Ryan Dahl, der Sch?pfer von Node.js und Deno, hat eine Petition zur Absage der Marke eingereicht, und er glaubt, dass JavaScript ein offener Standard ist und nicht von Oracle verwendet werden sollte

Welches JavaScript -Framework ist die beste Wahl? Die Antwort besteht darin, die am besten geeigneten nach Ihren Bedürfnissen zu w?hlen. 1.React ist flexibel und kostenlos und für mittlere und gro?e Projekte geeignet, für die hohe Anpassungs- und Teamarchitekturf?higkeiten erforderlich sind. 2. Angular bietet vollst?ndige L?sungen, die für Anwendungen auf Unternehmensebene und langfristige Wartung geeignet sind. 3.. Vue ist einfach zu bedienen, geeignet für kleine und mittlere Projekte oder schnelle Entwicklung. Unabh?ngig davon, ob es einen technologischen Stack, die Teamgr??e, der Projektlebenszyklus gibt und ob SSR erforderlich ist, sind auch wichtige Faktoren für die Auswahl eines Rahmens. Kurz gesagt, es gibt keinen absolut besten Rahmen, die beste Wahl ist die, die Ihren Bedürfnissen entspricht.

IIFE (SofortinvokedFunctionExpression) ist ein Funktionsausdruck, der unmittelbar nach der Definition ausgeführt wird und zum Isolieren von Variablen und zur Vermeidung des kontaminierenden globalen Bereichs verwendet wird. Es wird aufgerufen, indem die Funktion in Klammern umwickelt ist, um sie zu einem Ausdruck und einem Paar von Klammern zu machen, gefolgt von ihr, wie z. B. (function () {/code/}) ();. Zu den Kernverwendungen geh?ren: 1.. Variable Konflikte vermeiden und die Duplikation der Benennung zwischen mehreren Skripten verhindern; 2. Erstellen Sie einen privaten Bereich, um die internen Variablen unsichtbar zu machen. 3.. Modularer Code, um die Initialisierung zu erleichtern, ohne zu viele Variablen freizulegen. Zu den allgemeinen Schreibmethoden geh?ren Versionen, die mit Parametern und Versionen der ES6 -Pfeilfunktion übergeben wurden. Beachten Sie jedoch, dass Ausdrücke und Krawatten verwendet werden müssen.

Versprechen ist der Kernmechanismus für den Umgang mit asynchronen Operationen in JavaScript. Das Verst?ndnis von Kettenanrufen, Fehlerbehebung und Kombination ist der Schlüssel zum Beherrschen ihrer Anwendungen. 1. Der Kettenaufruf gibt ein neues Versprechen durch .then () zurück, um asynchrone Prozessverkampferung zu realisieren. Jeder. Dann () erh?lt das vorherige Ergebnis und kann einen Wert oder ein Versprechen zurückgeben; 2. Die Fehlerbehandlung sollte .Catch () verwenden, um Ausnahmen zu fangen, um stille Ausf?lle zu vermeiden, und den Standardwert im Fang zurückgeben, um den Prozess fortzusetzen. 3. Combinatoren wie Promise.All () (erfolgreich erfolgreich erfolgreich nach allen Erfolg), Versprechen.Race () (Die erste Fertigstellung wird zurückgegeben) und Versprechen.Allsettled () (Warten auf alle Fertigstellungen)

Cacheapi ist ein Tool, das der Browser zur Cache -Netzwerkanfragen bereitstellt, das h?ufig in Verbindung mit dem Servicearbeiter verwendet wird, um die Leistung der Website und die Offline -Erfahrung zu verbessern. 1. Es erm?glicht Entwicklern, Ressourcen wie Skripte, Stilbl?tter, Bilder usw. Zu speichern; 2. Es kann die Cache -Antworten entsprechend den Anfragen übereinstimmen. 3. Es unterstützt das L?schen bestimmter Caches oder das L?schen des gesamten Cache. 4.. Es kann Cache -Priorit?ts- oder Netzwerkpriorit?tsstrategien durch Servicearbeiter implementieren, die sich auf Fetch -Ereignisse anh?ren. 5. Es wird h?ufig für die Offline -Unterstützung verwendet, die wiederholte Zugriffsgeschwindigkeit, die Vorspannungs -Schlüsselressourcen und den Inhalt des Hintergrundaktualisierungss beschleunigen. 6. Wenn Sie es verwenden, müssen Sie auf die Cache -Versionskontrolle, Speicherbeschr?nkungen und den Unterschied zum HTTP -Caching -Mechanismus achten.
