Points de base
<ul>request
cheerio
combinant request
cheerio
request
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
module Cheerio
Bien que Node.js ne dispose pas de DOM intégré, il existe des modules qui peuvent construire DOM à partir des cha?nes de code source HTML. Deux modules DOM populaires sont
et. Cet article se concentre sur <code>cheerio, qui peut être installé en utilisant la commande suivante: jsdom
cheerio
Le module
npm install cheerioimplémente un sous-ensemble de jQuery, ce qui signifie que de nombreux développeurs peuvent démarrer rapidement. En fait,
est très similaire à jQuery, et il est facile de vous retrouver à essayer d'utiliser la fonction jQuery non implémentée dans <code>cheerio. L'exemple suivant montre comment analyser les cha?nes HTML en utilisant <code>cheerio. La première ligne importera <code>cheerio dans le programme. <code>cheerio La variable enregistre le fragment HTML à analyser. Sur la ligne 3, analysez HTML en utilisant <code>cheerio. Le résultat est attribué à la variable html
. Le signe du dollar a été choisi car il était traditionnellement utilisé dans jQuery. La ligne 4 utilise le sélecteur de style CSS pour sélectionner l'élément <code>cheerio
. Enfin, utilisez la méthode $
pour imprimer le HTML interne de la liste. <ul>
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
limitations
<code>cheerio est en cours de développement actif et s'améliore constamment. Cependant, il a encore certaines limites. <code>cheerio L'aspect le plus frustrant est l'analyseur HTML. L'analyse HTML est un problème difficile, et il existe de nombreuses pages Web qui contiennent un mauvais HTML. Bien que <code>cheerio ne se bloque pas sur ces pages, vous pouvez vous retrouver incapable de sélectionner des éléments. Cela rend difficile de déterminer si l'erreur est votre sélecteur ou la page elle-même.
Crawl jspro
L'exemple suivant combine request
et <code>cheerio pour créer un robot Web complet. Cet échantillon de chenilles extrait le titre et l'URL de tous les articles sur la page d'accueil JSPRO. Les deux premières lignes importent le module requis dans l'exemple. Téléchargez le code source de la page d'accueil JSPRO des lignes 3 à 5. Ensuite, passez le code source à <code>cheerio pour l'analyse.
npm install cheerio
Si vous regardez le code source JSPRO, vous remarquerez que chaque titre de publication est un lien contenu dans l'élément entry-title
avec la classe <a></a>
. Le sélecteur de la ligne 7 sélectionne tous les liens de l'article. Ensuite, utilisez la fonction each()
pour parcourir tous les articles. Enfin, le titre de l'article et l'URL sont obtenus à partir du texte du lien et des propriétés href
, respectivement.
Conclusion
Cet article vous montre comment créer un simple robot Web dans Node.js. Notez que ce n'est pas le seul moyen d'explorer une page Web. Il existe d'autres technologies, telles que l'utilisation de navigateurs sans tête, qui sont plus puissants mais peuvent affecter la simplicité et / ou la vitesse. Veuillez suivre les prochains articles sur le navigateur sans tête Phantomjs.
NODE.JS FAQ CRAWLING WEB (FAQ)
Comment gérer le contenu dynamique dans Node.js Web Crawl?
Gestion du contenu dynamique dans Node.js peut être un peu délicat car le contenu est chargé de manière asynchrone. Vous pouvez utiliser une bibliothèque comme Puppeteer, qui est une bibliothèque Node.js qui fournit une API de haut niveau pour contr?ler Chrome ou Chromium via le protocole Devtools. Puppeteer s'exécute en mode sans tête par défaut, mais peut être configuré pour exécuter le chrome ou le chrome complet (non sans tête). Cela vous permet de ramper le contenu dynamique en simulant les interactions utilisateur.
Comment éviter d'être banni lors de la rampe d'une page Web?
Si le site Web détecte un trafic anormal, la rampe Web peut parfois provoquer l'interdiction de votre IP. Pour éviter cela, vous pouvez utiliser des techniques telles que la rotation de votre adresse IP, l'utilisation de retards et même l'utilisation d'une API rampante qui gère automatiquement ces problèmes.
Comment explorer les données du site Web que vous devez vous connecter?
Pour faire craquer les données du site Web que vous devez vous connecter, vous pouvez utiliser des marionnetsteer. Le marionnettiste peut simuler le processus de connexion en remplissant le formulaire de connexion et en le soumettant. Une fois connecté, vous pouvez naviguer vers la page que vous souhaitez et ramper les données.
Comment enregistrer les données rampantes dans la base de données?
Après avoir rampé les données, vous pouvez utiliser le client de la base de données de la base de données de votre choix. Par exemple, si vous utilisez MongoDB, vous pouvez utiliser le client MongoDB Node.js pour vous connecter à votre base de données et enregistrer les données.
Comment explorer les données d'un site Web avec pagination?
Pour explorer les données d'un site Web avec pagination, vous pouvez utiliser une boucle pour parcourir la page. Dans chaque itération, vous pouvez ramper les données à partir de la page actuelle et cliquer sur le bouton de la page suivante pour accéder à la page suivante.
Comment explorer les données d'un site Web avec défilement infini?
Pour explorer les données d'un site Web avec un défilement infini, vous pouvez utiliser des marionnetsteer pour simuler le défilement vers le bas. Vous pouvez utiliser une boucle pour faire défiler en continu jusqu'à ce que de nouvelles données ne soient plus chargées.
Comment gérer les erreurs dans le flux Web?
La gestion des erreurs est cruciale dans la rampe Web. Vous pouvez utiliser le bloc d'essai pour gérer les erreurs. Dans le bloc Catch, vous pouvez enregistrer les messages d'erreur, ce qui vous aidera à déboguer le problème.
Comment explorer les données d'un site Web à l'aide de l'AJAX?
Pour explorer les données d'un site Web qui utilise AJAX, vous pouvez utiliser Puppeteer. Le marionnettiste peut attendre que l'appel Ajax se termine, puis saisir les données.
Comment accélérer le compromis Web dans Node.js?
Pour accélérer le robinet Web, vous pouvez utiliser des techniques telles que le traitement parallèle pour ouvrir plusieurs pages dans différents onglets et en tirer des données en même temps. Cependant, veillez à ne pas surcharger le site Web avec trop de demandes car cela peut faire interdire votre IP.
Comment explorer les données d'un site Web à l'aide de CAPTCHA?
Les données rampantes des sites Web utilisant CAPTCHA peuvent être difficiles. Vous pouvez utiliser des services comme 2CAPTCHA, qui fournissent une API pour résoudre CAPTCHA. Cependant, n'oubliez pas que dans certains cas, cela peut être illégal ou immoral. Respectez toujours les conditions d'utilisation du site Web.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Il existe trois fa?ons courantes d'initier des demandes HTTP dans Node.js: utilisez des modules intégrés, Axios et Node-Fetch. 1. Utilisez le module HTTP / HTTPS intégré sans dépendances, ce qui convient aux scénarios de base, mais nécessite un traitement manuel de la couture des données et de la surveillance des erreurs, tels que l'utilisation de https.get () pour obtenir des données ou envoyer des demandes de post via .write (); 2.AXIOS est une bibliothèque tierce basée sur la promesse. Il a une syntaxe concise et des fonctions puissantes, prend en charge l'async / attendre, la conversion JSON automatique, l'intercepteur, etc. Il est recommandé de simplifier les opérations de demande asynchrones; 3.Node-Fetch fournit un style similaire à la récupération du navigateur, basé sur la promesse et la syntaxe simple

Les types de données JavaScript sont divisés en types primitifs et types de référence. Les types primitifs incluent la cha?ne, le nombre, le booléen, le nul, un non défini et le symbole. Les valeurs sont immuables et les copies sont copiées lors de l'attribution des valeurs, de sorte qu'elles ne se affectent pas; Les types de référence tels que les objets, les tableaux et les fonctions stockent les adresses de mémoire, et les variables pointant vers le même objet s'afferchent mutuellement. Le typeof et l'instance de OFF peuvent être utilisés pour déterminer les types, mais prêtent attention aux problèmes historiques de typeofnull. Comprendre ces deux types de différences peut aider à écrire un code plus stable et fiable.

Quel framework JavaScript est le meilleur choix? La réponse est de choisir la plus appropriée selon vos besoins. 1.RIATT est flexible et gratuit, adapté aux projets moyens et grands qui nécessitent une personnalisation élevée et des capacités d'architecture d'équipe; 2. Angular fournit des solutions complètes, adaptées aux applications au niveau de l'entreprise et à la maintenance à long terme; 3. Vue est facile à utiliser, adaptée à des projets de petite et moyenne taille ou à un développement rapide. De plus, s'il existe une pile technologique existante, la taille de l'équipe, le cycle de vie du projet et si le RSS est nécessaire sont également des facteurs importants dans le choix d'un cadre. En bref, il n'y a pas absolument le meilleur cadre, le meilleur choix est celui qui convient à vos besoins.

Bonjour, développeurs JavaScript! Bienvenue dans JavaScript News de cette semaine! Cette semaine, nous nous concentrerons sur: le différend de marque d'Oracle avec Deno, les nouveaux objets Time JavaScript sont pris en charge par les navigateurs, les mises à jour Google Chrome et certains outils de développeurs puissants. Commen?ons! Le différend de marque d'Oracle avec la tentative de Deno Oracle d'enregistrer une marque "JavaScript" a provoqué la controverse. Ryan Dahl, le créateur de Node.js et Deno, a déposé une pétition pour annuler la marque, et il pense que JavaScript est un niveau ouvert et ne devrait pas être utilisé par Oracle

Cacheapi est un outil fourni par le navigateur pour mettre en cache les demandes de réseau, qui est souvent utilisée en conjonction avec travailleur de service pour améliorer les performances du site Web et l'expérience hors ligne. 1. Il permet aux développeurs de stocker manuellement des ressources telles que des scripts, des feuilles de style, des photos, etc.; 2. Il peut faire correspondre les réponses du cache en fonction des demandes; 3. Il prend en charge la suppression des caches spécifiques ou la nettoyage du cache entier; 4. Il peut mettre en ?uvre des stratégies de priorité de cache ou de priorité de réseau grace à l'écoute des événements Fetch; 5. Il est souvent utilisé pour le support hors ligne, accélérez la vitesse d'accès répétée, préchargement des ressources clés et du contenu de mise à jour des antécédents; 6. Lorsque vous l'utilisez, vous devez faire attention au contr?le de la version du cache, aux restrictions de stockage et à la différence entre le mécanisme de mise en cache HTTP.

La promesse est le mécanisme central pour gérer les opérations asynchrones en JavaScript. Comprendre les appels de cha?ne, la gestion des erreurs et les combinants est la clé pour ma?triser leurs applications. 1. L'appel de la cha?ne renvoie une nouvelle promesse à travers. Puis () pour réaliser la concaténation des processus asynchrones. Chaque .then () re?oit le résultat précédent et peut renvoyer une valeur ou une promesse; 2. La gestion des erreurs doit utiliser .catch () pour attraper des exceptions pour éviter les défaillances silencieuses, et peut renvoyer la valeur par défaut dans Catch pour continuer le processus; 3. Combinateurs tels que promesse.all () (réussi avec succès uniquement après tout succès), promesse.race () (le premier achèvement est retourné) et promesse.allsetTled () (en attente de toutes les achèvements)

Des méthodes intégrées de la matrice JavaScript telles que .map (), .filter () et .reduce () peuvent simplifier le traitement des données; 1) .map () est utilisé pour convertir les éléments un en un pour générer de nouveaux tableaux; 2) .filter () est utilisé pour filtrer les éléments par condition; 3) .reduce () est utilisé pour agréger les données en tant que valeur unique; Une mauvaise utilisation doit être évitée lorsqu'elle est utilisée, entra?nant des effets secondaires ou des problèmes de performance.

La boucle d'événement de JavaScript gère les opérations asynchrones en coordonnant les piles d'appels, les webapis et les files d'attente de taches. 1. La pile d'appels exécute du code synchrone, et lors de la rencontre de taches asynchrones, il est remis à WebAPI pour le traitement; 2. Une fois que le WebAPI a terminé la tache en arrière-plan, il met le rappel dans la file d'attente correspondante (macro tache ou micro tache); 3. La boucle d'événement vérifie si la pile d'appels est vide. S'il est vide, le rappel est retiré de la file d'attente et poussé dans la pile d'appels pour l'exécution; 4. Micro taches (comme Promise. puis) ??prendre la priorité sur les taches macro (telles que Settimeout); 5. Comprendre la boucle d'événements permet d'éviter de bloquer le thread principal et d'optimiser l'ordre d'exécution du code.
