


Erstellen eines asynchronen E-Commerce-Web-Scrapers mit Pydantic, Crawl & Gemini
Jan 12, 2025 am 06:25 AMKurz gesagt: Dieser Leitfaden zeigt den Aufbau eines E-Commerce-Scrapers mithilfe der KI-gestützten Extraktion und der Pydantic-Datenmodelle von crawl4ai. Der Scraper ruft asynchron sowohl Produktlisten (Namen, Preise) als auch detaillierte Produktinformationen (Spezifikationen, Bewertungen) ab.
Greifen Sie auf den vollst?ndigen Code auf Google Colab zu
Müden Sie die Komplexit?t des traditionellen Web-Scrapings zur E-Commerce-Datenanalyse? Dieses Tutorial vereinfacht den Prozess mithilfe moderner Python-Tools. Wir nutzen crawl4ai für die intelligente Datenextraktion und Pydantic für eine robuste Datenmodellierung und -validierung.
Warum Crawl4AI und Pydantic w?hlen?
- crawl4ai: Optimiert Web-Crawling und Scraping mithilfe KI-gesteuerter Extraktionsmethoden.
- Pydantic: Bietet Datenvalidierung und Schemaverwaltung und sorgt so für strukturierte und genaue Scraping-Daten.
Warum Tokopedia ins Visier nehmen?
Tokopedia, eine gro?e indonesische E-Commerce-Plattform, dient uns als Beispiel. (Hinweis: Der Autor ist Indonesier und Nutzer der Plattform, aber nicht mit ihr verbunden.) Die Grunds?tze gelten auch für andere E-Commerce-Websites. Dieser Scraping-Ansatz ist für Entwickler von Vorteil, die sich für E-Commerce-Analysen, Marktforschung oder automatisierte Datenerfassung interessieren.
Was zeichnet diesen Ansatz aus?
Anstatt uns auf komplexe CSS-Selektoren oder XPath zu verlassen, nutzen wir die LLM-basierte Extraktion von crawl4ai. Das bietet:
- Verbesserte Widerstandsf?higkeit gegenüber ?nderungen der Website-Struktur.
- Sauberere, strukturiertere Datenausgabe.
- Reduzierter Wartungsaufwand.
Einrichten Ihrer Entwicklungsumgebung
Beginnen Sie mit der Installation der erforderlichen Pakete:
%pip install -U crawl4ai %pip install nest_asyncio %pip install pydantic
Für die asynchrone Codeausführung in Notebooks verwenden wir auch nest_asyncio
:
import crawl4ai import asyncio import nest_asyncio nest_asyncio.apply()
Datenmodelle mit Pydantic definieren
Wir verwenden Pydantic, um die erwartete Datenstruktur zu definieren. Hier sind die Modelle:
from pydantic import BaseModel, Field from typing import List, Optional class TokopediaListingItem(BaseModel): product_name: str = Field(..., description="Product name from listing.") product_url: str = Field(..., description="URL to product detail page.") price: str = Field(None, description="Price displayed in listing.") store_name: str = Field(None, description="Store name from listing.") rating: str = Field(None, description="Rating (1-5 scale) from listing.") image_url: str = Field(None, description="Primary image URL from listing.") class TokopediaProductDetail(BaseModel): product_name: str = Field(..., description="Product name from detail page.") all_images: List[str] = Field(default_factory=list, description="List of all product image URLs.") specs: str = Field(None, description="Technical specifications or short info.") description: str = Field(None, description="Long product description.") variants: List[str] = Field(default_factory=list, description="List of variants or color options.") satisfaction_percentage: Optional[str] = Field(None, description="Customer satisfaction percentage.") total_ratings: Optional[str] = Field(None, description="Total number of ratings.") total_reviews: Optional[str] = Field(None, description="Total number of reviews.") stock: Optional[str] = Field(None, description="Stock availability.")
Diese Modelle dienen als Vorlagen, stellen die Datenvalidierung sicher und sorgen für eine klare Dokumentation.
Der Schabeprozess
Der Schaber arbeitet in zwei Phasen:
1. Crawlen von Produktlisten
Zuerst rufen wir Suchergebnisseiten ab:
async def crawl_tokopedia_listings(query: str = "mouse-wireless", max_pages: int = 1): # ... (Code remains the same) ...
2. Produktdetails abrufen
Als n?chstes rufen wir für jede Produkt-URL detaillierte Informationen ab:
async def crawl_tokopedia_detail(product_url: str): # ... (Code remains the same) ...
Kombination der Stufen
Schlie?lich integrieren wir beide Phasen:
async def run_full_scrape(query="mouse-wireless", max_pages=2, limit=15): # ... (Code remains the same) ...
Den Scraper ausführen
So führen Sie den Schaber aus:
%pip install -U crawl4ai %pip install nest_asyncio %pip install pydantic
Profi-Tipps
- Ratenbegrenzung: Respektieren Sie die Server von Tokopedia; Verz?gerungen zwischen Anfragen für gro? angelegtes Scraping einführen.
-
Caching: Aktivieren Sie das Caching von crawl4ai w?hrend der Entwicklung (
cache_mode=CacheMode.ENABLED
). - Fehlerbehandlung: Implementieren Sie umfassende Fehlerbehandlungs- und Wiederholungsmechanismen für den Produktionseinsatz.
- API-Schlüssel:Speichern Sie Gemini-API-Schlüssel sicher in Umgebungsvariablen, nicht direkt im Code.
N?chste Schritte
Dieser Schaber kann erweitert werden auf:
- Daten in einer Datenbank speichern.
- überwachen Sie Preis?nderungen im Laufe der Zeit.
- Produkttrends und -muster analysieren.
- Vergleichen Sie die Preise in mehreren Gesch?ften.
Fazit
Die LLM-basierte Extraktion von crawl4ai verbessert die Wartbarkeit des Web Scraping im Vergleich zu herk?mmlichen Methoden erheblich. Die Integration mit Pydantic gew?hrleistet Datengenauigkeit und -struktur.
Halten Sie sich vor dem Scrapen immer an die robots.txt
und Nutzungsbedingungen einer Website.
Wichtige Links:
Crawl4AI
- Offizielle Website: http://ipnx.cn/link/1026d8c97a822ee171c6cbf939fe4aca
- GitHub-Repository: http://ipnx.cn/link/62c1b075041300455ec2b54495d93c99
- Dokumentation: http://ipnx.cn/link/1026d8c97a822ee171c6cbf939fe4aca/mkdocs/core/installation/
Pydantisch
- Offizielle Dokumentation: http://ipnx.cn/link/a4d4ec4aa3c45731396ed6e65fee40b9
- PyPI-Seite: http://ipnx.cn/link/4d8ab89733dd9a88f1a9d130ca675c2e
- GitHub-Repository: http://ipnx.cn/link/22935fba49f7d80d5adf1cfa6b0344f4
Hinweis: Der vollst?ndige Code ist im Colab-Notizbuch verfügbar. Probieren Sie es einfach aus und passen Sie es an Ihre spezifischen Bedürfnisse an.
Das obige ist der detaillierte Inhalt vonErstellen eines asynchronen E-Commerce-Web-Scrapers mit Pydantic, Crawl & Gemini. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Hei?e KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?er Artikel

Hei?e Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Der Schlüssel zum Umgang mit der API -Authentifizierung besteht darin, die Authentifizierungsmethode korrekt zu verstehen und zu verwenden. 1. Apikey ist die einfachste Authentifizierungsmethode, die normalerweise in den Anforderungsheader- oder URL -Parametern platziert ist. 2. BasicAuth verwendet Benutzername und Kennwort für die Basis64 -Codierungsübertragung, die für interne Systeme geeignet ist. 3.. OAuth2 muss das Token zuerst über Client_id und Client_secret erhalten und dann das BearerToken in den Anforderungsheader bringen. V. Kurz gesagt, die Auswahl der entsprechenden Methode gem?? dem Dokument und das sichere Speichern der Schlüsselinformationen ist der Schlüssel.

Assert ist ein Inssertion -Tool, das in Python zum Debuggen verwendet wird, und wirft einen Assertionerror aus, wenn der Zustand nicht erfüllt ist. Die Syntax ist eine geltende Bedingung sowie optionale Fehlerinformationen, die für die interne Logiküberprüfung geeignet sind, z. B. Parameterprüfung, Statusbest?tigung usw., k?nnen jedoch nicht für die Sicherheits- oder Benutzereingabeprüfung verwendet werden und sollten in Verbindung mit klaren Eingabeaufforderungen verwendet werden. Es ist nur zum Hilfsdebuggen in der Entwicklungsphase verfügbar, anstatt die Ausnahmebehandlung zu ersetzen.

INPYTHON, ITERATORATORSAROBJECTSHATALWOULOUPING ThroughCollections Byimplementing__iter __ () und __Next __ (). 1) IteratorsworkviATheiterProtocol, verwendete __iter __ () toreturn thiteratorand__Next __ () torethentexteemtemuntemuntilstoperationSaised.2) und

TypHintsinpythonsolvetheProblemofAmbiguityAndpotentialbugsindynamicalpedCodeByAllowingDevelopstospecifyexpectypes

Eine gemeinsame Methode, um zwei Listen gleichzeitig in Python zu durchqueren, besteht darin, die Funktion ZIP () zu verwenden, die mehrere Listen in der Reihenfolge und die kürzeste ist. Wenn die Listenl?nge inkonsistent ist, k?nnen Sie iTertools.zip_longest () verwenden, um die l?ngste zu sein und die fehlenden Werte auszufüllen. In Kombination mit Enumerate () k?nnen Sie den Index gleichzeitig erhalten. 1.zip () ist pr?gnant und praktisch, geeignet für die Iteration gepaarte Daten; 2.zip_longest () kann den Standardwert beim Umgang mit inkonsistenten L?ngen einfüllen. 3.Enumerate (ZIP ()) kann w?hrend des Durchlaufens Indizes erhalten und die Bedürfnisse einer Vielzahl komplexer Szenarien erfüllen.

Um moderne und effiziente APIs mit Python zu schaffen, wird Fastapi empfohlen. Es basiert auf Eingabeaufforderungen an Standardpython -Typ und kann automatisch Dokumente mit ausgezeichneter Leistung generieren. Nach der Installation von Fastapi und ASGI Server Uvicorn k?nnen Sie Schnittstellencode schreiben. Durch das Definieren von Routen, das Schreiben von Verarbeitungsfunktionen und die Rückgabe von Daten kann schnell APIs erstellt werden. Fastapi unterstützt eine Vielzahl von HTTP -Methoden und bietet automatisch generierte Swaggerui- und Redoc -Dokumentationssysteme. URL -Parameter k?nnen durch Pfaddefinition erfasst werden, w?hrend Abfrageparameter durch Einstellen von Standardwerten für Funktionsparameter implementiert werden k?nnen. Der rationale Einsatz pydantischer Modelle kann dazu beitragen, die Entwicklungseffizienz und Genauigkeit zu verbessern.

Um die API zu testen, müssen Sie Pythons Anfragebibliothek verwenden. In den Schritten werden die Bibliothek installiert, Anfragen gesendet, Antworten überprüfen, Zeitüberschreitungen festlegen und erneut werden. Installieren Sie zun?chst die Bibliothek über PipinstallRequests. Verwenden Sie dann Requests.get () oder Requests.Post () und andere Methoden zum Senden von GET- oder Post -Anfragen. überprüfen Sie dann die Antwort. Fügen Sie schlie?lich Zeitüberschreitungsparameter hinzu, um die Zeitüberschreitungszeit festzulegen, und kombinieren Sie die Wiederholungsbibliothek, um eine automatische Wiederholung zu erreichen, um die Stabilit?t zu verbessern.

Eine virtuelle Umgebung kann die Abh?ngigkeiten verschiedener Projekte isolieren. Der Befehl ist mit Pythons eigenem Venvidenmodul erstellt und ist Python-Mvenvenv. Aktivierungsmethode: Windows verwendet Env \ scripts \ aktivieren, macOS/Linux verwendet SourceEnv/bin/aktivieren; Das Installationspaket verwendet PipInstall, verwenden Sie Pipfreeze> Anforderungen.txt, um Anforderungsdateien zu generieren, und verwenden Sie Pipinstall-Rrequirements.txt, um die Umgebung wiederherzustellen. Zu den Vorsichtsma?nahmen geh?ren nicht das Senden von Git, reaktivieren Sie jedes Mal, wenn das neue Terminal ge?ffnet wird, und die automatische Identifizierung und Umschaltung kann von IDE verwendet werden.
