Quelle: dotnetpro
Web Scraping und Data Extraction mit Apify, Teil 2 13.06.2022, 00:00 Uhr

Netzwerkspinnen

Ein konkreter Use Case zum Sammeln von Social-Media-Daten mit Apify.
Der erste Teil dieser zweiteiligen Serie hat beleuchtet, was Web Scraping ist, welche technischen Dimensionen es dazu gibt und in welchen Anwendungsszenarien es zum Einsatz kommt [1]. Zudem gab er ­einen Einblick in das Web Scraping mit Apify und dazu, was hinter der Plattform steckt, was Aktoren, Page Functions und das Apify SDK sind und wie diese sich für eigene Implementierungen nutzen lassen, um Daten von Websites zu sammeln.
Allerdings gibt es noch einige wichtige Aspekte, die insbesondere für größere Scraping-Aktionen von Interesse sind. Bisher unerwähnt geblieben sind auch die verschiedenen Apify-API-Clients, die für Python [2] und JavaScript [3] verfügbar sind. Mit beiden Clients kann man auf die Apify-Plattform über das API zugreifen und so zum Beispiel Aktoren starten, stoppen und deren Daten abfragen. Damit sind Automatisierungen von außen realisierbar, ohne viel Aufwand investieren zu müssen. Das API lässt sich zwar auch ohne diese Clients nutzen, wer aber in Python oder JavaScript unterwegs ist, spart mit den vorgefertigten Implementierungen viel Zeit. Listing 1 zeigt ein Beispiel für Python-Code. Für das Beispiel ist Python in Version 3.7 oder höher notwendig.

Jetzt 1 Monat kostenlos testen!

Sie wollen zukünftig auch von den Vorteilen eines plus-Abos profitieren? Werden Sie jetzt dotnetpro-plus-Kunde.
  • + Digitales Kundenkonto,
  • + Zugriff auf das digitale Heft,
  • + Zugang zum digitalen Heftarchiv,
  • + Auf Wunsch: Weekly Newsletter,
  • + Sämtliche Codebeispiele im digitalen Heftarchiv verfügbar