Testautomatisierung für .NET-Apps, Teil 3 13.11.2023, 00:00 Uhr

Scraping, Harvesting und Analyse

Playwright unterstützt programmgesteuerte Interaktionen mit Webseiten und Web-Apps zur Informationsgewinnung durch Scraping und Harvesting.
(Quelle: dotnetpro)
Das Testing-Framework Playwright von Microsoft [1] eignet sich nicht nur für die Automatisierung von Tests, sondern auch für die Realisierung von Web-Scraping beziehungsweise Harvesting. Diese Softwaretechnik erkundet ­automatisch Websites oder Web-Apps, um aus ihnen Daten für nachgelagerte Auswertungszwecke zu extrahieren. Spezielle Features von Playwright führen Interaktionen aus oder stellen passende Daten bereit, um einen Zugriff auf die gewünschte Website oder Web-App zu erhalten. Beispielsweise zählen dazu die Klasse FormData oder die verschiedenen Methoden des Locator-Objekts wie FillAsync(), TypeAsync() oder DragToAsync().
Im Unterschied zu Webcrawlern oder Spidern umgehen selbst programmierte Scraper beziehungsweise Harvester auch vorgegebene Einschränkungen der Betreiber von Websites und Web-Apps (siehe auch den Kasten Rechtliche Einstufung von Scraping/Harvesting). Prinzipiell werten Crawler nur Inhalte von Webseiten aus, die sie über einfache Links erreichen. Hält sich der Crawler an den Robots-Exclusion-Standard, so indexiert er nur in der Datei robots.txt referenzierte Webseiten. Auch Meta-Informationen im HTML-Quelltext einer Webseite können das Indexieren eines Crawlers verhindern. Ferner erschweren massive Verzögerungen der Antwortzeiten des Servers beziehungsweise der App oder Captcha-Dienste den Zugriff auf eine Website.

Jetzt 1 Monat kostenlos testen!

Sie wollen zukünftig auch von den Vorteilen eines plus-Abos profitieren? Werden Sie jetzt dotnetpro-plus-Kunde.
  • + Digitales Kundenkonto,
  • + Zugriff auf das digitale Heft,
  • + Zugang zum digitalen Heftarchiv,
  • + Auf Wunsch: Weekly Newsletter,
  • + Sämtliche Codebeispiele im digitalen Heftarchiv verfügbar