Login
Newsletter
Werbung

Do, 3. September 2015, 15:00

Web Scraping mit R

Moderne Web Scraping Tools und APIs erleichtern die gezielte Extraktion von Informationen und Elementen aus dem Internet ganz wesentlich, insbesondere wenn die Daten nicht als strukturierte Datei zum Download angeboten werden. Mit der freien Statistikumgebung R und entsprechenden R-Paketen können strukturierte und unstrukturierte Daten gezielt geladen und anschließend statistisch analysiert werden.

Web Scraping

Als »Web Scraping« bezeichnet man die Extraktion von Informationen aus Webseiten, oder ganz allgemein, aus dem Internet. Der Unterschied zum einfachen Kopieren von Informationen aus Internetseiten besteht darin, dass dieser Vorgang mittels Softwarelösungen weitgehend automatisiert stattfindet.

Diese Vorgehensweise ist im Allgemeinen nicht ungewöhnlich. Beispielsweise stellen die Kommandozeilenprogramme GNU Wget oder cURL bereits seit Mitte der 90er Jahre Funktionalitäten zum Download von Dateien und Webseiten aus dem Internet zur Verfügung und sind in vielen Linux-Distributionen fest integriert.

Web Scraping – neuer Name, alter Hut?

Web Scraping ist also nur ein weiterer neuer Begriff für einen alten Hut? Nicht ganz, denn moderne Scraping Tools und APIs erleichtern, im Vergleich zu den eben genannten terminalbasierten Diensten, die gezielte Extraktion von Informationen und Elementen ganz wesentlich. Insbesondere wenn die Daten nicht als strukturierte Datei zum Download angeboten werden, aber dennoch (statistisch) weiterverarbeitet werden sollen, bieten entsprechende Tools komfortable Lösungen.

Datentransformation und statistische Analyse

Moderne Web Scraping Tools erledigen dabei nicht nur den Download, sondern auch die Transformation unstrukturierter (HTML-)Daten in ein geeignetes Analyseformat. Beliebte Scraping-Ziele sind beispielsweise HTML-Tabellen.

Ein Programm, das sich sowohl für Web Scraping, als auch zur statistischen Analyse der »gescrapten« Daten eignet, ist »R«.

Was ist R?

R ist eine der bekanntesten Entwicklungsumgebungen für statistisches Rechnen und wird auf breiter Ebene in Wissenschaft und Wirtschaft eingesetzt. R eignet sich dabei sowohl für einfache deskriptive Analysen, als auch für komplexe statistische Modellierungen und läuft prinzipiell auf allen gängigen Betriebssystemen.

Zur Installation stehen Binärpakete und Quellcode zur Verfügung, R ist aber auch in einigen systemeigenen Paketmanagern zu finden (z.B. als r-base unter Apt).

»Comprehensive R Archive Network« (CRAN)

Die Basisinstallation von R kann um eine Vielzahl an Paketen (»R-packages« bzw. »library«) erweitert werden, die über das »Comprehensive R Archive Network« (CRAN) bezogen werden können.

Eine spezielle Sektion zum Thema Webtechnologien gibt (laufend aktualisiert) einen Überblick über R-packages, die zur Sammlung und zum Download von Daten aus dem Internet dienen.

Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung