Login
Newsletter
Werbung

Do, 3. September 2015, 15:00

Web Scraping mit R

R-Packages zum »Scrapen«

Im Wesentlichen unterscheiden sich diese R-Packages durch die Art des Zugriffs auf die Datenquellen im Internet. Hierbei ist meist zwischen cURL-basierten Lösungen (low-level) und Paketen mit integrierten API-Anbindungen (high-level) zu unterscheiden. Die low-level R-packages »Rcurl«, »XML«, »httr«, »rjson« und »RJSONIO« sind allerdings so essentiell, dass sie für die meisten high-level Lösungen als Abhängigkeit gelistet sind.

Die unten folgende Auswahl an R-packages eignet sich besonders für Scraping- und Parsing-Aufgaben.

»Low-level« - Scraping
R-PackageFunktion
XML XML-Parser und -Generator
curl Netzwerk-Interface
RCurl Netzwerk-Interface
httr Wrapper für RCurl
rjson JSON-Parser und -Generator
jsonlite JSON-Parser und -Generator
RJSONIO JSON-Parser und -Generator
selectr CSS-XPath Konverter
rvest Wrapper für XML und httr
magrittr Pipe-Operator

R-packages mit API-Anbindung
R-PackageFunktion
ggmap Google Maps API
RgoogleMaps Google Maps API
RGoogleDocs Google Docs API
googlesheets Google Spreadsheet API
scholar Google Scholar API
ganalytics Google Analytics API
rga Google Analytics API
Rfacebook Facebook API
twittR Twitter API
wikipediatrend stats.grok.se API

Pro-Linux
Pro-Linux @Facebook
Neue Nachrichten
Werbung