Web Scraping mit R
R-Packages zum »Scrapen«
Im Wesentlichen unterscheiden sich diese R-Packages durch die Art des Zugriffs auf die Datenquellen im Internet. Hierbei ist meist zwischen cURL-basierten Lösungen (low-level) und Paketen mit integrierten API-Anbindungen (high-level) zu unterscheiden. Die low-level R-packages »Rcurl«, »XML«, »httr«, »rjson« und »RJSONIO« sind allerdings so essentiell, dass sie für die meisten high-level Lösungen als Abhängigkeit gelistet sind.
Die unten folgende Auswahl an R-packages eignet sich besonders für Scraping- und Parsing-Aufgaben.
»Low-level« - Scraping | |
---|---|
R-Package | Funktion |
XML | XML-Parser und -Generator |
curl | Netzwerk-Interface |
RCurl | Netzwerk-Interface |
httr | Wrapper für RCurl |
rjson | JSON-Parser und -Generator |
jsonlite | JSON-Parser und -Generator |
RJSONIO | JSON-Parser und -Generator |
selectr | CSS-XPath Konverter |
rvest | Wrapper für XML und httr |
magrittr | Pipe-Operator |
R-packages mit API-Anbindung | |
---|---|
R-Package | Funktion |
ggmap | Google Maps API |
RgoogleMaps | Google Maps API |
RGoogleDocs | Google Docs API |
googlesheets | Google Spreadsheet API |
scholar | Google Scholar API |
ganalytics | Google Analytics API |
rga | Google Analytics API |
Rfacebook | Facebook API |
twittR | Twitter API |
wikipediatrend | stats.grok.se API |