Common Crawl

von | 11. August 2020 | Blog, Datenpool, Open Data, Projekte, Software

Die Common Crawl Foundation ist eine in Kalifornien 501(c)(3) eingetragene gemeinnützige Stiftung, die von Gil Elbaz mit dem Ziel gegründet wurde, den Zugang zu Web-Informationen zu demokratisieren, indem sie ein offenes Repository von Web-Crawl-Daten erstellt und pflegt, das allgemein zugänglich und analysierbar ist.

Ihre Vision ist ein wirklich offenes Web, das einen offenen Zugang zu Informationen ermöglicht und größere Innovation in Forschung, Wirtschaft und Bildung ermöglicht. Die Stiftung möchte Wettbewerbsbedingungen verbessern, indem sie die Extraktion, Transformation und Analyse von Webdaten im großen Maßstabgünstig und einfach macht.

Das Common-Crawl-Korpus enthält Petabytes von Daten, die über 8 Jahre Web-Crawling gesammelt wurden. Das Korpus enthält rohe Webseitendaten, Metadaten- und Textauszüge. Common-Crawl-Daten werden auf den öffentlichen Datensätzen von Amazon Web Services und auf mehreren akademischen Cloud-Plattformen auf der ganzen Welt gespeichert.

Der Zugriff auf das von Amazon gehostete Common-Crawl-Korpus ist kostenlos. Sie können die Cloud-Plattform von Amazon verwenden, um Analyseaufträge direkt gegen sie auszuführen, oder Sie können Teile oder das gesamte Korpus herunterladen.Mit dem Common Crawl URL Index. kann nach Seiten gesucht werden.

-> zu commoncrawl.org

Damian Paderta

Damian Paderta

Damian Paderta ist Webgeograph & Digitalberater und beschäftigt sich mit Open Government, Open Data, Open Knowledge, Open Source und Open Science.

 

weitere Artikel

Open Access Network

Open Access Network

Die Plattform open-access.net informiert über das Thema Open Access und bietet praktische Umsetzungshilfen an. open-access.net wurde im Rahmen eines DFG-Projekts kooperativ von der Freien Universität Berlin und den Universitäten Göttingen, Konstanz und Bielefeld...

Open Diffix

Open Diffix

Open Diffix ist ein MPI-SWS-unterstütztes offenes Softwareprojekt zur Entwicklung einer starken, aber nutzbaren Datenanonymisierung. Open Diffix basiert auf der Datenanonymisierungstechnologie Diffix, die in einer Forschungspartnerschaft zwischen der Gruppe von Paul...

Open-Science Self-Assessment

Open-Science Self-Assessment

Das Open-Science Self-Assessment R2O hilft bei der Erfassung aktueller Open-Science-Aktivitäten an Hochschulen und unterstützt mit Empfehlungen sowie Best-Practice-Beispielen. Gemeinsam mit einem Team von fünf Open-Science-Expert:innen wurde der Prototyp...