Common Crawl

von | 11. August 2020 | Blog, Datenpool, Open Data, Projekte, Software

Die Common Crawl Foundation ist eine in Kalifornien 501(c)(3) eingetragene gemeinnützige Stiftung, die von Gil Elbaz mit dem Ziel gegründet wurde, den Zugang zu Web-Informationen zu demokratisieren, indem sie ein offenes Repository von Web-Crawl-Daten erstellt und pflegt, das allgemein zugänglich und analysierbar ist.

Ihre Vision ist ein wirklich offenes Web, das einen offenen Zugang zu Informationen ermöglicht und größere Innovation in Forschung, Wirtschaft und Bildung ermöglicht. Die Stiftung möchte Wettbewerbsbedingungen verbessern, indem sie die Extraktion, Transformation und Analyse von Webdaten im großen Maßstabgünstig und einfach macht.

Das Common-Crawl-Korpus enthält Petabytes von Daten, die über 8 Jahre Web-Crawling gesammelt wurden. Das Korpus enthält rohe Webseitendaten, Metadaten- und Textauszüge. Common-Crawl-Daten werden auf den öffentlichen Datensätzen von Amazon Web Services und auf mehreren akademischen Cloud-Plattformen auf der ganzen Welt gespeichert.

Der Zugriff auf das von Amazon gehostete Common-Crawl-Korpus ist kostenlos. Sie können die Cloud-Plattform von Amazon verwenden, um Analyseaufträge direkt gegen sie auszuführen, oder Sie können Teile oder das gesamte Korpus herunterladen.Mit dem Common Crawl URL Index. kann nach Seiten gesucht werden.

-> zu commoncrawl.org

Damian Paderta

Damian Paderta

Autor

Damian Paderta ist Webgeograph & Digitalberater und treibt die Offenheit an. Dazu hat er das openall.info ins Leben gerufen.

weitere Artikel

The Open Science Training Handbook

The Open Science Training Handbook

Eine Gruppe von vierzehn Autoren kam im Februar 2018 in der TIB (Technische Informationsbibliothek) in Hannover zusammen, um ein offenes, lebendiges Handbuch zur Ausbildung in der Offenen Wissenschaft zu erstellen. Qualitativ hochwertige Ausbildungen sind von...

OpenNext!

OpenNext!

OPENNEXT ist ein Projekt, das es kleinen und mittleren Unternehmen (KMU) in ganz Europa ermöglicht, sich in Gemeinschaften mit Verbrauchern und Herstellern zu engagieren, um die Art und Weise, wie Produkte entworfen, hergestellt und vertrieben werden, grundlegend zu...

Openknowhow

Openknowhow

Openknowhow  ist eine Community von Open-Hardware-Organisationen und Einzelpersonen, die neue Standards setzen, um das Wissen zu erweitern, Zusammenarbeit zu ermöglichen und Innovationen in Forschung, Design und Fertigung zu beschleunigen. openknowhow.org

Datenschutz
, Besitzer: (Firmensitz: Deutschland), verarbeitet zum Betrieb dieser Website personenbezogene Daten nur im technisch unbedingt notwendigen Umfang. Alle Details dazu in der Datenschutzerklärung.
Datenschutz
, Besitzer: (Firmensitz: Deutschland), verarbeitet zum Betrieb dieser Website personenbezogene Daten nur im technisch unbedingt notwendigen Umfang. Alle Details dazu in der Datenschutzerklärung.