Common Crawl

von | 11. August 2020 | Blog, Datenpool, Open Data, Projekte, Software

Die Common Crawl Foundation ist eine in Kalifornien 501(c)(3) eingetragene gemeinnützige Stiftung, die von Gil Elbaz mit dem Ziel gegründet wurde, den Zugang zu Web-Informationen zu demokratisieren, indem sie ein offenes Repository von Web-Crawl-Daten erstellt und pflegt, das allgemein zugänglich und analysierbar ist.

Ihre Vision ist ein wirklich offenes Web, das einen offenen Zugang zu Informationen ermöglicht und größere Innovation in Forschung, Wirtschaft und Bildung ermöglicht. Die Stiftung möchte Wettbewerbsbedingungen verbessern, indem sie die Extraktion, Transformation und Analyse von Webdaten im großen Maßstabgünstig und einfach macht.

Das Common-Crawl-Korpus enthält Petabytes von Daten, die über 8 Jahre Web-Crawling gesammelt wurden. Das Korpus enthält rohe Webseitendaten, Metadaten- und Textauszüge. Common-Crawl-Daten werden auf den öffentlichen Datensätzen von Amazon Web Services und auf mehreren akademischen Cloud-Plattformen auf der ganzen Welt gespeichert.

Der Zugriff auf das von Amazon gehostete Common-Crawl-Korpus ist kostenlos. Sie können die Cloud-Plattform von Amazon verwenden, um Analyseaufträge direkt gegen sie auszuführen, oder Sie können Teile oder das gesamte Korpus herunterladen.Mit dem Common Crawl URL Index. kann nach Seiten gesucht werden.

-> zu commoncrawl.org

Damian Paderta

Damian Paderta

Der Autor ist Webgeograph & Digitalberater und treibt die Offenheit an. Dazu hat er das Portal openall.info ins Leben gerufen.

weitere Artikel

Opendataland

Opendataland

Der Umsetzungsstand zu Open Data in Deutschland weist derzeit ein starkes Stadt-Land-Gefälle auf. Vorreiter sind hierbei mehrheitlich Großstädte (z.B. Gieß den Kiez in Berlin), während nur wenige kleinere bzw. ländliche Gemeinden oder Landkreise aktiv...

Das europäische Datenportal – data.europa.eu

Das europäische Datenportal – data.europa.eu

Das neue Datenportal der EU bietet Zugang zu offenen Daten aus internationalen, EU-, nationalen, regionalen, lokalen und Geodatenportalen. Es löst das EU Open Data Portal und das European Data Portal ab. Das Portal adressiert die gesamte Datenwertschöpfungskette, von...

Opendataland

Opendataland

Der Umsetzungsstand zu Open Data in Deutschland weist derzeit ein starkes Stadt-Land-Gefälle auf. Vorreiter sind hierbei mehrheitlich Großstädte (z.B. Gieß den Kiez in Berlin), während nur wenige kleinere bzw. ländliche Gemeinden oder Landkreise aktiv...

Das europäische Datenportal – data.europa.eu

Das europäische Datenportal – data.europa.eu

Das neue Datenportal der EU bietet Zugang zu offenen Daten aus internationalen, EU-, nationalen, regionalen, lokalen und Geodatenportalen. Es löst das EU Open Data Portal und das European Data Portal ab. Das Portal adressiert die gesamte Datenwertschöpfungskette, von...

The Open Future Foundation

The Open Future Foundation

Open Future ist ein Think-Tank für ein gemeinsames digitales Europa. Open Future bildet Narrative, betreibt Forschung und strategische Lobbyarbeit, um den Zugang zu Informationen und Wissen im digitalen Umfeld zu verbessern. Es stellt Wissen,  Erfahrung und den Fokus...

Open Covid Pledge

Open Covid Pledge

Unternehmen, die sich für den Pledge entscheiden, müssen dies öffentlich bekannt geben und bieten im Allgemeinen eine nicht-exklusive, lizenzgebührenfreie, weltweite, voll bezahlte Lizenz für das geistige Eigentum des Pledge-Gebers ausschließlich zum Zweck der...

FOSS Governance Collection

FOSS Governance Collection

Die FOSS Governance Collection ist eine indexierte Sammlung von Governance-Dokumenten aus Projekten für Freie und Open Source Software (FOSS). Ein Werkzeug für Alle, die mehr über die Governance bei FOSS erfahren möchten. Free and Open Source Governance ist...

Kommunales Open Government. Gebrauchsanleitung für eine Utopie

Kommunales Open Government. Gebrauchsanleitung für eine Utopie

Kommunales Open Government bezeichnet die Öffnung von Lokalpolitik und Kommunalverwaltung für die Interessen, Anliegen und Fähigkeiten der Zivilgesellschaft: Die Menschen vor Ort gestalten ihre Lebenswirklichkeit partnerschaftlich und auf Augenhöhe mit Politik und...

Open-Access-Monitor

Open-Access-Monitor

Der Open-Access-Monitor dient zur Erfassung des Publikationsaufkommens deutscher akademischer Einrichtungen in wissenschaftlichen Zeitschriften. Die Analysen der Subskriptions- und Publikationsausgaben unterstützen die Transformation in den Open Access. Mit dem Aufbau...

Open Data in Kommunen

Open Data in Kommunen

Eine wachsende Zahl von Kommunen in Deutschland stellt schon jetzt offene Daten bereit. Welche Chancen und Herausforderungen Kommunen damit verbinden, hat die Bertelsmann Stiftung zusammen mit dem Deutschen Institut für Urbanistik (Difu) in einer Befragung "Eine...

Open Library Badge

Open Library Badge

Die Initiative Open Library Badge möchte ein Anreizsystem für Bibliotheken schaffen, die das Konzept der Offenheit verfolgen. Der Badge soll entsprechende Aktivitäten und Angebote von Bibliotheken sichtbar machen. Er richtet sich sowohl an die Fachöffentlichkeit als...