CommonsDB Explorer

von Damian Paderta | 3. März 2026 | Blog, Open Knowledge, Open Source Software, Projekte, Software

Wikimedia Commons verwaltet viele Millionen freier Mediendateien. Wer verstehen möchte, wie dieser Bestand strukturiert ist, welche Lizenzen dominieren oder wie sich Upload-Aktivitäten über die Zeit entwickeln, stößt mit der normalen Weboberfläche schnell an Grenzen. Hier kann der CommonsDB Explorer helfen. Der CommonsDB Explorer bietet Lesezugriff auf die Metadatenbank von Wikimedia Commons. Er richtet sich an diejenigen, die nicht einzelne Dateien suchen, sondern Muster im Gesamtbestand erkennen wollen: Forschende, technisch interessierte Community-Mitglieder, Institutionen aus dem Kulturbereich oder Projekte im Umfeld von Open Data und digitaler Governance.

Im Vergleich zu anderen Wikimedia-Werkzeugen liegt der Unterschied vorwiegend in der analytischen Tiefe. Die reguläre MediaWiki-Oberfläche eignet sich für die Recherche einzelner Dateien; der Wikidata Query Service adressiert Abfragen auf dem Wissensgraphen über SPARQL. Der CommonsDB Explorer hingegen erschließt die operative Datenbankebene von Commons selbst – mit dem Vorteil größerer Granularität und der Möglichkeit, komplexe Abfragen über sehr große Datenmengen hinweg zu formulieren,

Wichtig ist die Abgrenzung: Der Explorer ist kein Upload-Tool, kein Verwaltungswerkzeug und kein Ersatz für die reguläre Commons-Oberfläche. Er ist ein Analyseinstrument – und er versteht sich als solches. Technisch gesprochen bietet er SQL-basierten Zugriff auf vordefinierte Views der replizierten Commons-Datenbank (commonswiki_p). Diese kontrollierten Views schützen die Integrität der Systeme, während sie gleichzeitig strukturierten Zugang zu Metadaten wie Dateinamen, Dateitypen, Lizenzinformationen, Kategorien, Upload-Zeitstempeln und Nutzeraktivitäten ermöglichen.

Anwendungsfälle

Die naheliegendsten Anwendungsfälle liegen im Bereich der Lizenzanalyse: Welche Creative-Commons-Varianten sind im Bestand wie häufig vertreten? Gibt es Dateien mit unklarer oder fehlender Lizenzangabe? Solche Fragen lassen sich mit dem Explorer systematisch und reproduzierbar beantworten, etwas, das manuell kaum möglich wäre.

Ebenso gut eignet sich das Werkzeug zur Analyse von Community-Aktivitäten: Wie entwickeln sich Upload-Zahlen im Zeitverlauf? Welche Nutzergruppen tragen in bestimmten thematischen Bereichen besonders aktiv bei? Für qualitative Verbesserungen der Datenbestände seitens der Wikimedia-Community kann der Explorer helfen, nicht kategorisierte oder verwaiste Medien zu identifizieren und strukturelle Lücken im Datenbestand sichtbar zu machen. Für wissenschaftliche Zwecke wie z.B. der Informationswissenschaft, Medienwissenschaft oder Wissenschaftsforschung, bietet der direkte Datenbankzugang eine Grundlage für empirisch belastbare Auswertungen, die über das hinausgehen, was mit oberflächlichen Suchabfragen möglich ist.

Beispiel

Angenommen, eine Forschungsgruppe möchte wissen, wie viele Mediendateien auf Wikimedia Commons unter der Lizenz CC BY-SA 4.0 stehen und gleichzeitig einer Kategorie mit Bezug zu historischen Gebäuden in Deutschland zugeordnet sind. Die entsprechende Abfrage auf der commonswiki_p-Instanz könnte so aussehen:

sql -- Anzahl lizenzierter Dateien pro Kategorie (Top 10) SELECT cl.cl_to AS kategorie, COUNT(DISTINCT p.page_id) AS anzahl_dateien FROM page p JOIN categorylinks cl ON p.page_id = cl.cl_from WHERE p.page_namespace = 6 -- Namespace 6 = Mediendateien AND cl.cl_to LIKE 'CC-BY-SA-4.0%' -- Lizenz-Kategorie AND cl.cl_to LIKE '%Germany%' -- Thematischer Filter GROUP BY cl.cl_to ORDER BY anzahl_dateien DESC LIMIT 10; ```

Die Abfrage filtert zunächst alle Einträge im Namespace 6 heraus, der ausschließlich Mediendateien enthält. Über die !categorylinks!-Tabelle werden dann Lizenz- und Themenkategorie verknüpft, sodass das Ergebnis zeigt, welche Unterkategorien wie viele CC-BY-SA-4.0-Dateien enthalten. Dasselbe Muster lässt sich ohne Weiteres auf andere Lizenztypen wie „PD-old“ oder „CC0“, andere Themenfelder oder zeitliche Einschränkungen über Upload-Zeitstempel übertragen. Wer keine lokale Datenbankverbindung einrichten möchte, kann stattdessen das Quarry-Tool der Wikimedia Foundation nutzen, das denselben Replikdatenbankzugang über ein Web-Interface bereitstellt.

Weiterführende Links
Wer tiefer einsteigen möchte, findet hier die relevanten Anlaufstellen: den CommonsDB Explorer selbst, die CommonsDB Projektseite mit Hintergründen und Roadmap, die technische Dokumentation zu Architektur und API sowie die CommonsDB-Seite auf Meta-Wiki. Für den praktischen Einstieg in SQL-Abfragen auf Wikimedia-Datenbanken empfiehlt sich außerdem Quarry, ergänzt durch die Toolforge-Datenbankdokumentation und das MediaWiki-Datenbankschema als technische Referenz.

-> zu CommonsDB Explorer