Artikel ursprünglich geschrieben von Philip Heltweg: „Wie man sicherstellt, dass sich niemand für Ihre offenen Daten interessiert“
Die Veröffentlichung offener Daten ist ein nobles Unterfangen. Es kann Forschung, Innovation und Transparenz fördern. Allerdings ist es auch wirklich schwierig und lästig, und Sie verlieren die Kontrolle – wer weiß schon, was die Leute damit anstellen werden. Leider ist die Veröffentlichung offener Daten oft gesetzlich vorgeschrieben. Ihre beste Option ist es daher, technisch gesehen offene Daten zu veröffentlichen, aber sicherzustellen, dass sich niemand dafür interessiert.
Basierend auf meiner Erfahrung aus Interviews mit Open-Data-Praktikern, der Arbeit mit verschiedenen offenen Datenquellen und dem Unterrichten von Studenten in Datenengineering, hier eine Liste gängiger Strategien, die Ihnen helfen werden, jegliche Aufmerksamkeit von Nutzern zu vermeiden, die tatsächlich an der Arbeit mit Ihren Daten interessiert sind.
Verwenden Sie eine obskure Lizenz
Der einfachste Weg, potenzielle Nutzer abzuschrecken, ist es, es schwierig zu machen herauszufinden, ob Ihre Daten überhaupt offene Daten sind. Vermeiden Sie gängige Open-Data-Lizenzen mit leicht verständlichen Zusammenfassungen (wie die von der OKFN veröffentlichten). Stellen Sie sicher, dass die tatsächliche Lizenz, unter der Ihre Daten stehen, schwer zu finden ist (vermeiden Sie die Verwendung eines SPDX-Identifikators in den Metadaten). Wenn möglich, verwenden Sie überhaupt keine Lizenz und verweisen Sie nur auf Nutzungsbedingungen oder ähnliche Dokumente.
Wenn Sie eine Standardlizenz nicht vermeiden können, versuchen Sie, eine Lizenz in Ihrer Landessprache zu finden – das wird zumindest internationale Nutzer abschrecken.
Bonuspunkte für die Veröffentlichung auf Kaggle mit der Lizenz „Andere (in der Beschreibung angegeben)“ und keiner Erwähnung der Lizenz in der Beschreibung.
Veröffentlichen Sie nur Metadaten
Schauen Sie sich diese Erkundungskarte an, erstellt vom französischen nationalen Zugangspunkt für Verkehrsdaten: https://transport.data.gouv.fr/explore.
Oder das Datenwaben-Projekt von Thomas Tursics. Gibt Ihnen das nicht Ideen für Projekte mit den zugrunde liegenden Daten und lässt es interessant klingen? Schrecklich. Versuchen Sie, nur die minimal erforderlichen Metadaten zu veröffentlichen und schreiben Sie sachliche, langweilige Beschreibungen. Wenn möglich, vermeiden Sie es um jeden Preis, Beispiele für die Daten oder deren Verwendung zu präsentieren. Es gibt so viele generische Datensätze da draußen, Sie können sich in der Masse verstecken.
Fügen Sie so wenig Informationen wie möglich hinzu
Einige Plattformen, wie Kaggle, geben Nutzern automatisch eine Vorschau der in Ihrem Datensatz enthaltenen Daten. Mit der eingebetteten Datenvorschau und Zusammenfassungen der Verteilungen für Werte in jeder Spalte ist es wirklich einfach zu beurteilen, ob die Daten geeignet sind. Da dies die Reibung für den Nutzer reduziert, wird es wahrscheinlicher, dass sie sie tatsächlich nutzen. Stellen Sie also sicher, dass Sie keine Vorschauen oder Zusammenfassungen Ihrer Daten erstellen.
Machen Sie es schwer auffindbar
Auf einer grundlegenden Ebene machen kurze und nichtssagende Namen sowie minimale Beschreibungen es für Suchmaschinen bereits schwer, Ihre Datensätze zu indexieren.
Zusätzlich können Sie versuchen, Ihre Daten zu verstecken, indem Sie sie einfach nicht weit verbreiten. Open-Data-Portale wie govdata.de haben oft gut gemachte Suchfunktionen oder sogar APIs, die programmatisch genutzt werden können. Das ist natürlich eine Katastrophe, also stellen Sie sicher, dass Sie ein weiteres Datenportal erstellen, das nur Sie nutzen, und veröffentlichen Sie nur dort.
Verwenden Sie ungewöhnliche oder schwer zu nutzende Formate!
Wenn Sie Ihre Daten in leicht nutzbaren Formaten wie CSV oder JSON veröffentlichen, müssen Sie die Gefahr akzeptieren, dass Nutzer frei auf Ihre Daten zugreifen können. Sie können versuchen, in einem Format zu veröffentlichen, das kommerzielle Tools wie XSL erfordert, aber selbst diese können heutzutage von den meisten Menschen konvertiert werden. Im besten Fall finden Sie ein Dateiformat, das nicht maschinenlesbar ist. PDFs sind eine beliebte Wahl, besonders wenn Sie zusätzlich zu den Daten selbst einige Füllertexte wie Kopf- oder Fußzeilen einfügen.
Belassen Sie die Tabellen für Exporte mit allerlei Zusätzen!
Wenn Sie tabellarische Daten exportieren, erwägen Sie, die Struktur so zu belassen, wie sie ursprünglich für menschliche Leser konzipiert war. Fügen Sie zusammengeführte Zellen, ausgefallene Überschriften und Fußnoten hinzu. Wenn Sie nach CSV exportieren, fügen Sie der Datei einige reine Text-Metadaten wie Copyright-Hinweise hinzu, um automatisierte Importe zu unterbrechen. Wenn Ihre Nutzer umfangreiche Bereinigungen und manuelle Arbeit durchführen müssen, bevor sie Ihre Daten nutzen können, geben sie möglicherweise auf.
Stellen Sie sicher, dass URLs 404 zurückgeben!
Wenn Sie Ihre Datensätze unbedingt auf Open-Data-Portalen teilen müssen, nutzen Sie die Tatsache, dass diese oft nur die Metadaten und einen Rückverweis auf Ihre ursprüngliche Quelle enthalten. Strukturieren Sie Ihr Datenportal häufig um, ohne ordentliche Weiterleitungen einzurichten, und stellen Sie sicher, dass das Erste, was begeisterte Nutzer sehen, eine 404-Seite ist (oder besser noch, eine Seite, die erklärt, dass Ihr Portal eine neue Struktur hat und alle Daten jetzt irgendwo anders sind). Es gibt nichts Besseres, um potenzielle Nutzer zu frustrieren, als ihr Interesse zu dämpfen, nachdem es geweckt wurde.
Ändern Sie Daten nach der Veröffentlichung!
Auch wenn Sie die Daten nicht woanders hinverschieben können, können Sie sie immer noch an derselben URL ohne jegliche Versionierung oder Benachrichtigung ändern. Auf diese Weise können Nutzer, wenn sie die Daten herunterladen und verwenden, wirklich verwirrt werden, wenn sie versuchen, ihre Software erneut auszuführen. Denken Sie daran, ein Nutzer, der gelernt hat, dass er Ihre Daten ständig neu herunterladen und validieren muss, ist ein Nutzer, der wahrscheinlich nicht zurückkommt.
Trennen Sie zusammenhängende Datensätze!
Haben Sie einen Datensatz, der mehrere Jahre umfasst? Perfekt. Teilen Sie ihn in viele einzelne Dateien auf und verbinden Sie sie nicht auf offensichtliche Weise. Alle Datensätze zu finden und zu verknüpfen, ist zusätzliche Arbeit für jeden Nutzer, der den Fehler macht, Ihre Daten nutzen zu wollen. Glücklicherweise hassen Datenwissenschaftler zusätzliche Arbeit.
Dies hat den zusätzlichen Vorteil, den Wert Ihrer Daten besser zu verbergen. Ein potenzieller Nutzer, der nur einen Ihrer Datensätze findet, könnte annehmen, dass er nicht aktuell oder umfangreich genug ist, und Sie in Ruhe lassen. Stellen Sie sich diesen Datensatz mit Fußballdaten seit 1960 vor. Weckt das nicht sofort den Wunsch, herauszufinden, wie sich die Daten im Laufe der Zeit verändern? Stellen Sie sich vor, wie viel schlimmer es wäre, wenn Sie es einfach als eine Datei für jedes Jahr veröffentlichen würden. Mit etwas Glück würde jemand nur über die Daten für 1960 stolpern, annehmen, dass sie zu alt und nicht aktualisiert sind, und jemand anderen belästigen.
Zusätzliches Ziel: Verteilen Sie Daten automatisch auf Datenportale, aber lassen Sie Beschreibung und wichtigen Kontext nur auf Ihrer eigenen Website, um die Daten schwerer nutzbar und scheinbar von geringerer Qualität zu machen.
Quelle: https://heltweg.org/posts/how-to-make-sure-no-one-cares-about-your-open-data/
Lizenz: Dieses Werk ist lizenziert unter der Creative Commons Attribution 4.0 International Lizenz.