OpenData-Formate

Der Unterschied zwischen offenen und proprietären Formaten liegt nur in der Verfügbarkeit oder Nichtverfügbarkeit einer öffentlichen Spezifikation des Formates. Der Großteil aller Daten weltweit wird mit und in proprietären Daten- oder Dateiformaten verarbeitet oder abgespeichert. Der Einsatz solcher Formate kann eine Abhängigkeit zwischen den Datenbeständen und den Herstellern herstellen, da diese Formate nicht offen dokumentiert werden und ihr Aufbau geheim gehalten wird. Dies kann zu einem Vendor Lock-In führen, weshalb besonders staatliche Anstalten zunehmend auf offene Standards setzen. Im äußersten Fall kann dies bedeuten, dass in proprietär abgespeicherten Formaten Informationen nicht oder nur mit spezieller, teurer Software ausgelesen werden können.

Ein weiterer Vorteil von offenen Formaten ergibt sich aus der Möglichkeit, dass Softwareentwickler mehrere Softwarepakete mit diesem Dateiformat entwickeln und somit eine Weiterverwendung der Daten ermöglicht wird. Hier sind gängige Dateiformate unter den Gesichtspunkten der Maschinenlesbarkeit, der Offenheit und der Verfügbarkeit von Spezifikationen aufgeführt.

Informationen werden in kodierter Form abgespeichert. Die Wahl der Codierung ist eine willkürliche und keine natürliche Wahl. In Abhängigkeit von den Vereinbarungen eines Standards könnte die Zahl 234 den Buchstaben f oder darstellen. Alle Formate und Protokolle sind ihrer Natur nach willkürlich, müssen aber genau nachvollzogen werden, um in ihnen gespeicherte Daten wiederherstellen zu können. Daraus folgt, dass Daten, die in einem spezifischen Format codiert wurden, auch nur von einer Software gelesen werden können, die dieses Format implementiert hat. Kommt es zu geringen Abweichungen von den Konventionen des Formates, führt dies unter Umständen zur Korrumpierung der gespeicherten Daten.
Ein Datenformat ist eine bestimmte Spezifikation der Datenverarbeitung. Diese legt fest, wie die Interpretation von Daten beim Laden, Speichern oder Verarbeiten zu erfolgen hat. Dagegen wird beim Dateiformat die Form bei der Abspeicherung von Computerdaten bestimmt.

Offene Daten- und Dateiformate dagegen basieren auf klar definierten offenen Standards, die von einer Formungsorganisation (z.B. ISO, OASIS oder OGC) verwaltet werden. Die Offenlegung dieser Standards ermöglicht es, Softwarelösungen von Dritten zu konzipieren. Offene Formate müssen sowohl von proprietärer als auch von Freier Software implementierbar sein. Ohne solche offenen Formate wäre das World Wide Web in dieser heutigen Form schwer vorstellbar; nur weil der Internet-Protokollstandard TCP/IP offen dokumentiert ist, können Benutzer unterschiedlicher Betriebssysteme ungehindert über das Internet kommunizieren.

Der World-Wide-Web-Dienst (www), setzt mit HTML und XHTML ebenfalls auf offene Formate. Datensätze können als strukturierte, semistrukturierte und unstrukturierte Daten vorliegen. Strukturierte Daten weisen eine eindeutige Datenstruktur auf. Die einzelnen Spalten der Tabelle einer Datenbank sind eindeutig bezeichnet und die Daten können gefiltert, sortiert und bearbeitet werden.

  • Semistrukturierte Daten sind automatisiert maschinenlesbare Daten (beispielsweise im XML-Format), die nicht in Tabellenform vorliegen, sondern per Auszeichnung gekennzeichnet sind.
  • Unstrukturierte Daten sind beispielsweise Schriftstücke, die als Text- oder Bilddatei vorliegen (etwa eingescannte Dokumente).

Entsprechend Punkt 7 der 10 Prinzipien von Open Government Data sollen für amtliche Daten keine proprietären Dateiformate gewählt werden.

Die folgenden Dateiformate, Schnittstellen und Dienste erfüllen OpenData-Kriterien:

Text-, Tabellen- und Bildformate

  • Klassische Textdateien .txt
  • Comma Separated Value .csv
  • Hypertext Markup Language .html
  • Extensible Markup Language .xml
  • Resource Description Framework .rdf
  • Open Document Formats .odt, .ods, etc.
  • Newsfeed/Webfeed Syndication .rss
  • JSON (JavaScript Object Notation) .json

Geodatenformate

  • Geography Markup Language .gml
  • GPS Exchange Format .gpx
  • Keyhole Markup Language .kml

Schnittstellen

  • Web Map Service .wms
  • Web Feature Service .wfs
  • Web Map Tile Service .wmts