Offene Künstliche Intelligenz

9 Minuten Lesezeit

Inhalt

Grundlegende Konzepte
Der AI-Stack: Schichten und Abhängigkeiten
Machtkonzentration im KI-Ökosystem
Open Source zwischen Anspruch und Wirklichkeit
Daten als umkämpfte Ressource
Public AI: Infrastruktur im öffentlichen Interesse
Die Rolle von Open-Source-Frameworks
Ausblick

Die Entwicklung künstlicher Intelligenz (KI) ist eng mit Open-Source-Software (OSS) verbunden. Zentrale Frameworks, Datensätze und Modellarchitekturen werden öffentlich geteilt und kollaborativ weiterentwickelt. Zugleich konzentriert sich die Kontrolle über die dafür notwendige Infrastruktur – Rechenleistung, Daten und Modelle – bei wenigen Akteuren. Dieser Artikel beschreibt die technologischen Grundlagen, analysiert die Machtstrukturen im KI-Ökosystem und stellt Ansätze für öffentliche Alternativen vor.

Grundlegende Konzepte #

Open Source

Open Source bezeichnet eine Lizenzierungsmethode, bei der Quellcode öffentlich zugänglich ist. Jeder kann den Code verwenden, verändern und weiterverteilen. Die Open Source Initiative (OSI) formulierte Ende der 1990er Jahre die verbindlichen Kriterien für Open-Source-Lizenzen. Im Kontext generativer KI wird der Begriff Open Source allerdings zunehmend uneinheitlich verwendet. Viele als „open“ bezeichnete Modelle erfüllen die etablierten Kriterien nicht. Frameworks wie das Model Openness Framework oder Mozillas Framework for Openness in Foundation Models listen bis zu 16 Komponenten auf, die über Architektur und Gewichte hinausgehen: Trainingscode, Evaluierungscode, Trainingsdaten, Dokumentation und Lizenzbedingungen. Die Open Source Initiative hat 2024 mit der Open Source AI Definition (OSAID) einen eigenen Standard vorgelegt.

Künstliche Intelligenz

Künstliche Intelligenz bezeichnet die Simulation kognitiver Prozesse durch Maschinen. KI-Systeme reichen von regelbasierten Algorithmen bis hin zu selbstlernenden Systemen auf statistischer Basis. Alan Turing legte mit seinen Arbeiten zur Berechenbarkeitstheorie wesentliche theoretische Fundamente. Sein 1950 vorgeschlagenes Testverfahren stellte die Frage, ob eine Maschine in der sprachlichen Interaktion von einem Menschen ununterscheidbar sein kann. Die gegenwärtige KI-Entwicklung wird durch die Transformer-Architektur dominiert. Dieses Paradigma ermöglicht es, Modelle auf großen Datenmengen vorzutrainieren und anschließend für spezifische Aufgaben anzupassen. Der Entwicklungsprozess gliedert sich in Pretraining, Post-Training (etwa durch RLHF oder Instruction Tuning) und Deployment.

Der AI-Stack: Schichten und Abhängigkeiten #

KI-Systeme lassen sich als geschichteter Technologie-Stack analysieren, vergleichbar mit der Modellierung des Internets in Protokollschichten. Jede Schicht erfüllt eine spezifische Funktion und wird häufig von unterschiedlichen Akteuren kontrolliert. Die drei Kernschichten sind Compute, Daten und Modelle.

Compute

Die Compute-Schicht umfasst die physische und softwareseitige Infrastruktur für KI-Entwicklung: spezialisierte Chips (vor allem GPUs), Software-Frameworks zur Ansteuerung dieser Hardware sowie Rechenzentren, in denen GPUs zu leistungsfähigen Systemen vernetzt werden. Die für KI-Training eingesetzte Rechenleistung ist seit 2010 um den Faktor zehn Milliarden gestiegen. Weitere Skalierung stoßt auf vier Engpässe: Energieverbrauch, Halbleiterfertigung, Datenverfügbarkeit und physikalische Geschwindigkeitsgrenzen des Trainings. Nvidias proprietäre CUDA-Plattform hat sich als Industriestandard für GPU-beschleunigtes Rechnen etabliert. Ihre tiefe Integration in Frameworks wie PyTorch und TensorFlow schafft einen technologischen Lock-in, der Wettbewerbern den Markteintritt erheblich erschwert. AMDs offene Alternative ROCm konnte trotz vergleichbarer Funktionalität bislang keine breite Marktdurchdringung erzielen.

Daten

Die Datenschicht umfasst Speicherung, Verarbeitung und Transfer der Datensätze, die in Pretraining und Post-Training verwendet werden. Daten sind zugleich überreichlich und knapp: Der gesamte öffentliche Webinhalt diente als Trainingsgrundlage für kommerzielle Modelle, doch hochwertige und proprietäre Daten bleiben ungleich verteilt. Forschende von Epoch.ai prognostizieren einen „Peak Human Data“ zwischen 2026 und 2032, ab dem die verfügbare Datenmenge innerhalb des gegenwärtigen Paradigmas zum limitierenden Faktor werden könnte. Zunehmend werden post-training-spezifische Datensätze wichtiger: Dialogdaten für RLHF, aufgabenspezifische Beispiele für Instruction Tuning und synthetische Daten aus Modell-Destillation. Die Governance dieser neuartigen Datentypen ist bisher kaum adressiert.

Modelle

Foundation Models werden auf breiten Datenmengen trainiert und können für diverse Aufgaben adaptiert werden. Sie bestehen aus einer Architektur und optimierten Parametern (Gewichte und Biases). Daneben existieren Small Models mit wenigen Millionen bis wenigen Milliarden Parametern, die durch Destillation, Pruning oder Quantisierung aus größeren Modellen abgeleitet werden können.

Die Fähigkeit zur Modellableitung ist zentral für das Open-Source-Ökosystem. Nach der Veröffentlichung von DeepSeek-R1 (671 Milliarden Parameter) entstanden innerhalb einer Woche über 500 derivative Versionen auf der Plattform Hugging Face. Dieses Beispiel illustriert, wie offene Freigaben eine kaskadenförmige Innovationsdynamik auslösen können.

Machtkonzentration im KI-Ökosystem #

Vertikale Integration und Marktdominanz

Die Entwicklung und der Betrieb von Transformer-basierten Modellen erfordern immense Investitionen. Nur wenige Unternehmen – Amazon, Google, Meta, xAI und Microsoft – verfügen über die Mittel für einen Full-Stack-Ansatz mit eigenen Rechenzentren. Google und Amazon haben darüber hinaus eigene Chips entwickelt (TPU bzw. Inferentia und Trainium). Alle anderen bleiben von Nvidias GPUs abhängig, das eine monopolartige Marktstellung hält.

KI-Unternehmen ohne eigene Infrastruktur – etwa OpenAI, Anthropic oder Mistral AI – sind auf Partnerschaften mit Cloud-Hyperscalern angewiesen. Dabei entsteht ein zirkulärer Kapitalfluss: Laut Analysen steuerten die drei größten Cloud-Anbieter rund zwei Drittel der 27 Milliarden Dollar bei, die KI-Startups 2023 einwarben. 80 bis 90 Prozent des eingeworbenen Kapitals flossen als Infrastrukturkosten an dieselben Hyperscaler zurück. Auch die Betriebskosten sind erheblich. OpenAIs ChatGPT verursachte 2023 tägliche Betriebskosten von bis zu 700.000 Dollar für den Inference-Betrieb tausender GPUs. Diese ökonomische Dynamik verstärkt Winner-takes-most-Effekte: Skalenvorteile, Netzwerkeffekte und First-Mover-Advantages verdichten sich zu einer Marktstruktur mit Merkmalen eines natürlichen Monopols.

Der Compute Divide

Die ungleiche Verteilung von Rechenressourcen erzeugt einen „Compute Divide“ auf mehreren Ebenen. Innerhalb der Industrie unterscheidet man zwischen „GPU-rich“-Unternehmen mit eigener Infrastruktur und „GPU-poor“-Unternehmen, die auf teure Cloud-Dienste angewiesen sind. Ein analoger Graben besteht zwischen kommerziellen Labors und akademischen Forschungsinstitutionen. Global manifestiert sich dieser Divide geographisch. Forschende unterscheiden drei Kategorien: „Compute North“-Staaten mit GPU-Rechenzentren auf dem Stand der Technik, „Compute South“-Staaten mit weniger leistungsfähiger Infrastruktur und „Compute Desert“-Staaten ohne eigene Ressourcen. Öffentliche Rechenkapazitäten sind im Vergleich zur kommerziellen Infrastruktur minimal.

Halbleiterfertigung als strategischer Flaschenhals

Die Halbleiterproduktion gilt als eine der komplexesten globalen Lieferketten. TSMC hielt 2024 einen Marktanteil von 90 Prozent bei fortschrittlichen Logikchips. ASML in den Niederlanden ist das einzige Unternehmen weltweit, das EUV-Lithographiemaschinen herstellt – ein einzelnes Gerät kostet rund 350 Millionen Euro und besteht aus über 100.000 Komponenten. Diese Konzentration macht die Compute-Schicht des AI-Stacks zu einem geopolitisch sensiblen Engpass.

Open Source zwischen Anspruch und Wirklichkeit #

Das Problem des Open-Washing

Im Bereich generativer KI werden zahlreiche Modelle als „open“ oder „open source“ bezeichnet, obwohl sie die etablierten Standards nicht erfüllen. Häufig werden Modellgewichte veröffentlicht, während Trainingsdaten, Trainingscode oder Dokumentation verschlossen bleiben. Metas Llama-Modelle sind ein viel zitiertes Beispiel: Sie werden als offene Modelle vermarktet, erfüllen aber aufgrund ihrer Custom-Lizenzen nicht die Kriterien der Open Source Initiative. DeepSeek hingegen veröffentlicht konsistent offene Gewichte für alle Modelle und wird derzeit als das stärkste Beispiel für die Verbindung kommerzieller Ziele mit einer Open-Source-Strategie angesehen.

Nur eine Handvoll Akteure – darunter das Allen Institute for AI, EleutherAI und das Barcelona Supercomputing Center, veröffentlichen sämtliche Modellkomponenten einschließlich Trainingsdaten, Code und Dokumentation unter freien Lizenzen.

Das Derivat-Ökosystem

Die offene Freigabe von Modellen ermöglicht ein Ökosystem der Ableitung und Spezialisierung. Techniken wie Destillation, Fine-Tuning und Quantisierung erlauben es, aus großen Modellen kleinere, aufgabenspezifische Varianten zu erzeugen. Beispiele sind SEA-LION (AI Singapore) für südostasiatische Sprachen, das AINA-Projekt der katalanischen Regierung, Bielik als polnisches Sprachmodell sowie Coheres Aya als multilinguales Modellfamilie. Diese Projekte operieren allerdings unter erheblichen Ressourcenbeschränkungen.

Daten als umkämpfte Ressource #

Datenquellen und Zugang

KI-Trainingsdaten umfassen verschiedene Typen mit unterschiedlichem Zugangsregime. Proprietäre Daten stammen von Plattformen, die von denselben Unternehmen kontrolliert werden, die KI-Modelle entwickeln. Öffentliche Webdaten werden durch Crawling aggregiert. Offen lizenzierte Daten wie Wikimedia-Inhalte bieten zusätzlich Rechtssicherheit. Daten für Post-Training-Phasen – Präferenzdaten für RLHF, aufgabenspezifische Dialogdatensätze, synthetische Daten aus Modell-Destillation – gewinnen zunehmend an Bedeutung. Anders als Pretraining-Daten lassen sie sich nicht einfach aus dem öffentlichen Web extrahieren.

Urheberrecht und Datenethik

Das Training kommerzieller Modelle auf dem gesamten öffentlichen Internet erfolgt häufig unter unklaren rechtlichen Bedingungen. Der Books3-Datensatz enthielt 183.000 Bücher von Piraterieseiten und wurde für frühe Modelle genutzt. Meta soll noch 2024 Modelle auf LibGen trainiert haben. 2025 gewährte Annas Archive KI-Unternehmen einschließlich DeepSeek Zugang zu ihrer Datenbank. Die Bereitschaft zur öffentlichen Datenfreigabe sinkt. Untersuchungen der Data Provenance Initiative zeigen, dass die Zustimmung zum Web-Crawling stetig abnimmt. Auf globaler Ebene verstärkt unzureichende Daten-Governance bestehende Ungleichheiten: Überrepräsentation ressourcenstarker Sprachen, Dominanz westlicher kultureller Narrative und neue Formen eines „Datenkolonialismus“.

Ansätze für Data Commons

Als Gegenmodell werden commonsbasierte Governance-Modelle vorgeschlagen. Public Data Commons basieren auf drei Prinzipien: klare Zugangsregeln und Lizenzierungsmodelle, kollektive Governance durch definierte Gemeinschaften, sowie die Ausrichtung auf Gemeinwohlziele. Konkrete Beispiele umfassen die Māori-Sprachdatensätze von Te Hiku Media, afrikanische Sprachdatensätze von Common Voice und dem African Languages Project sowie das FineWeb-Projekt, das Common-Crawl-Daten filtert und qualitativ aufbereitet.

Public AI: Infrastruktur im öffentlichen Interesse #

Das Konzept öffentlicher KI-Infrastruktur

Public AI bezeichnet KI-Systeme, die unter transparenter Governance entwickelt werden, öffentliche Rechenschaftspflicht haben, gleichberechtigten Zugang zu Kernkomponenten bieten und auf einen klar definierten öffentlichen Zweck ausgerichtet sind. Das Konzept geht über Open Source hinaus: Es fordert nicht nur Offenheit der Artefakte, sondern auch demokratische Kontrolle und institutionelle Verankerung. Im Rahmen dieses Ansatzes wird argumentiert, dass mindestens ein vollständig offenes Modell existieren sollte, dessen Fähigkeiten an den Stand der Technik proprietärer Systeme heranreichen – ein sogenanntes „Capstone Model“. Dieses Modell würde als permanentes öffentliches Gut bereitgestellt und als strategischer Anker für ein breiteres Ökosystem dienen.

Der Gradient of Publicness

Da vollständig öffentliche KI-Infrastruktur aufgrund der Abhängigkeiten in der Compute-Schicht schwer realisierbar ist, schlägt das Bertelsmann-White-Paper einen „Gradient of Publicness“ vor. Dieses Rahmenwerk ordnet KI-Initiativen entlang eines Kontinuums ein, basierend auf drei Dimensionen: Attribute (Offenheit, Zugänglichkeit, Interoperabilität), Funktionen (gesellschaftliche oder wirtschaftliche Ziele) und Kontrolle (demokratische Governance und Rechenschaftspflicht). Sechs Stufen werden unterschieden: Auf der untersten Ebene stehen kommerzielle Komponenten mit öffentlichen Attributen etwa PyTorch, das von Meta geöffnet und von der Linux Foundation gehostet wird. Die mittleren Stufen umfassen Plattformen wie Hugging Face sowie öffentliche Compute-Infrastruktur wie die EU AI Factories. Höhere Stufen bezeichnen öffentlich finanzierte Datensätze und Werkzeuge wie Mozillas Common Voice. Die höchste Stufe repräsentiert vollständig öffentliche KI-Infrastruktur wie Spaniens Alia, die auf öffentlichen Daten, Modellen und Rechenzentren basiert.

Drei Pfade zu Public AI

Der Compute-Pfad zielt auf den strategischen Einsatz öffentlicher Rechenressourcen. Das Allen Institute for AI konnte mithilfe des europäischen Supercomputers LUMI das vollständig offene Sprachmodell OLMo entwickeln. In den USA arbeitet Argonne National Lab mit Intel am Aurora GPT. Das Barcelona Supercomputing Center veröffentlichte Alia als spanischsprachiges öffentliches Modell. Der Datenpfad fokussiert auf die Schaffung hochwertiger Datensätze als digitale öffentliche Güter mit commons-basierter Governance. Anders als bei der Compute-Schicht stehen hier Governance-Fragen im Vordergrund: Wie kann öffentliches Wissen vor Wertextraktion geschützt werden? Der Modellpfad zielt auf ein Ökosystem offener Modelle, das sowohl ein leistungsfähiges Capstone Model als auch spezialisierte Kleinmodelle umfasst. Da der direkte Wettbewerb mit kommerziellen Labors weder realistisch noch nachhaltig ist, wird eine Strategie empfohlen, die auf nachhaltige Entwicklungskapazitäten setzt.

Die Rolle von Open-Source-Frameworks #

Open-Source-Frameworks bilden eine Querschnittsschicht, die alle Ebenen des AI-Stacks durchzieht. PyTorch und TensorFlow stellen die primären Entwicklungsumgebungen für Deep Learning dar. Spezialisierte Bibliotheken wie scikit-learn, GPT-NeoX, vLLM und Hugging Face Transformers ergänzen dieses Ökosystem. Trotz ihrer kritischen Funktion kämpfen viele dieser Werkzeuge mit Nachhaltigkeitsproblemen. Einzelne Regierungen haben begonnen, gezielt zu investieren: Deutschlands Sovereign Tech Fund fördert zentrale Python-Bibliotheken, Frankreichs nationale KI-Strategie stellte 32 Millionen Euro für scikit-learn und die breitere Data-Science-Infrastruktur bereit. Die Förderung offener Software-Infrastruktur ist vergleichsweise kosteneffizient. Im Gegensatz zu hardware-fokussierten Compute-Investitionen können verhältnismäßig geringe Mittel erhebliche Hebelwirkung entfalten – vorausgesetzt, die Förderung umfasst nicht nur Erstentwicklung, sondern auch langfristige Wartung und Sicherheit.

Ausblick #

Die Analyse der Machtstrukturen im KI-Ökosystem zeigt, dass Offenheit allein nicht ausreicht, um öffentliche Interessen zu sichern. Die Abhängigkeiten in der Compute-Schicht – von Nvidias GPU-Monopol über den CUDA-Lock-in bis zur Konzentration der Halbleiterfertigung – begrenzen die Wirksamkeit reiner Open-Source-Strategien. Drei Entwicklungen könnten die gegenwärtigen Abhängigkeitsstrukturen verändern. Erstens könnten algorithmische Fortschritte den Ressourcenbedarf für leistungsfähige Modelle senken. Zweitens könnte Forschung jenseits der Transformer-Architektur langfristig die Abhängigkeit von massiver Compute-Infrastruktur reduzieren. Drittens könnte der koordinierte Ausbau öffentlicher Infrastruktur wie die EU AI Factories oder das „Airbus for AI“-Modell – den Zugang zu Rechenressourcen für öffentliche und akademische Akteure verbessern.

Die praktische Umsetzung öffentlicher KI-Infrastruktur erfordert institutionelle Kapazitäten: qualifiziertes Personal, koordinierende Institutionen und nachhaltige Finanzierungsmodelle. Der Aufbau solcher Kapazitäten ist insbesondere für kleinere Staaten eine realistische Strategie – auch ohne eigene Frontier-Modelle lassen sich durch Nutzung offener Foundation Models lokal relevante Anwendungen entwickeln. Die Debatte über KI und Open Source bewegt sich damit von einer primär technologischen Frage hin zu einer Frage der politischen Ökonomie: Wer kontrolliert die Infrastruktur, wer profitiert von der Wertschöpfung, und welche institutionellen Arrangements können sicherstellen, dass KI-Entwicklung auch öffentliche Ziele bedient?