Der Begriff “Open Source” hat sich in weiten Teilen der Gesellschaft als Qualitätsmerkmal etabliert. Einige KI-Unternehmen verwenden das Label “Open Source” jedoch zu großzügig und oft irreführend und betrieben damit “Openwashing”. Openwashing beschreibt, dass etwas als offen dargestellt wird, obwohl es in Wirklichkeit nicht offen und damit ein leeres Versprechen darstellt. Der Kontext dieses Phänomens ist eine breit angelegte Debatte in der Technologiebranche über die Vor- und Nachteile von Open-Source-KI-Modellen. Diese Diskussion hat weitreichende Auswirkungen, die von der Unternehmensethik bis hin zur nationalen Sicherheit reichen. Befürworter argumentieren, dass offene Modelle zu mehr Transparenz, Zusammenarbeit und letztlich zu sichereren und gerechteren KI-Systemen führen. Kritiker hingegen warnen vor den Risiken, die entstehen können, wenn potenziell gefährliche KI-Technologien frei zugänglich sind. Sie befürchten Missbrauch durch böswillige Akteure und unkontrollierte Verbreitung von Technologien, deren Auswirkungen bisher nicht vollständig verstanden werden.
Ein zentrales Problem in dieser Debatte ist das Fehlen einer allgemein akzeptierten Definition von “Open Source KI”. Dieses Vakuum führt zu einer Situation, in der verschiedene Organisationen den Begriff nach eigenem Ermessen interpretieren und implementieren. Einige Unternehmen bezeichnen ihre Modelle als “offen”, wenn sie lediglich begrenzte Einblicke in ihre Funktionsweise gewähren, während andere den gesamten Quellcode und die Trainingsdaten offenlegen. Diese Uneinheitlichkeit erschwert es der Öffentlichkeit und Fachleuten, die tatsächliche Offenheit eines KI-Systems zu beurteilen. Weiterhin argumentieren einige Andere, dass echte Open Source KI aufgrund der enormen erforderlichen Rechenleistung und Datenmengen praktisch unmöglich ist. Sie betonen, dass, auch wenn der Code zugänglich ist, die Ressourcen zum Trainieren und Betreiben fortschrittlicher KI-Modelle nur wenigen Großunternehmen zur Verfügung stehen.
Openwashing als Marketingversprechen
Es gibt zahlreiche Beispiele für unterschiedliche Interpretationen von Offenheit. OpenAI, dessen Name Offenheit suggeriert, gibt tatsächlich nur wenig über seine Modelle preis. Meta bezeichnet seine LLaMA-Modelle als Open Source, legt aber gleichzeitig Beschränkungen für deren Nutzung fest. Am anderen Ende des Spektrums stehen gemeinnützige Organisationen, die vollständige Transparenz bieten, indem sie Quellcode und Trainingsdaten offenlegen. Kritiker sehen in der Verwendung des “Open Source” Labels oft ein reines Marketinginstrument. Sie argumentieren, dass Unternehmen den Begriff nutzen, um sich einen Anschein von Transparenz und ethischem Handeln zu geben, ohne die damit verbundenen Verpflichtungen vollständig einzuhalten.
Diese Praxis des “Openwashing” ist eine Gefahr für die Integrität der Open-Source-Bewegung und kann als potenzielle Irreführung der Öffentlichkeit eingestuft werden. Sie untergräbt die Integrität der Open-Source-Bewegung, behindert echte wissenschaftliche Überprüfbarkeit und Innovation und schafft eine irreführende Vorstellung von Transparenz in der KI-Entwicklung.
Angesichts der Kontroversen und Missverständnisse rund um Open Source KI gibt es zunehmend Bestrebungen, Klarheit in diese komplexe Thematik zu bringen. Die Linux Foundation hat ein Rahmenwerk zur Kategorisierung von Open-Source-KI-Modellen veröffentlicht. Dieses Modell soll helfen, verschiedene Grade von Offenheit zu unterscheiden und eine gemeinsame Sprache für die Diskussion zu schaffen. Parallel dazu arbeitet die Open Source Initiative an einer umfassenden Definition von Open Source KI. Diese Bemühungen zielen darauf ab, Standards zu setzen und eine einheitliche Basis für die Beurteilung von KI-Systemen zu schaffen. Trotz dieser lobenswerten Initiativen bleiben grundlegende Zweifel bestehen. Viele Experten argumentieren, dass die enormen Ressourcenanforderungen für das Training und den Betrieb fortschrittlicher KI-Modelle eine echte Demokratisierung der Technologie verhindern.
Sie betonen, dass selbst bei vollständiger Offenlegung aller technischen Details die praktische Nutzung und Replikation dieser Systeme auf wenige ressourcenstarke Akteure beschränkt bleibt. Diese Realität stellt die grundlegende Machbarkeit von wirklich offener KI in Frage und unterstreicht die Notwendigkeit, die Diskussion über Offenheit in der KI-Entwicklung neu zu gestalten.
Studie zur Offenheit von großen Sprachmodelle und die EU-KI-Verordnung
Besondere Relevanz erhält diese Diskussion durch die bevorstehende EU-KI-Verordnung, die Open-Source-Modelle anders regulieren will. Der Gesetzentwurf sieht vor, dass als offen eingestufte Modelle weniger strengen Regelungen unterworfen werden. Diese Aussicht könnte den Anreiz für Unternehmen, ihre Modelle als offen zu deklarieren, weiter verstärken – unabhängig davon, ob sie tatsächlich vollständig transparent sind. Dies schafft eine komplexe Situation, in der die Definition von “Open Source” im KI-Kontext zu einem Schlachtfeld konkurrierender Interessen wird.
In ihrer Studie “Rethinking open source generative AI: open-washing and the EU AI Act” evaluierten Dingemanse und Liesenfeld 40 große Sprachmodelle – Systeme, die lernen, Text zu erzeugen, indem sie Assoziationen zwischen Wörtern und Sätzen in großen Datenmengen herstellen. Alle diese Modelle geben an, „quelloffen“ oder „offen“ zu sein. Die beiden Forscher erstellten eine Rangliste der Offenheit, indem sie die Modelle anhand von 14 Parametern bewerteten, darunter die Verfügbarkeit von Code und Trainingsdaten, die veröffentlichte Dokumentation und die Frage, wie leicht das Modell zugänglich ist. Für jeden Parameter wurde bewertet, ob die Modelle offen, teilweise offen oder geschlossen waren.
Angesichts dieser Herausforderungen schlagen die Autoren einen differenzierten Ansatz vor, der Offenheit als zusammengesetzt und abgestuft betrachtet. Sie argumentieren, dass die Komplexität moderner KI-Systeme eine einfache binäre Klassifizierung in “offen” oder “geschlossen” nicht zulässt. Stattdessen haben sie einen umfassenden Bewertungsrahmen entwickelt, der 14 Dimensionen der Offenheit umfasst. Diese reichen von der Verfügbarkeit von Trainingsdaten und Modellgewichten über Dokumentation und Transparenz bis hin zu Zugang und Lizenzierung.
Ergebnisse der Studie
An der Spitze der Offenheitsskala stehen einige wenige Systeme, die sich einer vollständigen Offenheit annähern. Diese stammen meist von kleineren Akteuren oder akademischen Initiativen, die große Anstrengungen unternommen haben, um Trainingsdaten, Code, Trainingspipelines und Dokumentation verfügbar zu machen. Beispiele hierfür sind Projekte wie BloomZ und OLMo Instruct. Im starken Kontrast dazu steht die Praxis vieler kommerzieller Akteure, insbesondere großer Technologieunternehmen. Diese machen oft nur die Modellgewichte verfügbar und teilen wenig bis keine Details über andere Teile ihres Systems. Diese Systeme können bestenfalls als “Open Weight” bezeichnet werden, sind aber weit davon entfernt, wirklich open source zu sein. Bemerkenswert ist, dass alle großen kommerziellen Akteure – Meta, Google, Microsoft und andere – in den unteren Rängen der Offenheitsskala zu finden sind.
Implikationen und Empfehlungen
Echte Offenheit in der KI-Entwicklung ist notwendig, um Innovation zu fördern, wissenschaftliche Überprüfbarkeit zu gewährleisten und eine verantwortungsvolle Entwicklung von KI-Technologien zu ermöglichen. Insbesondere die Offenlegung von Trainingsdaten, die oft als der “geheime Soße” der KI-Modelle betrachtet werden. Angesichts der bevorstehenden EU-KI-Verordnung empfehlen die Autor*innen, dass Regulierungsbehörden bei der Definition von “Open Source” einen mehrdimensionalen, evidenzbasierten Ansatz verfolgen sollten. Sie warnen davor, sich auf einzelne Kriterien wie Lizenzen zu beschränken, da dies leicht zu umgehen und zu manipulieren wäre. Stattdessen plädieren sie für einen umfassenderen Ansatz, der die verschiedenen Aspekte der Offenheit berücksichtigt.
Der von den Autor*innen vorgeschlagene Bewertungsrahmen bietet eine praktische Möglichkeit, detaillierte Informationen über Offenheit und Transparenz zu erfassen und zu kommunizieren. Diese Informationen können Regulierungsbehörden, Institutionen und die breite Öffentlichkeit befähigen, fundierte Entscheidungen über den Einsatz generativer KI zu treffen. Er könnte als Grundlage für “regulatory sandboxes” dienen oder in die Entwicklung von Zertifizierungssystemen für KI-Transparenz einfließen. Eine regulatory sandbox ist ein regulatorisches Instrument, das es Unternehmen ermöglicht, neue und innovative Produkte, Dienstleistungen oder Geschäftsmodelle unter der Aufsicht einer Regulierungsbehörde in einem begrenzten Zeitraum zu testen und zu experimentieren.
Ein besonders kritischer Aspekt, den die Studie aufdeckt, ist der eklatante Mangel an Transparenz bezüglich der Trainingsdaten. Etwa die Hälfte der analysierten Modelle gibt kaum oder gar keine Details über die Datensätze preis, auf denen sie trainiert wurden. Diese Intransparenz ist äußerst problematisch, da die Qualität und Zusammensetzung der Trainingsdaten maßgeblich die Leistung und potenziellen Verzerrungen eines KI-Modells beeinflussen. Ohne Einblick in diese grundlegenden Informationen ist es für Forschende und Anwender*innen nahezu unmöglich, die Zuverlässigkeit und Fairness eines Modells adäquat zu beurteilen. Zudem erschwert es die Identifizierung möglicher ethischer Probleme, wie die Verwendung urheberrechtlich geschützter oder unangemessener Daten. Diese Intransparenz untergräbt nicht nur das Vertrauen in die Modelle, sondern behindert auch die wissenschaftliche Überprüfung und Weiterentwicklung der Technologie.
Abschied vom Peer-Review und wissenschaftliche Dokumentation?
Die Studie bringt ein weiteres besorgniserregendes Phänomen ans Licht: den scheinbaren Niedergang des traditionellen wissenschaftlichen Veröffentlichungsprozesses im Bereich der KI-Modellentwicklung. Wissenschaftliche Veröffentlichungen zu den Modellen, die einem strengen Peer-Review-Prozess unterzogen wurden, kommen selten vor. Stattdessen dominieren unternehmenseigene Vorabdrucke und Blogbeiträge die Landschaft. Diese Verschiebung weg von der etablierten wissenschaftlichen Praxis hat weitreichende Folgen für die Qualitätssicherung und Nachvollziehbarkeit der Forschung. Blogbeiträge und Unternehmensveröffentlichungen neigen dazu, positive Ergebnisse hervorzuheben und kritische Details auszulassen. Der Mangel an rigoroser, unabhängiger Überprüfung erschwert es der wissenschaftlichen Gemeinschaft, die Qualität und Zuverlässigkeit der präsentierten Ergebnisse einzuschätzen. Diese Entwicklung gefährdet nicht nur die wissenschaftliche Integrität des Feldes, sondern auch das langfristige Vertrauen in KI-Technologien.
Die Autor*innen argumentieren, dass nur durch umfassende Transparenz und die Möglichkeit zur Replikation und Anpassung von Modellen echte wissenschaftliche Fortschritte und eine verantwortungsvolle Entwicklung von KI-Technologien möglich sind. Die Studie soll als Weckruf dienen und gleichzeitig anderen Wissenschaftlern ein wertvolles Instrument an die Hand geben, um die Offenheit von KI-Modellen besser einschätzen zu können. Dies ist besonders wichtig für Forscher und Lehrende, die fundierte Entscheidungen bei der Auswahl von Modellen für ihre Arbeit treffen müssen.
Nur Offenheit reicht nicht aus
Die Praxis vieler Unternehmen, insbesondere großer Technologiekonzerne, ihre KI-Modelle als “offen” zu bezeichnen, ohne tatsächlich umfassende Transparenz zu bieten, sind sehr problematisch. Oft werden lediglich die Modellgewichte veröffentlicht, während kritische Informationen über Trainingsdaten, Algorithmen und Entwicklungsprozesse unter Verschluss bleiben. Diese Praxis ist schädlich, da sie das Vertrauen in den Begriff “Open Source” untergräbt und echte Bemühungen um Offenheit verwässert. Die Autor*innen der Studie betonen in Hinblick auf die EU-KI-Verordnung, dass die Art und Weise, wie “Open Source” in dieser Verordnung definiert und gehandhabt wird, weitreichende Folgen für die KI-Landschaft haben wird. Es wird die Befürchtung geäußert, dass eine zu eng gefasste oder leicht zu umgehende Definition von Offenheit Unternehmen ermutigen könnte, weiterhin “Openwashing” zu betreiben, um regulatorische Vorteile zu erlangen, ohne echte Transparenz zu bieten.
Offenheit ist nicht die vollständige Lösung für die wissenschaftlichen und ethischen Herausforderungen, die mit der Generierung von Texten verbunden sind. Offene Daten können weder die schädlichen Folgen des unbedachten Einsatzes großer Sprachmodelle noch die fragwürdigen urheberrechtlichen Folgen des Auslesens aller öffentlich verfügbaren Daten aus dem Internet abmildern. Offenheit ermöglicht jedoch Forschung, einschließlich der Bemühungen, reproduzierbare Arbeitsabläufe zu entwickeln und die Grundlagen von auf Anweisungen abgestimmten LLM-Architekturen zu verstehen. Offenheit ermöglicht auch Kontrollen und Ausgleiche und fördert eine Kultur der Verantwortlichkeit für Daten und deren Pflege sowie für Modelle und deren Einsatz.
Eine Lösung für diese Herausforderungen kann ein mehrdimensionaler Bewertungsansatz sein. Dieser Rahmen berücksichtigt verschiedene Aspekte der Offenheit, von der Verfügbarkeit des Quellcodes über die Transparenz der Trainingsdaten bis hin zur Qualität der Dokumentation. Ein solcher differenzierter Ansatz könnte eine fairere und aussagekräftigere Bewertung der Offenheit von KI-Systemen ermöglichen und sowohl Regulierungsbehörden als auch der Öffentlichkeit ein klareres Bild vermitteln.
-> Nachverfolgung von Offenheit, Transparenz und Verantwortlichkeit von KI-Textgeneratoren