LLM-Trainingsdaten sind Rohstoff oder "das Sandkorn im Beton"
von Regina Seelos
Daten sind Rohstoff
Im Laufe meiner Übersetzerlaufbahn habe ich seit 1997 schon sehr viel Rohmaterial für die maschinelle Übersetzung geliefert - immer ungefragt und ohne Vergütung. Klar wurden die Übersetzungen vom Kunden bezahlt, aber die Zweitnutzung nach Abgreifen - auch Scraping oder Mining genannt - aus dem Internet nicht. Auch wenn das nach Urheberrecht unter Umständen zulässig ist, müsste des dennoch als Rohmaterial vergütungsfähig sein, z. B. über die Vergabe von einer Art von "Schürfrechten". Immerhin wird mit diesen Daten Geld verdient. Ohne Daten keine KI oder maschinelle Übersetzung.
Inzwischen bin ich doch etwas verärgert darüber. Auch weil die Bedeutung des Beitrags, den Übersetzer, Texter oder Redakteure für die Maschinelle Übersetzung (MÜ) oder Künstliche Intelligenz (KI) leisten, oft heruntergespielt wird. Das Argument: Der Beitrag des Einzelnen ist nicht mehr als ein paar Sandkörnchen im Beton oder ähnliche Vergleiche.
So wie aber auch Beton ohne Sandkörnchen und Kies nicht die Qualität hat wie ohne, so ist auch MÜ/KI ohne die großen Datenmengen fürs Training aufgeschmissen. Ohne Trainingsdaten, die eingefüttert werden, kann auch nichts ausgegeben werden. Natürlich braucht es auch den Betonmischer – also die Technik und Algorithmen hinter der KI. Nur ist der ohne den Rohstoff, der eingefüllt wird, auch wertlos. Und Rohstoffe mussten bislang in der Wirtschaft immer bezahlt werden. Dies gilt auch, wenn der Rohstoff, der einem Einzelnen zugeordnet werden kann, sehr klein ist.
Rohmaterial hat einen Wert
Wir Übersetzer:innen haben schon sehr viel Rohmaterial geliefert: Ob mehrsprachige Website-Texte, Bedienungsanleitungen oder Datenblätter zum Download etc. – all das findet sich im Internet und in maschinellen Übersetzungen wieder. In einem kürzlich bearbeiteten Postediting-Projekt wurde das einmal mehr sehr deutlich. Überall, wo gute mehrsprachige Websites vorhanden waren, fanden sich diese Texte fast 1:1 in der maschinellen Übersetzung wieder. Dies ist jetzt natürlich keine wissenschaftliche Studie, sondern nur eine einzelne Feststellung. Allerdings basiert ja z. B. DeepL auf Linguee, wo man genau dies findet: Textstellen in mehrsprachigen Websites. Und diese Texte und Übersetzungen wurden von Menschen erstellt, von Übersetzer:innen, Texter:innen oder Redakteur:innen. Eine Zweitnutzung durch Dritte ist da in der Regel nicht vereinbart. Schon gar nicht ungefragt.
Gefragt hatte vor vielen Jahren eine Übersetzungsagentur, die sich irgendwann zum Portal gewandelt hat. Anfang der Nullerjahre wurden wir um Übersendung unserer Translation Memories gebeten. Im Gegenzug sollten wir Übersetzer:innen dann auf das daraus entstehende sehr große Translation Memory zugreifen dürfen. Ich fand das damals äußerst befremdlich und rechtlich bedenklich, da ich mit den meisten Kunden Vetraulichkeitsvereinbarungen geschlossen habe. Ich habe daher nichts geliefert. Dies waren jedoch die Anfänge des TAUS-Projekts. Das Unternehmen verkauft laut seiner Website inzwischen auch gescrapte Daten z. B. für die maschinelle Übersetzung und weitere MÜ-bezogene Leistungen. Diese Daten haben also durchaus einen Wert, der allerdings bei den Erstellern der Daten nicht ankommt. Der gesamte Ertrag bleibt beim Hersteller und Betreiber des Betonmischers – um beim Beispiel oben zu bleiben. Der Rohstofflieferant geht leer aus.
Wir brauchen eine Vergütungslösung
Daher bin ich der Meinung, dass es eine Lösung wie z. B. die VG Wort braucht – möglichst auf internationaler Ebene. Denn das Scraping oder Data Mining macht ja nicht an Landesgrenzen halt.
Ich würde mir wünschen, dass unsere großen Verbände wie der BDÜ, die FIT Europe und der VGSD ihre Position – auch politisch – nutzen, um eine Lösung zu finden, bei der die Rohstofflieferanten nicht gänzlich leer ausgehen.