„Was e Gebabbel“: Warum KI in Mainz nur Bahnhof versteht

Künstliche Intelligenz kann kein Meenzerisch. Eine neue Studie der Uni Mainz zeigt, dass Sprachmodelle den Dialekt kaum verstehen. Die Forscher warnen: Regionale Sprachen könnten digital verschwinden.

„Was e Gebabbel“: Warum KI in Mainz nur Bahnhof versteht

Wie gut Künstliche Intelligenz (KI) den Mainzer Dialekt versteht, hat ein Forschungsteam der Johannes Gutenberg-Universität (JGU) erstmals untersucht. Das Ergebnis ist ernüchternd: Aktuelle Sprachmodelle haben massive Schwierigkeiten, „Meenzerisch“ korrekt zu interpretieren, wie die Universität am Montag mitteilte.

„Sprachvarianten wie Meenzerisch sind ein wichtiger Teil kultureller Identität, verschwinden aber gleichzeitig aus dem alltäglichen Gebrauch“, erklärt Minh Duc Bui vom Institut für Informatik der JGU. Er leitete die Studie gemeinsam mit Prof. Dr. Katharina von der Wense. „In der digitalen Sprachforschung werden regionale Dialekte bisher kaum berücksichtigt. Dabei könnten gerade sprachtechnologische Werkzeuge helfen, sie sichtbarer zu machen und langfristig zu bewahren.“

Wörterbuch von 1966 als Grundlage

Um die KI-Modelle überhaupt testen zu können, mussten die Forschenden, zu denen auch ein Wissenschaftler der Philipps-Universität Marburg gehörte, zunächst eine Datengrundlage schaffen. Sie digitalisierten ein Wörterbuch aus dem Jahr 1966 und erstellten daraus ein maschinenlesbares Lexikon mit 2351 Dialektwörtern und ihren hochdeutschen Definitionen. „Bislang fehlte es für Meenzerisch an genau solchen Ressourcen“, so Prof. Dr. Katharina von der Wense.

Anschließend testete das Team mehrere Open-Source-Sprachmodelle. Die Aufgaben: die Bedeutung von Meenzerisch-Wörtern erklären und umgekehrt aus einer standarddeutschen Definition das passende Dialektwort finden. „Unsere Ergebnisse fallen deutlich aus“, berichtet Bui. „Die getesteten Modelle scheitern sowohl beim Verstehen als auch beim Produzieren des Dialekts.“ Beim Erklären der Wörter lag die Trefferquote bei nur 4,24 Prozent, bei der Erzeugung von Dialektwörtern sogar nur bei 0,56 Prozent.

Dialekte werden digital unsichtbar

Selbst mit zusätzlichen Hilfestellungen wie Beispielen blieben die Ergebnisse schwach. „Die Resultate zeigen sehr klar, dass heutige Sprachmodelle Meenzerisch bislang kaum verstehen“, sagt Co-Autor Prof. Dr. Peter Herbert Kann von der Universität Marburg. Dies verdeutliche, wie schnell kleinere Sprachformen in digitalen Anwendungen unsichtbar werden können. Als eine Ursache vermuten die Forscher, dass Dialekte vor allem gesprochen werden und es daher an schriftlichen Daten für das Training der KI fehlt.

Die Studie sei ein erster Schritt, um auf das Problem aufmerksam zu machen. „Langfristig brauchen wir Modelle, die nicht nur Standardsprachen, sondern auch regionale und kulturell bedeutsame Varietäten verarbeiten können“, so Bui. Nur so könne die sprachliche Vielfalt auch im digitalen Raum erhalten bleiben.