macht.sprache. hinter den Kulissen 3 – die Entwicklung des Text Checkers

8. Dezember 2021 / poco.lit.

Veröffentlicht in

News

Tagged Approximate String Matching, case sensitive, Entwicklung, macht sprache, macht.sprache., Natural Language Processing, sensibles Übersetzen, text checker, Übersetzung, Übersetzungsmanifest

Bild:

Timur Celikel

poco.lit.

Seit Anfang 2021 führen wir das Projekt macht.sprache. durch. Kuratiert wird es von uns, den Redakteur:innen von poco.lit. Timur Celikel und Kolja Lange verantworten die technische Seite des Projekts. Das Wissen, was wir mithilfe der Diskussionen auf machtsprache.de und einiger Online-Veranstaltungen generieren konnte, ist nun in ein praktisches Tool geflossen. Hier bieten wir Einblicke in die Denkprozesse hinter der Entwicklung des Text Checkers und erklären, warum er von einem Übersetzungsmanifest begleitet wird.

macht.sprache. hat ein Werkzeug entwickelt, das Kulturschaffende und Menschen, die mit Englisch und Deutsch arbeiten, dabei unterstützt, sensibler zu übersetzen. Entstanden ist eine erste Version eines frei zugänglichen Text Checkers, der potentiell sensible Begriffe findet, hervorhebt und Hinweise und Vorschläge zur Übersetzung anbietet.

Um einen Text auf sensible Begriffe zu checken, können Nutzer:innen einen Text in die Maske des Text Checkers eingeben oder hinein kopieren. Der Text Checker gleicht den eingefügten Text mit den gemeinschaftlich gesammelten Begriffen aus der Datenbank von macht.sprache. ab und hebt sensible Begriffe hervor. Es werden Definitionen und Übersetzungsoptionen angezeigt. Relevante Leitlinien und Grundprinzipien aus dem Übersetzungsmanifest rahmen die Begriffserläuterungen und die Rangordnung der Übersetzungsoptionen. Außerdem wird auf die Diskussion zu dem jeweiligen Begriff auf machtspache.de verlinkt. Nutzer:innen können sich weiterhin in die Diskussion einbringen, konkrete Übersetzungsbeispiele ansprechen und neue Begriffe hinzufügen. Die Entwicklung eines solchen Text Checkers stellte uns nicht nur vor die Herausforderung, das Sprache sich ständig verändert und keine sprachliche Empfehlung für immer währen wird. Zusätzlich gab es zahlrieche technische Herausforderungen.

Wie kann der datenbankbasierte Text Checker Begriffsvarianten finden?

Prinzipiell besteht das Problem, dass in der Datenbank von macht.sprache. jeweils die Grundform eines Begriffs gespeichert wird (z.B.: weiß). In Texten, die Nutzer:innen vom Text Checker prüfen lassen wollen, kommen Begriffe natürlich nicht nur in ihrer Grundform vor. Der Text Checker muss also folgende Veränderungen erkennen können:

Deklination (verschiedene Fälle, Zahlen und Geschlechter, z.B. weißen, weißes…)
Als Nomen verwendete Adjektive oder Partizipien (die Weiße)
Konjugation (Person, Anzahl, Zeitform, etc.)
Begriffsvarianten (Person of Color und People of Color)
Verschiedene Schreibweisen, z. B. British und American English (Person of Colour und Person of Color).

Der Text Checker soll die Wörter finden, obwohl sie nicht exakt den Begriffen in der Datenbank entsprechen. Dafür sind verschiedene technische Ansätze denkbar:

Approximate String Matching

Übliche Rechtschreibprogramme basieren auf Approximate String Matching. In diesen Programmen werden Wörter, die fast mit einem Begriff aus der Datenbank übereinstimmen, automatisch miteinander verknüpft. So wird, wenn man “Obdachls” schreibt, “Obdachlos” vorgeschlagen. Angewendet auf macht.sprache. könnten mit diesem Mechanismus z. B. “Obdachlose” und “obdachlos” in Verbindung gesetzt werden. Leider kann Approximate String Matching auch schief gehen und Begriffe werden falsch gematcht – z. B. könnten “emotion” und “emoticon” aufgrund ihrer ähnlichen Buchstabenkombination verknüpft sein. Dass die Bedeutung eine völlig andere ist, wird beim Matching nicht berücksichtigt.

Natural Language Processing (NLP)

Dabei handelt es sich um eine neuere Technik, die auf Machine Learning basiert. Mithilfe von NLP können wir unter anderem Grundformen (Lemma) von Begriffen finden. Die Grundformen werden dann mit den Begriffen aus der Datenbank von macht.sprache. abgeglichen. Da wir nun Grundformen miteinander vergleichen, ist so das Problem der Deklination und Konjugation gelöst. Jedoch ist z.B. “obdachlos” nicht die Grundform von “Obdachloser”, da es sich um verschiedene Wortformen handelt – Adjektiv und Nomen.

Mit NLP hoffen wir bis März 2022 dank der Förderung durch den Prototypefund auch eine weitere Herausforderung der deutschen Sprache angehen zu können: Im Deutschen gibt es verschiedene Optionen des Genderns. Mithilfe von NLP sollen alle Personenbegriffe erkannt werden, damit der Text Checker entsprechende Hinweise zu den verschiedenen Möglichkeiten des Genderns anzeigen kann. Einerseits ist NLP ziemlich gut darin, Personenbegriffe zu markieren, andererseits würde ein Wörterbuch (bzw. eine Datenbank) wohl nie erschöpfend sein, da es sehr viele Personenbezeichnungen gibt.

Manuelles Einpflegen von Varianten

Zuletzt besteht die Option des manuellen Einpflegen. Damit ist gemeint, dass alle denkbaren Varianten – von deklinierten Formen hin zu verschiedenen Schreibweisen – vom macht.sprache.-Team hinzugefügt würden. Diese Option wäre sicherlich die präziseste, aber gleichzeitig die arbeitsintensivste. Nur händisch alle Varianten einzupflegen, ist von einem kleinen, vierköpfigen Team, das sich mit begrenzten Projektgeldern finanziert, leider nicht leistbar.

Zur Zeit benutzen wir für den Text Checker Natural Language Processing und ergänzen einige Varianten über manuelles Einpflegen. Da wir das Projekt noch mindestens bis März 2022 fortführen, überlegen wir, auch mit Approximate String Matching zu experimentieren. Eine Kombination verschiedener Ansätze scheint uns insgesamt am sinnvollsten und entspricht unseren Ideen von Kreativität und Offenheit für Neues. Generell ist uns klar, dass ein Projekt wie der Text Checker von macht.sprache. nie vollständig abgeschlossen oder allumfassend sein kann – vor allem, da Sprache sich ständig weiterentwickelt.

Häufige Begriffe und Kontextabhängigkeit

Einige Begriffe sind in bestimmten Verwendungskontexten sensibel, aber in anderen durchaus unproblematisch (z.B.: they, other, color, weiß). Der Unterschied ist kontextabhängig und schwer – aber nicht unmöglich – für eine Maschine zu ermitteln. So ist es denkbar, mithilfe von Natural Language Processing herauszufinden, ob ein Adjektiv eine Person oder ein Objekt beschreibt und es nur zu matchen, wenn es sich um eine Person handelt (also im Falle einer “weißen Frau” und nicht eines “weißen Hauses”). Da die Projektförderung für macht.sprache. vorerst nur noch wenige weitere Monate umfasst, wird uns wahrscheinlich leider die Zeit für die Implementierung dieser Unterscheidung nicht reichen.

Der Text Checker wird also diese Begriffe im Zweifel lieber einmal zu viel als einmal zu wenig hervorheben. Letztendlich liegt es an den Nutzer:innen, sich mithilfe der Unterstützungsangebote von macht.sprache. – also mit den Definitionen, Diskussionen und dem Übersetzungsmanifest – eine Meinung zu bilden und sich für eine Übersetzungsoption zu entscheiden. Hier ein Beispiel, was der Text Checker für den Begriff “weiß” empfiehlt:

Text: “Eine weiße Frau sitzt im Garten ihrer weißen Villa.”

Definition: (Adj.) beschreibt eine politische Position von Menschen im Kontext von Rassismus, die besagt, dass sie einen vergleichsweise einfachen Zugang zu gesellschaftlichen Ressourcen wie Arbeit oder Bildung haben.

Zusammenspiel zwischen Text Checker und Übersetzungsmanifest

Zusätzlich zum Text Checker haben wir ein Übersetzungsmanifest geschrieben, aus dem einzelne Teile direkt in den Text Checker integriert sind. Die Form des Manifests haben wir gewählt, da es ein Dokument ist, das darauf abzielt, Veränderung in der Welt herbeizuführen. Ein Manifest entspringt grundsätzlich einem unzulänglichen Status quo und möchte Leser:innen bewegen, etwas zu verändern. So bietet das macht.sprache.-Übersetzungsmanifest Argumente für einen politisch sensiblen Umgang mit Sprache und stellt einig nützliche Grundprinzipien und Leitlinien fürs Übersetzen vor.

Die Grundprinzipien erklären, welches Verständnis macht.sprache. in Bezug auf Übersetzungen vertritt und empfiehlt. Bei den generellen Leitlinien handelt es sich um Aussagen, die das Team von macht.sprache. entwickelt hat, um Übersetzer:innen in ihren Wortfindungsentscheidungen zu unterstützen. Kurze Erklärungen mit Beispielen und Begriffen aus der macht.sprache. Datenbank verdeutlichen die Relevanz der einzelnen Punkte.

Nutzer:innen sind herzlich eingeladen, neue Begriffe in die Datenbank einzutragen und Begriffe und Übersetzungsbeispiele zu diskutieren. Nur unsere gemeinsamen Bemühungen machen macht.sprache. im Ganzen zu einem hilfreichen Übersetzungstool.

Text von Timur Celikel, Anna von Rath und Lucy Gasser

Hinter den Kulissen 2 – Verhaltenskodex, Übersetzungen bewerten und mitmachen

Hinter den Kulissen 1 – über das Design, Barrierefreiheit und den Umgang mit diskriminierenden Begriffen

Werde Steady-Mitglied von poco.lit.

So unterstützt du unsere Arbeit im Abo monatlich oder jährlich.