KI trifft auf deutsche Kolonialgeschichte
12. August 2024Wer in deutsche Archiven der Vorkriegszeit Recherchen anstellen möchte, wird schnell feststellen, dass sich die deutsche Schrift im Laufe der Geschichte stark verändert hat. Obwohl Vokabular und Grammatik ähnlich geblieben sind, braucht man also eine besondere Fähigkeit, um die Dokumente früherer Epochen zu entziffern: Man muss Handschriften lesen können, die aus dem alltäglichen Gebrauch der deutschen Sprache völlig verschwunden sind.
Eine der populärsten deutschen Schriftarten war die Kurrentschrift, eine Schreibschrift, die sich im Spätmittelalter entwickelte. Es gab mehrere Varianten, die bekannteste war Sütterlin. Diese Schreibschrift wurde 1911 entwickelt und von 1915 bis 1941 an deutschen Schulen gelehrt, bis sie von den Nazis verboten wurde - da sie angeblich "Judenlettern" enthielt.
Obwohl die mit Sütterlin aufgewachsenen Deutschen diese Schrift bis weit in die Nachkriegszeit hinein benutzten, können ihre Kinder oder Enkelkinder die von ihren Vorfahren geschriebenen Briefe heute oft nicht mehr lesen.
Damit deutsche Forscherinnen und Forscher es einfacher haben, hat das Bundesarchiv ein KI-Programm entwickelt, das dabei helfen soll, die verschiedenen Schriftarten zu entziffern. Dazu dienen sollen Dokumente aus der Kolonialzeit.
Bestand von Kolonialdokumenten: Wichtig für Aufarbeitung
Dokumente aus dieser Zeit waren für das KI-Projekt besonders interessant, weil das Bundesarchiv einen Bestand von rund 10.000 Akten des Reichskolonialamts, der zentralen Behörde für die Kolonialpolitik des Deutschen Reichs, besitzt.
"Die Akten sind ausgewählt worden für dieses Projekt, weil sie eben einen besonders hohen Anteil von Handschriften haben", so der Pressesprecher des Archivs, Elmar Kramer, gegenüber der DW.
Die Sammlung sei auch deshalb für das Pilotprogramm prädestiniert gewesen, weil die Akten des Reichskolonialamts bereits vollständig digitalisiert seien und keinem Urheberrechtsschutz mehr unterlägen, führt Projektleiterin Inger Banse aus. Vor allem aber sei die Aufarbeitung der Kolonialzeit ein gesellschaftlich relevantes Thema "und wir können einfach mit diesem Bestand einen guten Beitrag dazu leisten".
"Zu lange waren die Verbrechen der deutschen Kolonialzeit ein blinder Fleck in unserer Erinnerungskultur", begrüßt die Staatsministerin der Bundesregierung für Kultur und Medien, Claudia Roth, das Vorhaben des Bundesarchivs, mit einer speziell entwickelten KI-Technologie "das Wissen über dieses dunkle Kapitel deutscher Geschichte zu stärken. Damit leistet es einen wichtigen Beitrag zur Aufarbeitung."
Der erste Völkermord des 20. Jahrhunderts
Die Kolonisierung durch das Deutsche Reich begann Ende des 19. Jahrhunderts und konzentrierte sich hauptsächlich auf die Inbesitznahme von Gebieten und die Gründung von Kolonien in Afrika, der Südsee und China. Das deutsche Kolonialreich dauerte zwar nur 30 Jahre - von 1884 bis zum Ende des Ersten Weltkriegs - wurde aber schon kurz nach seiner Gründung zum drittgrößten Kolonialreich nach Großbritannien und Frankreich.
Zu den dunklen Kapiteln der Kolonialherrschaft, die im Bestand des Bundesarchivs dokumentiert sind, gehört auch die Niederschlagung des Aufstands der Sokehs im Jahr 1910/1911. Er begann im damaligen Deutsch-Neuguinea auf der Hauptinsel Pohnpei in den Ostkarolinen, den heutigen Föderierten Staaten von Mikronesien, und veranlasste die deutschen Kolonialherren dazu, mit einer Politik der verbrannten Erde Jagd auf die Rebellen zu machen und den Stamm von seiner eigenen Insel zu deportieren.
Ein weiterer prominenter Fall kolonialen Unrechts ist die Hinrichtung König Rudolf Douala Manga Bells und seines Sekretärs Adolf Ngoso Din im Jahr 1914; sie hatten sich friedlich gegen die Maßnahmen der deutschen Kolonialverwaltung zur Enteignung der Douala-Bevölkerung in der Küstenregion und im Südwesten Kameruns zur Wehr gesetzt.
Als besonders brutales Kolonialverbrechen ging der organisierte Völkermord in den Jahren 1904 bis 1908 an den Herero und Nama in die Geschichte ein. Er gilt als erster Völkermord des 20. Jahrhunderts. Die deutschen Kolonialherren übten grausame Vergeltung, nachdem sich die Herero und Nama gegen sie aufgelehnt hatten.
Erst 2021 räumte Deutschland offiziell ein, während seiner kolonialen Besetzung des heutigen Namibia einen Völkermord begangen zu haben.
Frühe Anwendung von KI
Im selben Jahr begann das Bundesarchiv mit der Entwicklung des KI-Tools, um die Dokumente aus der Kolonialzeit besser zugänglich zu machen - also noch bevor es ChatGPT oder andere große Sprachmodelle gab und künstliche Intelligenz zum allgegenwärtigen Diskussionsthema wurde.
"Uns ist wichtig, dass wir da auch immer bei den neuesten Entwicklungen mit dabei sind", erklärt Elmar Kramer die Vorreiterrolle des Bundesarchivs auf diesem Gebiet. "Deshalb ist KI bei uns schon seit einigen Jahren ein Thema und in diesem Fall kann man sagen, dass wir mit dem Thema Kolonialakten jetzt einen unserer ältesten Bestände mit einer der neuesten Techniken zusammenbringen, wenn man so will: KI meets Kolonialismus."
Man müsse bedenken, dass die KI nicht nur Sütterlin entschlüsseln können muss, sondern auch andere manchmal "recht schlampige, gekritzelte Schrift", betont Kramer. Und Inger Banse fügt hinzu. "Wir haben hier ganz viele unterschiedliche Handschriften an sich. Wir haben aber auch Gedrucktes und Schreibmaschinengeschriebenes. Es ist teilweise ganz viel durchgestrichen, es sind aber auch ganz saubere Seiten dabei." Deshalb wurden die Dokumente in drei verschiedene Kategorien eingeteilt, je nach Komplexität des Materials.
"Wir haben uns angeschaut: wie sich das Modell in diesen verschiedenen Kategorien verhält", erklärt Banse. Die Forscher trainierten das KI-Programm, indem sie die Transkriptionsergebnisse der KI von etwa 170 Seiten unterschiedlichen Materials manuell überprüften und Zeile für Zeile verbesserten. Banse meint, dass sie nun einen Punkt erreicht haben, an dem das KI-Modell eine akzeptable Genauigkeit bei der Transkription selbst des komplexesten Materials bietet.
Die Perfektionierung der Transkriptionen hätte einen unverhältnismäßig hohen Zeitaufwand erfordert, sagt Banse und verweist auf das "Pareto-Prinzip", wonach die schwierigsten 20 Prozent des Optimierungsprozesses 80 Prozent der Anstrengungen erfordern. "Irgendwann mussten wir also eine Grenze ziehen", erklärt sie. Stattdessen wurde eine weniger strenge Suchmaschine entwickelt, die ein breiteres Spektrum an Ergebnissen ermöglicht.
Das KI-Programm des Bundesarchivs wurde vorerst nur auf die Dekodierung von Kurrent trainiert, soll aber ein ganzes Feld von Möglichkeiten für andere deutschsprachige Archive eröffnen. Im Moment handelt es sich noch um ein Pilotprojekt, das speziell für die Sammlung der Kolonialdokumente des Bundesarchivs entwickelt wurde. Es kann in der Forschungshalle des Archivs in Berlin-Lichterfelde ausprobiert werden und wird bald auch online verfügbar sein.
Adaption aus dem Englischen: Kevin Tschierse