Direkt zum Inhalt
mit:forschen!

Die Plattform für Citizen-Science-Projekte aus Deutschland: Mitforschen, präsentieren, informieren!

Citizen Science & KI: Alte Handschriften, neue Wege im Projekt Hanse.Quellen.Lesen!

Foto: O. Malzahn / FGHO

Im Projekt „Hanse.Quellen.Lesen!“ transkribieren Citizen Scientists historische Dokumente zur hansischen Geschichte des 16. und 17. Jahrhunderts und liefern gleichzeitig Trainingsdaten für Modelle zur automatisierten Handschriftenerkennung. Wir haben mit Dr. Angela Huang und Manuela Nitsch von der Forschungsstelle für die Geschichte der Hanse und des Ostseeraums (FGHO) über die Potenziale und Grenzen von Künstlicher Intelligenz in der historischen Handschriftenerkennung, Ressourcen und Unterstützungsmöglichkeiten sowie ihre Zusammenarbeit mit Freiwilligen gesprochen.   

Wie ist das Projekt entstanden und worum geht es?

Huang: Angefangen haben wir in der Coronazeit als Versuchsprojekt. Nicht mit dem Ziel, durch Citizen Science Daten zu generieren, sondern um über die Quellen mit Menschen in Kontakt zu kommen. Ich habe damals zu den Hanserezessen gearbeitet. Die gab es zwischen dem 14. und 17. Jahrhundert, sie sind aber nur bis Anfang des 16. Jahrhunderts ediert. Danach gibt es Zusammenfassungen, das heißt, die Hälfte des Bestandes fehlt. Da haben wir gemerkt: Wir brauchen dieses Material. Erst wollten wir es selbst erschließen, mit KI, kamen aber nicht weit, weil man dafür immer erst eigene Trainingsdaten erstellen muss – und dafür hatten wir nicht genug Zeit. Dann entstand die Idee, es gemeinsam mit der Öffentlichkeit zu machen.

Nitsch: Konkret transkribieren wir hauptsächlich frühneuzeitliche Handschriften, nämlich Hanserezesse, mit der Online-Anwendung Transkribus, bearbeiten inzwischen aber auch andere Quellen in weiteren Projekten. 

Was genau sind „Hanserezesse”?

Huang: Ganz technisch gesehen sind das die Verlaufs- und Beschlussprotokolle der Versammlungen von Hansestädten, also die Ergebnisse der gemeinsamen Interessenpolitik der Städte. Das reicht von Themen wie Privilegien, Politik, Krieg und Frieden bis hin zu so alltäglichem wie der Anzahl von Heringen, die pro Fass gelagert werden dürfen.

Nitsch: Mein Lieblingsbeispiel ist die Sitzordnung. Am Anfang wird immer die Anwesenheit kontrolliert. Wer am wichtigsten war, saß vorne. Das zeigt auch die Machtverhältnisse der damaligen Zeit. Für Teilnehmende unseres Projekts sind solche Auflistungen besonders knifflig, da gerade Namen schwer zu transkribieren sind.

Auf dem Bild ist eine historische Seite aus den Hanserezessen zu sehen.
Foto: Archiv der Hansestadt Lübeck

Warum habt ihr euch für Citizen Science entschieden?

Huang: Wir haben uns gar nicht so bewusst dafür entschieden. Es war zuerst vor allem ein schöner Weg, die Menschen mit den Quellen in Kontakt zu bringen. Ich finde das wirklich unglaublich toll, wenn die Leute selbst erleben können, woher Geschichtsschreibung kommt. Mein großes Ziel ist es außerdem, die automatisierte Handschriftenerkennung in der Geschichtsforschung voranzubringen. Dafür brauchen wir viele Trainingsdaten und die entstehen nur durch menschliche Arbeit. Mit unserem Forschungsansatz bieten wir den Teilnehmenden einen einmaligen Einblick in die Geschichtsforschung und generieren gleichzeitig weit mehr Daten, als wir alleine als professionelles Forschungsteam an der FGHO könnten.

Wer nimmt an dem Projekt teil und was sind die Aufgaben der Freiwilligen?

Nitsch: Gestartet sind wir mit drei, vier Personen, inzwischen sind wir ein Kern von über zwanzig. Mitmachen kann eigentlich jede*r mit Interesse an Geschichte, der Hanse oder am Transkribieren selbst. Unsere Teilnehmenden sind super unterschiedlich. Manche arbeiten still für sich im Kämmerlein, für die ist das wie Sudoku oder Kreuzworträtsel, andere sind jede Woche in der Sprechstunde dabei und auch thematisch total involviert. Einige transkribieren nur ein paar Seiten im Monat, andere mehrere pro Woche. Wichtig ist uns, dass alle in ihrem eigenen Tempo mitmachen können und vor allem Spaß dabei haben. Wir freuen uns über jeden Beitrag. Die Hauptaufgabe ist natürlich das Transkribieren, wobei sich inzwischen auch weitere Aufgaben ergeben haben, die unsere Citizen Scientists übernehmen. 

Auf dem Bild sind mehrer Menschen zu sehen die um einen Tisch versammelt vor ihren Laptops sitzen und historische Dokumente transkribieren.
Foto: Archiv der Hansestadt Lübeck

Welche Rolle spielt Künstliche Intelligenz im Projekt?

Huang: KI hat das Projekt überhaupt erst angestoßen. Die Frage, wie wir Technologie für die Geschichtsforschung im 21. Jahrhundert nutzen können. Ich bin unglaublich gerne im Archiv und sehe, welche gewaltige Menge dort liegt. Hier hat Handschriftenerkennung für unseren Forschungsbereich ein riesiges Potenzial. Wir können mit mehr und anderen Quellen arbeiten, die für uns vorher für die Forschung nicht gut zugänglich gewesen wären. Aber die Modelle müssen natürlich erstmal trainiert werden und dafür braucht es einfach Menschen, die transkribieren. Der Ablauf ist so: Die Teilnehmenden transkribieren das Material und wir verarbeiten es zu Modellen, die dann historische Handschriften automatisiert für die Forschung auswerten. 

Nitsch: Das Schöne im Projekt ist auch, dass wir die Modelle zur Handschriftenerkennung trainieren und sie gleichzeitig anwenden können. Das machen auch viele unserer Teilnehmenden. Sie bekommen ein Dokument und können erstmal eines unserer Trainingsmodelle drüber laufen lassen. Dann sitzt man nicht mehr vor der weißen Seite, sondern hat schonmal eine KI-Transkription, die man dann korrigieren kann. Und gleichzeitig sehen die Teilnehmenden, worin ihre Arbeit eingeflossen ist. Das finde ich sehr wichtig.

Huang: Die Daten machen wir außerdem öffentlich zugänglich. Jede*r kann also mit den Transkriptionen arbeiten. Und wir sind gerade dabei, auch die Trainingsdaten zu veröffentlichen, sodass andere Projekte sie nutzen können. 

Was sind die Potenziale von KI und wo liegen ihre Grenzen?

Huang: Mit KI erstellte Transkriptionen sind nicht perfekt. Hier kommen wir zur berühmten Character Error Rate, der Zeichenfehlerquote. Die hat sehr viel damit zu tun, welche Modelle man für welches Material nutzt, beziehungsweise welche Modelle mit welchem Material trainiert wurden. Für unsere Hanserezesse liegt sie aktuell bei rund 7 Prozent für das 15. Jahrhundert und bei etwa 5 Prozent für das 16. und 17. Jahrhundert. Unter 10 Prozent gilt als gut, unter 5 Prozent ist sehr gut. Für die meisten Historiker*innen sind solche kleineren Ungenauigkeiten akzeptabel. Wir haben die Modelle aber auch schon für andere, ähnliche Quellen angewendet. Teilweise kommt da Unsinn raus, teils aber auch gut lesbare Ergebnisse. Das Modell kann schon verbessert werden, wenn wir aus einem ähnlichen Jahrhundert, aus einem ähnlichen Raum relativ wenig Material dazugeben. Die Grenzen der KI hängen davon ab, was man damit machen möchte. Wenn man zum Beispiel Namen finden möchte, denn die werden oft sehr unterschiedlich geschrieben. Ortsnamen oder bestimmte Worte, wie Warenbezeichnungen, variieren hingegen kaum. Je spezifischer oder unterschiedlicher das Gesuchte wird, desto schwieriger wird’s. 

Nitsch: Bei unseren Modellen kommt es darauf an, in welchem Jahrhundert ich bin, um welche Handschrift es sich handelt. Man braucht aktuell noch das richtige Modell für die jeweilige Quelle. Das zeigt aber auch eine wichtige Chance der KI für die Teilnehmenden im Projekt: Sie trainieren ihre Medienkompetenz und erleben in der Praxis wo die Möglichkeiten und Grenzen von KI-Tools liegen. 

Wo habt ihr Unterstützung oder Ressourcen für die Arbeit mit KI gefunden?

Huang: Wir sind Mitglied in der „READ-COOP”, einer Genossenschaft, die auch Transkribus entwickelt und bereitstellt. Im Projekt „The Flow” sind wir auch mit der Universität Bielefeld und der Universität Bern in Kontakt, die uns bei technischen Fragen unterstützen. Den Rest haben wir uns selbst erarbeitet. Jetzt gerade kommt ein weiterer spannender Schritt, nämlich die Frage nach der ordnungsgemäßen Datenlagerung: Wie publiziert man sie? Was für Lizenzierungsfragen hängen daran? Wie macht man sie möglichst breit nutzbar? Bei diesen Fragen beraten uns jetzt aktuell zum Beispiel Kolleg*innen von der Universitätsbibliothek in Kiel. Aber die Verknüpfung von KI und Transkription historischer Handschriften ist noch nicht so weit verbreitet. Da wollen wir mit unseren Erfahrungen auch selbst Ansprechpartner für andere werden. 

Auf dem Bild ist die Nutzeroberfläche des Transkriptionsprgramms Transcribus zu sehen. Auf der linken Seite des Bildschirms ist die Seite mit den historischen Handschriften, auf der rechten die mit den Übertragungen in moderne Schrift.
Foto: Screenshot Transcribus

Welche Herausforderungen sind euch bisher im Projekt begegnet und was würdet ihr heute anders machen?

Nitsch: Die Schnittstelle zwischen den Forschenden und den Citizen Scientists ist extrem wichtig. Die Bedürfnisse beider Seiten müssen berücksichtigt werden. Eine ganz alltägliche Herausforderung dabei sind klare Regeln. Wir haben natürlich Transkriptionsrichtlinien für die Hanserezesse. Aber das Schöne bei historischen Handschriften ist ja auch, sie werden von Menschen geschrieben und enthalten Fehler oder schwer lesbare Stellen. Und da müssen wir immer aufs Neue entscheiden, wie gehen wir damit um, damit es für die Citizen Scientists praktikabel und gleichzeitig für die Forschenden nutzbar ist. Perfekte Transkripte gibt es sowieso nicht. Damit muss man lernen umzugehen. 

Huang: Von der technischen Seite gilt, dass man diverses Material braucht. Dafür sind Kooperationen wichtig. So kann man neues Material austesten, um zu sehen, wofür die automatisierten Transkriptionen nutzbar sind. Unsere Zeichenfehlerquoten sind gut. Jetzt müssen wir unser Projekt bekannter machen und weitere Kooperationen pflegen.

Nitsch: Wichtig ist mir noch: Das ist alles freiwilliges Engagement. Die Teilnehmenden sollen Spaß haben. Ohne Spaß funktioniert‘s nicht. Deshalb ist es von Bedeutung, dass wir ihre Arbeit wertschätzen – sei es im persönlichen Kontakt durch mich als Ansprechperson oder durch eine Ehrenamtskarte, die ihr Engagement würdigt. 

Welche Kooperationen mit anderen Institutionen gibt es bereits?

Nitsch: Im Laufe der Zeit haben sich einige Kooperationen entwickelt. Von Projektbeginn an mit dem Archiv der Hansestadt Lübeck und inzwischen natürlich auch mit anderen Archiven, in denen für uns relevante Quellen liegen. Im Zusammenhang mit dem Travewrack, das vor einigen Jahren gefunden und geborgen wurde, arbeiten wir mit dem Fachbereich Archäologie der Stadt Lübeck zusammen. Die Archäologie hat mit ihren Methoden die heiße Spur geliefert, nämlich wann das Schiff gesunken ist. Wir suchen jetzt in Gerichtsakten vom Lübecker Seegericht nach weiteren Informationen über das Schiff. Diese Akten sind jedoch ganz anders als die Hanserezesse, die wir bisher bearbeitet haben. Die Handschrift ist anders und auch die maritimen und juristischen Fachbegriffe sind sehr herausfordernd. Aber unsere Freiwilligen haben sich unglaublich schnell reingefuchst. Und es war wirklich toll für sie an etwas so Spannendem und Neuem zu arbeiten. 

Huang: Mit unserem Projekt unterstützen wir auch Forschende, die keine Zeit haben, hunderte Seiten zu transkribieren. Solche Kooperationen wollen wir weiter ausbauen, auch um unsere Modelle robuster und heterogener zu machen. Denn die Hanserezesse allein sind nicht besonders heterogen. 

Auf dem Bild ist der geschwungene Titel eines Hanserezesses zu sehen.
Foto: Archiv der Hansestadt Lübeck

Was waren bislang eure größten Erfolge?

Huang: Ein riesiger Erfolg ist, dass wir inzwischen Modelle mit 5% Fehlerquote haben. Auch die Medienrezeption in Tageszeitungen oder im NDR war toll. Ein ganz persönlicher Erfolg ist, die Lernbegeisterung der Teilnehmenden zu erleben. Eine unserer ersten Teilnehmerinnen hatte zuvor noch nie eine Quelle gesehen. Am Anfang war sie nach einer halben Stunde quasi schweißgebadet, fix und fertig. Heute transkribiert sie sogar freiberuflich. Das zu sehen ist schon was Besonderes.

Nitsch: Unsere Teilnehmenden kommen inzwischen aus ganz Deutschland, und die Lernkurve ist unglaublich steil. Dass ich die Leute gut willkommen geheißen und ins Projekt eingeführt habe, sie gut betreut habe und sie sich wohlfühlen und Spaß haben, ist für mich persönlich ein riesiger Erfolg. Und auch die Geschichtsvermittlung in den Sprechstunden, bei denen immer ein Historiker oder eine Historikerin dabei ist und das Ganze kontextualisieren kann. Zu erleben, wie die Quellen mit der Weltgeschichte zusammenhängen, das ist immer schön. 

Worauf freut ihr euch in Zukunft besonders?

Nitsch: Ich freue mich auf neue Menschen, die an dem Projekt teilnehmen wollen, auf neue Quellen und all die Herausforderungen, die noch kommen. Ich liebe es, jede Woche die Menschen mit ihren verschiedenen Perspektiven zu treffen und mitzubekommen, wie jede*r die eigenen Stärken einbringt. Ich habe total Spaß an diesem Job.

Huang: Ich freue mich, jeden Tag aufs Neue zu sehen, was im Projekt passiert. Ich freue mich auf neue Kooperationen, darauf Kontakte zu knüpfen, neue Projekte an Land zu ziehen und das, was wir machen, noch breiter und vielfältiger zu nutzen. Und ich freue mich darauf, die Berührungspunkte zwischen Gesellschaft und historischer Forschung zu stärken und neue historische Schätze zu entdecken.


Manuela Nitsch ist Citizen-Science-Managerin bei der FGHO und betreut das Projekt „Hanse.Quellen.Lesen!".

Dr. Angela Huang leitet die FGHO am Europäischen Hansemuseum. 

Leon Altfeld

Leon unterstützt mit:forschen! seit April 2024 als studentische Hilfskraft in der Redaktion und Öffentlichkeitsarbeit. Er studiert Geography: Global Change and Sustainability an der Universität Wien.