Klassifizierung von Keilschriftzeichen mit Algorithmen des Maschinellen Lernens:

Ein Vergleich verschiedener Ansätze

Alt-Text 1

Keilschrifttafel während einer Ausgrabung. Das Bild stammt aus dem Haft Tappeh Projekt der JGU-Mainz.

Die Keilschrift ist eines der weltweit ältesten Schriftsysteme, das von circa 3200 v. Chr. bis 75 n. Chr. genutzt wurde. Da die Schrift über die Jahre weiterentwickelt und in verschiedenen Sprachen genutzt wurde, macht dies die Erschließung und Erforschung dieser zu einer Herausforderung. Gleichzeitig entsteht dadurch eine vielseitige Quelle, die für historische Erkenntnisse innerhalb unterschiedlicher Disziplinen verwendet werden kann. Inhaltlich wurden diverse Informationen, wie Kaufverträge oder auch literarische Werke mithilfe der Keilschrift festgehalten, wodurch dies nicht nur für die Archäologie interessante Forschungsperspektiven bietet.

Die hier vorgestellte Arbeit befasst sich mit der Frage, ob und inwieweit maschinelles Lernen dazu genutzt werden kann, Keilschriftzeichen anhand von Bildern zu klassifizieren und welche Ansätze geeignet sein könnten. Hierbei wird keine vollständige Übersetzung oder Transkription von Tafeln angestrebt, sondern es soll vielmehr die Machbarkeit einer automatisierten Erkennung von einzelnen Zeichen getestet werden. Es werden unterschiedliche Algorithmen in experimenteller Art angewendet, evaluiert und verglichen, um ihre Eignung für die Klassifizierung von Keilschriftzeichen einzuschätzen. Diese Website gilt als zusammenfassende Ergänzung für die Arbeit selbst, welche in dem zugehörigen Git Repositorium, zusammen mit den genutzten Daten und den Ergebnissen, zu finden ist. Die Datengrundlage für die Arbeit bestand aus Bildern von 28349 annotierten Zeichen, welche aus dem Bechmarkdatensatz MeiCuBeDa stammen (Mara, Hubert und Timo Homburg. 2023). Die verwendeten Algorithmen waren K-Means, als einfaches Clustering-Verfahren, k-nächste Nachbarn (KNN), ein Random-Forest-Classifier und ein gefaltetes, neuronales Netz (CNN).

Die Arbeit zielt darauf ab, durch experimentelle Anwendung festzustellen, welcher Algorithmus am besten geeignet sein könnte und welchen Einfluss die Anzahl der Zeichen auf die Klassifizierung hat. Zudem sollte ein benötigter Schwellenwert(Threshold) für die Klassifizierung ermittelt werden, welcher eine ideale Anzahl an Zeichen vorgibt, die in einem Datensatz für eine erfolgreiche Klassifizierung vorhanden sein sollten. Die zentralen Fragen der Arbeit umfassten die Eignung der getesteten Algorithmen für die Aufgabe der Klassifizierung von Keilschriftzeichen, sowie die Identifikation von möglichen Problemen und Einflussfaktoren. Ebenso sollte eine Einschätzung über die Verarbeitung der Bilder und die damit verbundene Berechnung bestimmter Bildeigenschaften, die sich für die Klassifizierung der Zeichen am besten eignen, herausgearbeitet werden. Die Ergebnisse und Daten der Studie sind im genannten Git Repositorium strukturiert veröffentlicht, um als Grundlage für weitere Forschungsprojekte zu dienen.