Big Data im Archiv

Die Köpfe der Venice Time Machine: Computerwissenschaftler Frédéric Kaplan, Historikerin Isabella di Lenardo (Quelle: Kellenberger Kaminski Photographie).

Über tausend Jahre venezianische Geschichte, mehr als hundert Millionen Dokumente: Das soll in der Venice Time Machine digitalisiert, online zugänglich und durchsuchbar gemacht werden. Ist das Projekt erfolgreich, könnte sich die Arbeit von Historikerinnen und Historikern grundlegend ändern. Was bedeutet dieser plötzliche digitale Quellenreichtum?

Von einem Pilz redet der Mann. Ein Viereck soll daraus werden, sagt er, jahrelang werden viele Menschen daran arbeiten, über ein halbes Jahrzehnt sind sie schon dran. Der Mann heisst Frédéric Kaplan und ist Computerwissenschaftler. Und der Pilz, der ist eigentlich ein Graph an einer vertikalen Zeitachse: Je weiter wir in der Zeit zurückgehen, desto geringer wird die Menge der digitalisierten Quellen. Oben ein breiter Schirm, unten ein ausdünnender Stiel. Genau das will Kaplan ändern. Gemeinsam mit der Historikerin Isabella di Lenardo und einem grossen Team von etwa hundert Archivarinnen, Historikern, Computerlinguistinnen und anderen Fachpersonen werden im Moment die achtzig Regalkilometer des Staatsarchivs Venedig digitalisiert.

Venice Time Machine heisst das Projekt, das 2012 von der ETH Lausanne und der Universität Ca’Foscari in Venedig lanciert worden ist. Über tausend Jahre Quellenmaterial sollen in diesem Rahmen gescannt, transkribiert und analysiert werden, dazu tausende Monographien. All dieses Material soll schliesslich in einem semantischen Netzwerk miteinander verlinkt werden. Eine Art «Facebook der Vergangenheit» will Kaplan bauen, eine riesige offene Datenbank für Forschungs- und Lehrzwecke. 

Die Technologie dahinter

Hinter dem unter anderem von der EU sehr umfassend finanzierten Projekt steckt eine riesige Maschinerie. Zunächst müssen die Dokumente gescannt werden. Kaplan, di Lenardo und ihr Team haben dazu einen Scanner entwickelt, mit dessen Hilfe stündlich etwa tausend Seiten digitalisiert werden können. Davon sind mehrere im Einsatz. Zusätzlich arbeitet die ETH Lausanne an einer Maschine, die mithilfe von Röntgenstrahlung Bücher Seite für Seite erfassen soll, ohne dass diese geöffnet werden müssen.

In einem nächsten Schritt werden die Scans transkribiert. Gerade bei Handschriften versagt heute die automatische Texterkennung (optical caracter recognition, OCR) noch. Deswegen werden im Rahmen der Venice Time Machine Algorithmen entwickelt, welche die Texte in potentielle Wörter herunterbrechen, diese Fragmente dann mit andern vergleichen und anhand des Schriftbildes klassifizieren sollen. So soll der Mechanismus gleichzeitig Millionen identischer Wörter erkennen und transkribieren. Diese Ansammlung transkribierter Worte wird wiederum von Algorithmen in mögliche Sätze unterteilt. Schliesslich werden die Texte automatisch mit Schlagworten versehen und die Dokumente so verbunden.

Simulationen statt Monographien?

Darüber hinaus soll die Entwicklung Venedigs über die Zeiten hinweg kartographisch rekonstruiert werden. Das heisst auch: Wo die Daten unvollständig sind, werden sie ergänzt oder simuliert. Noch stecken all diese Techniken in den Kinderschuhen, aber es ist keineswegs eine abwegige Vorstellung, dass sie in den nächsten Jahren riesige Fortschritte machen werden.

Bereits ist das Projekt der Venice Time Machine ausgeweitet worden. Unter dem Schirm des Time Machine FET Flagships, das im Rahmen des FET Future and Emerging Technologies-Programms auf EU-Förderungsgelder in der Höhe von einer Milliarde Euro hofft, sollen auch andere Städte aufgearbeitet werden. Manche Projekte laufen bereits, andere sind in Planung oder haben schon Finanzierungsgesuche eingereicht. Viertausend Jahre Jerusalem, dreitausend Jahre Paris, fünfhundert Jahre Antwerpen, dreihundertvier Jahre Budapest, alle miteinander verbunden. Europa als riesiges digitales Archiv. Ist das die Zukunft? Weltstädte als eine Art Google Streetview, in dem die Zeit vor- und zurückgedreht werden kann? Vierdimensionale Karten statt Archivbäume? Soziale Netzwerke der Vergangenheit statt Pappschachteln mit Dokumenten drin?

Venedig blickt auf eine reiche Geschichte zurück. Für Lehr- und Forschungszwecke wird nun auch der Quellenreichtum digital ausgeschöpft. Analoge Karten sind damit bald passé.
Venedig blickt auf eine reiche Geschichte zurück. Für Lehr- und Forschungszwecke wird nun auch der Quellenreichtum digital ausgeschöpft. Analoge Karten sind damit bald passé.

Riesige Digitalisierungsprojekte gibt es auch ausserhalb der sogenannten westlichen Welt, sie existieren auch schon länger als die Time Machine, nur technologisch sind sie etwas weniger ambitioniert. Seit 2002 läuft in China das Qing History Project, in dessen Rahmen dutzende Millionen Dokumente der Qing-Dynastie aus diversen Archiven digitalisiert und teilweise übersetzt werden. Seit 2010 ist die bibliothèque numérique kurde online, mit über 10‘000 teils OCR-durchsuchbaren Monographien, Fotographien, Tondokumenten, Zeitungen und anderen Dokumenten über Kurdistan und die Kurdinnen. Die Liste liesse sich ewig fortsetzen. Es steht jedoch fest, dass sich mit dieser Explosion an digital verfügbarem und oft online frei zugänglichem Material die Arbeit von Historikerinnen radikal verändert. Auch ohne multidimensionale Visualisierungen und Simulationen recherchieren wir heute mit ein paar Klicks statt mühsamem Bücherwälzen – und genau hier liegt das Problem. Aber dazu später. Widmen wir uns zunächst den schillernden Zukunftsvisionen. 

Vor allem eines: boring stuff

In erster Linie scheint das Time Machine-Projekt, das als «Large Scale Historical Simulator» vermarktet wird, auf eine breitere und auch nichtakademische Öffentlichkeit angelegt zu sein. Aus geschichtswissenschaftlicher Perspektive ist dieser Aspekt bedenklich, von der Public History aus gesehen erscheint er dafür umso vielversprechender. Die vorgesehenen kartographischen Simulationen der Vergangenheiten von Venedig, Paris, ganz Europa machen Geschichte im wahrsten Sinne des Wortes sichtbar. Insofern ist das Projekt aus museographischer Sicht hochinteressant – und im Hinblick auf die Tourismusindustrie auch aus ökonomischer.

Auch für die geschichtswissenschaftliche Forschung öffnen sich neue Türen. Aus dieser Perspektive vielleicht am interessantesten ist, dass mit digitalen Recherchetechniken und Methoden neue Fragen beantwortbar werden. 

«Boring stuff», so nennt der Historiker Cameron Blevins die Zugfahrpläne, Güterpreise und Frachtraten, die er in zwei Zeitschriften aus Houston, Texas des späten 19. Jahrhunderts fand. Er wollte wissen, wie die Zeitungen Zeit und Raum produzierten, welche Orte und Räume sie gross erscheinen liessen und welche in ihrer Geographie wenig Platz fanden. Dabei entdeckte er, dass gerade der boring stuff, dieser «fragmentarische, banale und übersehene Inhalt», eine völlig neue Perspektive auf die Weltsicht erschloss, die diese Zeitungen vermittelten: Regionale dominierte nationale Geographie. Nie, schreibt er, hätte er dieses Argument ohne Computer machen können.

Solcherart boring stuff ist auch im venezianischen Archiv abgelegt: Geburten- und Sterberegister, Steuerverzeichnisse, Karten, Dokumente zur Stadtplanung, Testamente, Verträge und vieles mehr – big data des Archivs. Gerade die schiere Menge macht diese Informationen interessant. Ihre Verlinkung soll ganze Biographien sichtbar machen, politische Dynamiken hervorheben oder die Wandlung des Stadtbildes Venedigs im Lauf der Zeit illustrieren. In diesem Sinne wirkt das Projekt einer Befürchtung der Historikerin Lara Putnam entgegen, die sie 2016 in einem lesenswerten Essay formulierte. Dadurch, dass vor allem Zeitungen digitalisiert und OCR-durchsuchbar würden, gerieten jene Leute aus dem Blickfeld, die systematisch weniger in gedruckten Quellen repräsentiert seien: «Rural people, illiterate people, people who stayed put: all stand in the shadows that digitized sources cast». Indem im Rahmen der Venice Time Machine mithilfe von künstlicher Intelligenz auch Handschriften OCR-lesbar werden sollen, werden diese Schatten gelichtet.

Googlen statt abwägen

Andere Problematiken, die Lara Putnam formuliert, schaffen die neuen Technologien aber nicht aus der Welt – im Gegenteil. Früher, schreibt sie, mussten Historikerinnen in stundenlanger Arbeit mühsam herausfinden, ob sich die Reise in ein Archiv überhaupt lohnen würde. Dann war die Reise dorthin kostspielig, und die Arbeit im Archiv schliesslich zeit- und arbeitsintensiv. Dass wir heute auch ohne Funding praktisch uneingeschränkt Zugang zu Informationen aus fernen Orten haben, hat grosse Vorteile – wenngleich unter der Voraussetzung, dass wir einer Bildungsinstitution angehören, die über die Gelder verfügt, uns diese meist nicht kostenlosen Informationen zugänglich zu machen. Für unsere Seminararbeiten sind wir nicht mehr gezwungen zu graben, wo wir stehen. Und wenn wir beim Recherchieren auf einen interessanten Aspekt stossen, müssen wir nicht mehr sorgfältig abwägen, ob sich ein Nachhaken lohnt; wir googeln einfach. Putnam nennt das side-glancing. Gleichzeitig spart uns OCR viel Zeit. Wir müssen nicht mehr seitenweise Dokumente durchkämmen, obwohl wir eigentlich nur nach einer spezifischen kleinen Information auf der Suche sind. Wie Cameron Blevins können wir unseren Quellen Fragen stellen, deren Beantwortung in der analogen Vergangenheit mit zu viel Aufwand verbunden oder gar unmöglich gewesen wäre. Das ist praktisch. Allerdings, mahnt Putnam, geht dabei das Kontextwissen verloren. Damit verbunden sind vier Hauptprobleme.

Erstens: Die Digitalisierung macht es uns zwar einfacher, über nationalstaatliche Grenzen hinwegzudenken, weil wir nicht mehr an nationale Archive gebunden sind. Darüber hinaus ermöglicht sie uns, ganze Welten zu Papier zu bringen, ohne unseren Schreibtisch zu verlassen. Wer aber über einen Ort schreibt oder über Dinge und Menschen, die dort gelebt haben oder geschehen sind, tut gut daran, diesen Ort ein wenig zu kennen, seine Sprache zu lernen, vielleicht gar eine Weile dort zu leben. Dazu gehören auch Interaktionen mit Bibliothekaren, Archivarinnen und, worauf Putnam hinweist, ortsansässigen Forschern, deren Publikationen wir in unseren Datenbanken vielleicht nicht finden. «Being forced to acknowledge one’s ignorance early and often», schreibt sie, «is the gift offered by academic exchange».

Zweitens: Dass wir so leicht so viel sehen können, macht es uns einfacher, vieles nicht zu sehen. Wir können leichter vergessen, uns an die systematischen Absenzen in den Archiven zu erinnern. Wir müssen diese Archive nicht mehr gegen den Strich bürsten und mit ihnen vertraut sein, um in ihnen fündig zu werden. Machen wir uns dieselben Gedanken zu unseren Themen, wenn wir die Ordnungslogik eines Archivs via Suchmaske einfach übergehen können? Stossen wir auf dieselben Informationen? Natürlich nicht: Wir müssen ja nur noch einen Bruchteil der Dokumente anschauen.

Drittens: Wer in tausenden von Dokumenten nach einem Begriff sucht, kommt dank OCR dabei leicht auf ein paar dutzend Treffer, die eine gute Basis für eine Arbeit bilden. Aber wie relevant sind diese, sagen wir, einunddreissig Erwähnungen eines Namens in einem Pressearchiv, das aus vierzig Millionen Worten besteht? Und wie fehlbar ist die Technologie, die hinter dem Archiv steht? Es ist beispielsweise anzunehmen, dass ältere Digitalisierungsprojekte ebenso wie die Digitalisierung von älteren und qualitativ schlechteren (oder schlecht erhaltenen) Drucken eine höhere OCR-Fehlerquote aufweisen. Vielleicht ergibt die Suche nach dem Wort «Amsel» nur einen Bruchteil der Resultate, wenn ich nicht auch «Arnsel», «Amsei», «Arnsei», oder je nach Schriftbild etwa «Amfel» eingebe. Im Falle der Handschriften der Venice Time Machine wird dieses Problem wohl nicht vernachlässigbar werden, wenn man bedenkt, wie sich über tausend Jahre Schriftbilder, Schreibweisen und Vokabular geändert haben mögen – vom teils sehr schlechten Zustand der Dokumente ganz zu schweigen.

Viertens und in Putnams Worten: «We are going to have to remember not to mistake the window for the why.» Das ist kein neues Problem: Wir schreiben über das, was wir sehen können, und worüber wir schreiben, dem schreiben wir Bedeutung zu. Und wir suchen vor allem dort, wo wir uns etwas versprechen. Cameron Blevins beispielsweise formulierte seine Fragestellung so, dass er zu ihrer Beantwortung auf digitalisierte Zeitungen zurückgreifen konnte. Wenn – falls – die Venice Time Machine online geht, werden wohl mehr Arbeiten über Venedig erscheinen. Und es ist heute so viel einfacher, über transnationale Bewegungen und Netzwerke zu schreiben, dass dabei die Betrachtung von lokalen Akteurinnen schnell einmal untergeht.

Quellenkritik reicht nicht mehr

Manche dieser Schwierigkeiten sind neu, andere nicht. Dass sie existieren, heisst nicht, dass wir alles Digitale ablehnen müssen. Natürlich nicht! Ohnehin ist es dazu lange schon zu spät. Eine Seminararbeit ohne Google, JSTOR, Archivdatenbank schreiben, allein mithilfe von Karteikarten und Fussnoten recherchieren? Unvorstellbar! Auf die Sammlungen von Privatpersonen verzichten, die unzähligen Dokumente im Internet Archive etwa oder kleinere Unternehmungen wie das Israeli Left Archive? Auf keinen Fall! Mit den Schwierigkeiten kann man umgehen. Viele der Menschen, die am Time Machine-Projekt arbeiten, sind selbst Historikerinnen. Sie wissen, wo die Knackpunkte liegen und machen sich Gedanken dazu.

Tatsächlich sind im Rahmen des Time Machine FET Flagship-Projekts verschiedene Arbeitsgruppen entstanden, an denen Historikerinnen aus ganz Europa teilnehmen. Eine dieser Gruppen setzt sich mit der Adaptierung alter und der Entwicklung neuer Methoden auf Basis der «Big Data of the Past» auseinander. Die Time Machine-Archive sollen zum Nachdenken anregen, wie unsere Art über Geschichte zu denken, sie zu betreiben und zu erzählen von digitalen Tools und Infrastrukturen geformt wird. In diesem Kontext hat die Gruppe sich das Ziel gesetzt, Onlinetutorials in die geplante Archivplattform einzubauen. Quellenkritik allein reicht nicht mehr. Eine Algorithmenkritik soll die Hermeneutik des Suchens hinterfragen; eine Toolkritik soll die Potentiale und Grenzen der Analyse grosser Datenmengen umreissen; eine digitale Quellenkritik soll sich mit der Integrität der Digitalisate auseinandersetzen; eine Interface-Kritik soll Visualisierungen wie etwa die im Rahmen des Time-Machine-Projekts vorgesehenen vierdimensionalen Karten dekonstruieren; und eine Simulationskritik soll die Auswirkungen der Digitalisierung auf Vergangenheitsvorstellungen reflektieren.

Das sind freilich alles Forderungen, die über die Time Machine hinaus auf die digitalen Geisteswissenschaften ausgeweitet werden müssen. Und rein analoge Geisteswissenschaften, das gibt es gar nicht mehr.

Was wir immer noch besser können

Die Zukunft ist nun mal digital, zum Guten wie zum Schlechten, daran können wir nichts ändern. Nur dürfen wir deswegen nicht aufhören mit dem, was wir als Menschen immer noch besser können als Maschinen: Texte genau lesen. Analysieren, kontextualisieren, hinterfragen und diskutieren – und Geschichten erzählen. Solange wir die traditionellen qualitativen Methoden nicht vergessen, werden uns die digitalen quantitativen mehr Hilfe als Bürde sein. Sowohl Cameron Blevins als auch Lara Putnam haben interessante Arbeiten geschrieben, indem sie bewusst beides kombiniert und ihr Vorgehen reflektiert haben. 

Wie der monetäre verlangt auch der Quellenreichtum einen bedachten Umgang. Solange wir wach, kritisch und bezüglich unserer Recherchetechniken transparent bleiben, ist die Idee, aus einem Pilz ein Viereck zu machen, aufregend im besten Sinne. Wir dürfen gespannt sein, was beim Time Machine-Projekt herauskommt.