Laufzeit: Juli 2020 bis Juni 2022
Das Projekt unternimmt einen großen Schritt in Richtung Zukunft und soll maschinelles Lernen in Form automatisierter Erkennung und Annotation digitaler Texte und Bilder in den Archivalltag integrieren. Maschinelles Lernen bezeichnet den Vorgang, dass ein aus Algorithmen bestehendes System mit Trainingsdaten versorgt wird und dadurch die Muster eines Sachverhalts lernt. Nach Abschluss der Lernphase kann das System auch Beispiele erkennen, die bisher nicht im Training vorgekommen sind. So können enorme Datenmengen miteinander in Beziehung gesetzt und analysiert werden.
Das im Rahmen der Zukunftsoffensive III geförderte Projekt (Laufzeit von Juli 2020 bis Juni 2022) dient dem Aufbau eines Forschungsdatenzentrums und entsprechender Infrastruktur im Bereich E-Science sowie der Etablierung eines Forschungsdatenmanagements. Dabei werden folgende Fragen geklärt:
- Wie können aus digitalisiertem Archivgut Informationen (Metadaten, Volltexte) generiert werden?
- Wie können die Daten für alle auffindbar, zugänglich, interoperabel und wiederverwendbar gemacht werden (FAIR-Prinzipien)?
- Wie können die generierten Daten weiter ausgewertet, strukturiert und angereichert werden (Entitätenerkennung, Normdatenverknüpfungen, automatisierte Klassifikation)?
- Welche Verfahren/Technologien sind dafür geeignet?
- Wie können die Verfahren in die Digitalisierungs-/Erschließungsworkflows im Landesarchiv integriert werden?
Das Projekt leistet einen Beitrag zum Aufbau der Nationalen Forschungsdateninfrastruktur. Es soll eine Standardisierung, Sicherung und Verbreitung von Daten erreicht werden, um der Forschung und allen Interessierten übergreifend auswertbare digitale Daten zur Verfügung zu stellen.
Immer auf dem Laufenden bleiben: Das FDMLab-Team gibt in einem eigenen Blog regelmäßig Einblicke in die Arbeit und stellt Ergebnisse aus dem Projekt vor.