Metadaten im Dokumentenmanagement/Aktenmanagement
Metadaten: zentrales Element der Informationsverwaltung
Metadaten stellen beschreibende Informationen zu einem Dokumentations-Objekt dar. Metadaten können analog oder digital im Objekt, auf dem Objekt, neben dem Objekt sowie in besonderen Verzeichnissen oder Datenbanken abgelegt werden.
Art und Umfang der zu hinterlegenden Metadaten sind in erster Linie abhängig vom Fach- bzw. Aufgabengebiet sowie von gesetzlichen und internen Vorgaben.
Metadaten in Dokumentenmanagement- bzw. Aktenmanagement-Systemen beschreiben insbesondere den Inhalt (z. B. Autor, Titel, Datum, Schlagwörter), die Verortung in Strukturen (Klassifikation, Aktenplan etc.), die Art der Speicherung/Archivierung (Datenträger/Datenformat) und systeminterne Verwaltungs-Vorgänge (Bearbeitungs-Status, Verfügbarkeit, Ablage- bzw. Speicherort etc.).
Steuerungs-Funktionen von Metadaten
- Recherche (Filterung): Ermöglichung eines zielgenauen Zugriffs auf einzelne oder Gruppen von Dokumentations-Objekten über spezifische Suchformulare
- Zugangsberechtigung: Differenzierte Freigabe des Zugangs zu Dokumentations-Objekten entlang der Aufgabenbereiche
- Aufbewahrung, Löschung: Sicherstellung der Einhaltung von gesetzlich bzw. intern definierten Lösch- und Aufbewahrungsfristen
- Vorgangsbearbeitung: Strukturierte Erledigung von Dokumenten-Bearbeitungs-Workflows
Metadatenschemata
Die dem Metadatenschema zukommende Bedeutung wird - obwohl grundlegend für die spätere Datenqualität - bei der Einführung von Software-Lösungen oft unterschätzt. Es ist jedoch erforderlich, in der Definition des Metadatenschemas den sich ergebenden Fragenkatalog penibel abzuarbeiten, wie z. B.:
- Welche Metadaten werden in welcher Menge und welcher Detaillierung benötigt?
- Wie kann das Eingabeformular benutzerfreundlich und somit fehlerminimierend gestaltet werden?
- In welchen Formaten sollen die erhobenen Metadaten jeweils gespeichert werden?
- Welche Metadatenfelder sind als Pflichtfelder oder als optionale Felder zu definieren?
- Für welche Metadatenfelder sind Wertelisten vorzugeben?
- Welche Metadaten können über Schnittstellen aus anderen Software-Lösungen bereitgestellt werden?
Manuelle Metadaten-Generierung
Formale Erfassung
Die Formalerfassung nimmt eine Beschreibung von Informationsträgern mit Metadaten anhand äußerer Merkmale bzw. Eigenschaften wie z. B. Titel, Autor/Bearbeiter, Institution, Entstehungszeitraum, äußere Form, Umfang, Erhaltungszustand etc. vor und versucht mit ihrer Hilfe, den zielgerichteten Zugang zu den Informationsträgern zu vermitteln.Jenseits der einheitlich geregelten formalen Erschließung im Bibliothekswesen ist die Formalerschließung bzw. Formalerfassung stark von Anforderungen des Fachgebiets und der Institution bzw. des Unternehmens abhängig. Dies gilt sowohl für die Art der zu erfassenden Metadaten als auch für ihre Ausführlichkeit.
Inhaltserschließung / Sacherschließung
Eine Inhaltserschließung ist auf eine vorausgegangene oder gleichzeitig vorgenommene Formalerfassung angewiesen.Über eine Inhaltserschließung wird versucht, den zielgerichteten Zugang zu den Inhalten eines Informationsträgers zu vermitteln. Dies geschieht über die Analyse und die extreme Verdichtung des vorgefundenen Inhalts zu inhaltsbezogenen Metadaten. Die der Inhaltserschließung in der Regel vorgelagerte Formalerfassung versucht hingegen, Informationsträger anhand äußerer Merkmale wie z. B. Titel, Autor, Entstehungszeitraum, äußere Form, Umfang, Erhaltungszustand etc. mit Metadaten zu beschreiben. Inhaltserschließung und Formalerschließung ergänzen sich gegenseitig bei der Strukturierung von Inhalten. Gelegentlich werden beide auch in verfälschender Weise unter dem Begriff "Datenerfassung" subsumiert; letztere setzt jedoch - im Gegensatz zu Formalerschließung und Inhaltserschließung - keine intellektuelle Leistung voraus.
Es können innerhalb der Inhaltserschließung grob drei - sehr oft auch kombiniert angewendete - Herangehensweisen zur Anreicherung mit Inhalts-Metadaten unterschieden werden:
- Einordnung von Informationsträgern ("dokumentarische Bezugseinheiten", "Dokumentationsobjekte", "Dokumentationseinheiten", "Verzeichnungseinheiten", "Erschließungseinheiten") wie Bücher, Dokumente, Akten, Bilder, Filme, Dateien etc. in vorgegebene Verzeichnis-Strukturen wie z.B. bibliothekarische Klassifikationssysteme oder Aktenpläne in der Schriftgutverwaltung.
- Beschreibung des Inhalts durch Stichworte oder Schlagwörter bzw. Schlagwortketten (keywords, Schlüsselwörter, Deskriptoren) sowohl in freier Auswahl als auch abgebildet durch ein kontrolliertes Vokabular (Thesaurus etc.).
- Verbale Wiedergabe des Inhalts in Kurzform (Abstract etc.).
Der Nutzen in der Suche nach speziellen Inhalten und Informationen steigt mit der Intensität der Erschließung - beginnend mit der bloßen Formalerschließung über die dargestellten Stufen 1 bis 3 der Inhaltserschließung. Es steigt aber auch der vorherige Aufwand zur Erstellung dieser Erschließungs-Informationen (Metadaten). Generell gilt: Je genauer und schneller die Recherche möglich sein soll desto höher ist der zuvor zu leistende Aufwand in Formalerschließung und Inhaltserschließung. Dazu zählt auch die der eigentlichen Inhaltserschließung vorgelagerte Verständigung über zu schaffende Strukturen und anzuwendende Terminologien.
Freie Verschlagwortung
Eine ohne vorgegebene Regeln und Wertelisten erfolgende freie Verschlagwortung von Inhalten - in ihrer extremen Form auch als "crowd tagging" bzw. "social tagging" bekannt - kann weder Vollständigkeit noch Richtigkeit gewährleisten und ist daher als Grundlage einer exakten Recherche unbrauchbar. Eine Berechtigung besitzt diese Methode nur dort, wo neben einer professionellen Inhaltserschließung zu deren Aktualisierung Hinweise auf aktuelle Trends bzw. neue Phänomene gewonnen werden sollen.Automatisierte Metadaten-Generierung
Orientiert an den jeweiligen Anwendungsgebieten haben Historische Archive, Bibliotheken, Museen, Öffentliche Verwaltung, Wirtschaft, Wissenschaft und Medien sehr differenzierte Erschließungs- bzw. Metadatensysteme entwickelt. Deren Anwendung auf die relevanten Inhalte ist jedoch sehr zeit- und personalaufwendig und somit teuer.
Automatisierte Verfahren zur Erschließung von in digitaler Form vorliegenden Inhalten könnten hier einen Ausweg bieten. Computer arbeiten schneller und kostengünstiger.
Was ist unter "automatischer Indexierung" zu verstehen?
Die automatische Indexierung (automatische Verschlagwortung) ist eine Methode zur Erzeugung von inhaltsbezogenen Metadaten in digitalen Dokumenten-Verwaltungs-Systemen. Bei der "normalen" manuellen Indexierung werden für eine Dokumentations-Einheit (Dokument, Akte, audiovisuelle Aufzeichnung etc.) nach deren intellektueller Verarbeitung Schlagwörter, Klassifikations-Zuordnungen etc. vergeben und diese in der Regel in Metadatensätzen in einer Datenbank o. ä. hinterlegt. Im Falle der automatischen Indexierung hingegen wird die intellektuelle Verarbeitung des Inhalts in eine Software-Lösung ausgelagert. Dort wird durch verschiedene voreingestellte Analyse-Verfahren versucht, ein Ergebnis zu erzielen, das einer manuellen Indexierung möglichst nahe kommt. Je nach betriebenem Aufwand gestaltet sich der qualitative Abstand zu den Ergebnissen einer manuellen Indexierung sehr unterschiedlich.Insgesamt kann die automatische Generierung von Metadaten-Einträgen in verschiedenen Formen implementiert werden:
- Automatisches Auslesen von definierten Metadaten aus digital vorliegenden Dokumenten (antrainierte Ermittlung der Werte zu bestimmten Metadatenfeldern)
- Automatische Generierung von Schlagwörtern aus dem Inhalt des jeweiligen Dokumentations-Objektes (automatische Indexierung)
- Übernahme von bereits eingebetteten Metadaten aus Dateien in PDF-, Bild- und Office-Formaten
- Vererbung von inhaltsbezogenen Metadaten entlang von Klassifikations- und Aktenplan-Strukturen
- Automatische Eintragung von Metadaten nach Durchlaufen von Bearbeitungsschritten
Vorteile der automatischen Indexierung gegenüber der manuellen Indexierung
Wirkliche Inhaltserschließung erfordert in jedem Falle eine individuelle intellektuelle Leistung. Jedoch sind unter speziellen Umfeldbedingungen automatisierte Verfahren gegenüber manuellen Verfahren stark im Vorteil:- Geringer Personalaufwand: Die Bearbeitungszeit pro Dokumentations-Einheit kann sehr gering gehalten werden.
- Sofortige Verfügbarkeit: Unmittelbar nach dem Einpflegen der Dokumentations-Einheiten/Objekte in das System können die Indexierungs-Ergebnisse zur Recherche genutzt werden.
- Verlässlichkeit: Eine automatische Indexierung erzeugt Ergebnisse von gleichbleibender Qualität.
- Kostengünstig bei steigendem Dokumentations-Volumen: Der minimierte Personal-Aufwand erlaubt eine Steigerung der Zahl der zu erfassenden Dokumentations-Einheiten ohne in gleichem Maße steigende Kosten zu verursachen.
- Sehr gut geeignet für vorstrukturierte oder relativ gleichförmig strukturierte Dokumente in geringer sprachlicher Varianz.
Nachteile der automatischen Indexierung
- Ungenau: Eine Recherche in einem Metadaten-Bestand, der mittels automatischer Indexierung generiert wurde, liefert an vielen Stellen nicht das Ergebnis, das bei einer manuellen Indexierung möglich gewesen wäre. Die Trefferlisten sind in diesen Fällen nicht zwangsläufig vollständig (gemessen am Recherche-Ziel). Zudem können sehr oft nur statistische Wahrscheinlichkeiten der Zugehörigkeit von Dokumenten, Akten etc. zu bestimmten Inhaltskategorien angegeben werden; die Treffer selbst sind in ihrer Gesamtheit nur relativ aber nicht absolut relevant.
- Unflexibel: Eine einmal implementierte Software-Lösung ist aus sich selbst heraus nicht in der Lage, auf aktuelle Entwicklungen reagieren zu können.
- Begrenzte Variabilität: Verbale Umschreibungen von Sachverhalten ohne deren explizite begriffliche Benennung werden nicht erkannt, d. h. die Software-Lösung ist nicht in der Lage, den vollständigen inhaltlichen Zusammenhang von Dokumenten zu erfassen. Unterhalb des "Verstehens" erfordert auch die Erkennung von Begriffs-Varianten und Falsch-Schreibungen u. U. den Einsatz spezieller Software, mindestens aber einen hohen Trainingsaufwand für die Erkennung.
- Unter Umständen verfälschend: Die alleinige Ausrichtung der Recherche auf die Ergebnisse der automatischen Indexierung ist dann kontraproduktiv, wenn die relevanten Dokumentations-Einheiten nicht vollständig und nicht in gleichmäßiger Indexierungs-Qualität davon erfasst werden.
Des Weiteren kann sich eine mangelnde Trennschärfe bei der falschen Benutzung oder bei Mehrfachbedeutungen von Begriffen in automatisch indexierten Texten ergeben.
Automatisierte Verfahren zur Inhaltserschließung stellen infolge der aus der Automatisierung resultierenden Ungenauigkeit, Grobrastrigkeit und geringen Flexibilität bislang keinen vollwertigen Ersatz für eine manuell-intellektuell vorgenommene Inhaltserschließung dar. Insbesondere ist eine automatische Erschließung von Literatur und unstrukturierten Informationen nicht in hinreichender Qualität möglich.
Zur Minimierung/Eliminierung erkannter Nachteile bietet sich eine Kombination von herkömmlich ermittelten Metadaten mit Ergebnissen der automatischen Indexierung an.
Beratungsleistungen Metadaten-Erfassung und Inhalts-Erschließung
- Projektmanagement in Dokumentations- und Archivierungs-Projekten
- Konzeption intellektueller Methoden zur Inhaltserschließung von Informationsträgern aller Art
- Auswahl von Metadaten-Standards, Entwurf von Metadaten-Schemata und Klassifikationen zur Strukturierung zu erschließender Inhalte
- Bewertung von Indexierungs-Methoden
- Erstellung von Findhilfsmitteln und Verzeichnissen
- Qualtätssicherung von Metadaten: Überprüfung und Korrektur von Metadaten-Beständen