Archivisches Suchen und moderne Informatik
Von Andreas Kellerhals-Maeder
1 Einleitung
Fast seit alters beklagen die Archivare die Flut von Schriftgut, welche in die Archive geschwemmt wird, um dort vielfältige Probleme zu verur- sachen1. Diese Aktenflut ist in den letzten Jahren nicht kleiner geworden - im Gegenteil. Die Informatik verspricht zwar bereits seit längerer Zeit das «papierlose Büro», hat aber bis heute sowohl die Informations- wie die Papierflut vermehrt. Die Hoffnung besteht aber, dass sie auch ohne «papierloses Büro» zur Lösung des Problems «Informationsüberflutung» beitragen wird, das sie, wenn nicht verursacht, so doch verschärft hat. Die Selbstverständlichkeit des EDV-Einsatzes im Büro - von der ein- fachen Textverarbeitung bis zu komplexen multifunktionalen Büroinformationssystemen als informationstechnischer Unterstützung aller Verwaltungsarbeiten - hat immerhin dazu geführt, dass man heute nicht mehr eine grundsätzlich mögliche Archivwürdigkeit ma- schinenlesbarer Daten gegenüber ihrer im voraus angenommenen Wert- losigkeit nachweisen muss2.
Die Archivierung maschinenlesbarer Daten ist denn auch seit einigen Jahren ein Dauerthema archivarischer Diskussionen im In- und Ausland, die sich allerdings häufig v.a. um die Archivierung gleichförmiger Mas- sendaten (statistische Daten etc.) drehten. In Zukunft wird es aber in er- ster Linie um die Archivierung elektronischer Sachakten gehen, denn es
1 PAPRITZ 1964 zitiert den Bamberger Archivvorstand Oesterreicher, welcher zu Beginn des 19. Jh.s geschrieben hat: "Nach den in meiner Anleitung zur Ar- chivwissenschaft aufgestellten richtigen Grundsätzen gehören Akten ganz und gar nicht in ein Archiv."
2 BUCHMANN 1988:74: "Auch bei sehr strenger Anwendung von Bewertungskrite- rien können maschinenlesbare Daten nicht pauschal als uninteressant etikettiert und dadurch den Archiven ferngehalten werden."
65
ist wegen der zunehmenden Verbreitung von Textverarbeitungs- und Bü- roautomationssystemen seit einiger Zeit absehbar, dass das Verwaltungs- schriftgut seinen Charakter ändern und 'richtige' elektronische Akten nicht nur zu archivieren sein könnten, sondern sinnvollerweise in elek- tronischer Form archiviert werden müssen.
Die Informatik wird nicht nur den Rohstoff archivischer Arbeit verän- dern; wie schon bisher wird sie auch weiterhin die Arbeitsmittel der Ar- chivarInnen fundamental verändern. Dies alles verursacht neue Pro- bleme, wirft neue Fragen auf; es eröffnet aber auch neue Perspektiven: technische wie methodische3.
In diesem Artikel sollen verschiedene Aspekte aus dem Problemkreis "Archiv und Informatik" beleuchtet werden: Nach einigen Bemerkungen zur Archivinformatik im allgemeinen und den Bemühungen des Bundes- archivs betreffend die Entwicklung einer Strategie zur Archivierung elektronischer Akten wird das Archivinformatiksystem EDIBAR des Bundesarchives im besonderen kritisch gewürdigt. Anschliessend wird ein neueres Forschungsprojekt zur Entwicklung eines Prototyps eines intelligenten archivischen Retrievalsystems vorgestellt; dieser Teil, an- knüpfend an methodische Überlegungen zur spezifisch archivischen Suchstrategie bzw. den entsprechenden Ordnungsprinzipien, wird aller- dings teilweise im Hypothetischen verbleiben.
2 Informatik im Archiv
Informatik im Archiv4 ist kein isolierter oder isolierbarer Anwen- dungsbereich der EDV. Die Archiv-Informatik sollte Teil eines EDV- Gesamtkonzeptes einer Verwaltung oder eines Betriebes sein, so wie das Archiv als Aktenaufbewahrungsstelle eng verbunden ist mit allen ande- ren aktenproduzierenden und informationsverarbeitenden Verwaltungs- stellen. Diese Verbundenheit des Archivs mit den Aktenproduzenten
3 Viele Anregungen und Ideen verdankt dieser Aufsatz DOLLAR 1992a und BEAR- MAN 1991, bzw. BEARMAN 1992. Diese Werke ebenso wie die Diskussionen mit D. Bearman im Bundesarchiv in Bern wirkten sehr inspirierend; sie sollen des- halb hier zu Beginn dieses Aufsatzes erwähnt werden, ohne dass bei jeder Gele- genheit noch einzeln auf sie verwiesen wird.
4 Vgl. zur Einführung allgemein GREEN 1991.
66
stellt eine Eigenheit dar, welche das Archiv von anderen Dokumentationsstellen unterscheidet: die grundsätzliche Möglichkeit ja Notwendigkeit, die aufzubewahrenden und zu vermittelnden Infor- mationen bereits während deren Entstehung auszuwählen und ihre Struktur mitzuformen.
Beim Informatikeinsatz im Archiv sind die drei folgenden funktionalen Zielsetzungen unterscheidbar: die Haupteinsatzbereiche Eigenverwal- tung und Büroautomation5, Archivinformatik i.e.S. als Automatisie- rung spezifischer Archivfunktionen, und die Archivierung elektroni- schen 'Schriftgutes"6.
Aus den Hauptaufgaben eines Archivs - Sicherung, Bewertung, Er- schliessung, Aufbewahrung und Vermittlung - leiten sich die konkreten Einsatzgebiete der Archivinformatik ab: Zur Sicherung gehören die Bemühungen, Archivierungsverfahren für elektronische Akten zu ent- wickeln und die Anstrengungen, von den Amtsstellen maschinenlesbare Registraturpläne und Ablieferungsverzeichnisse zu erhalten, welche die Funktion von Erschliessungshilfen übernehmen können. Auf der Basis solcher maschinenlesbarer Ablieferungsverzeichnisse kann aufgebaut werden, um mit EDV-Unterstützung traditionelle archivische Findmittel zu erstellen. Die eigentliche Bewertung als intellektuelle Entscheidung über die Archivwürdigkeit von Schriftgut lässt sich dagegen mit der heutigen Informatik nur schwer automatisieren. Einfacher ist der Infor- matikeinsatz in den Bereichen Aufbewahrung und Vermittlung, wenn es um Fragen der Magazinverwaltung und Ausleihkontrolle geht. Die informatische Unterstützung der Vermittlung als fragenspezifische Erschliessung der Archivbestände dagegen ist wieder schwieriger zu rea- lisieren.
Zusammengefasst können allgemein zwei Anwendungsziele der Archi- vinformatik unterschieden werden:
5 Auf den Aspekt der Büroautomation im Archiv soll im folgenden nicht näher einge- gangen werden, da diese Problematik sich im Archiv nicht wesentlich anders prä- sentiert als bei anderen Verwaltungsstellen.
6 Heute ist viel von Multimedia-Applikationen die Rede; der Begriff Schriftgut müss- te notfalls entsprechend erweitert werden, z.B. zu Schrift-, Ton- und Bildgut. Zur Vermeidung sprachlicher Schwerfälligkeit wird im weiteren trotz allem immer wie- der von 'Schriftgut' statt von Multimediagut die Rede sein.
67
Zur teilweisen oder vollständigen Automatisierung sind ar- chivische Funktionen wie die Magazinverwaltung, die Aktenausleihe, die Ausscheidung kassierter Akten etc. geeignet, kurz: Aufgaben, wel- che klar beschreibbar und nicht von wechselnden Faktoren abhängig sind, die sich leicht formalisieren lassen und regelmässig durchgeführt werden.
Bei komplizierteren Aufgaben kann die Informatik eine sinnvolle Unterstützung anbieten. In diesen Bereich fallen v.a. Funktionen wie Retrieval und Bewertung, Aufgaben also, welche i.d.R. eine gewisse 'Intelligenz' erfordern. In unmittelbarer Zukunft wird es wohl noch nicht möglich sein, diese Aufgaben ganz zu automatisieren.
Unabhängig von diesen Anwendungszielen lassen sich auch Leistungs- ziele formulieren, die mittels informatischer Applikationen erreicht wer- den sollen, z.B .:
· Sicherstellung herkömmlicher Aufgabenwahrnehmung: Diese soll wenn möglich rationeller und effizienter als bisher erfolgen können.
Qualitative Verbesserung der Aufgabenwahrnehmung: Ein mo- dernes Informations-System muss benutzerfreundlich, wenn möglich so- gar natürlichsprachlich sein und qualitativ bessere Suchergebnisse lie- fern. Sowohl das Werkzeug wie die Arbeitsleistung kann verbessert werden.
. Eröffnung neuer Möglichkeiten: In weiteren Bereichen wird der Informatik-Einsatz neue Möglichkeiten überhaupt erst eröffnen, z.B. einen orts- und zeitunabhängigen Zugriff auf archivische Hilfsmittel oder gar auf archiviertes Schriftgut über moderne Kommunikationsnetz- werke.
Unabhängig von Anwendungs- und Leistungszielen gilt die Ar- chivinformatik als Werkzeug, das helfen soll, archivische Aufgaben bes- ser und effizienter zu erledigen. Einzelne Aufgaben lassen sich über- haupt nur noch oder gar erst dank der Archivinformatik bewältigen, an- dere können zumindest auf eine neue Art und Weise wahrgenommen werden.
Aus dem Werkzeugcharakter der Informatik leitet sich in der Regel ab, dass ihr Einsatz nicht einfach die Art und Weise diktieren darf, wie ar- chivische Arbeiten zu erledigen sind, sondern dass die Informatik sich
68
den bestehenden Methoden und Arbeitstechniken grundsätzlich anzu- passen hat. Es scheint mir durchaus richtig, dass weder die ArchivarIn- nen noch die ArchivbenutzerInnen sich einfach nach der Technik richten müssen; man muss sicher versuchen, die neue Technik den erprobten Methoden anzupassen. Aber: Der Einsatz der EDV muss auch informati- schen Grundsätzen Rechnung tragen, und wenn das Nachdenken über den Einsatz der Informatik zur Erkenntnis führt, dass neue Wege der Problemlösung oder Arbeitsbewältigung effizienter und realisierbar sind, so muss man solche Erkenntnisse fruchtbar umzusetzen versuchen. Es muss eine Übereinstimmung zwischen archivgerechtem und informa- tikgerechtem Arbeiten gesucht werden. Die Herausforderung durch die Informatik besteht gerade darin, dass man gegebenenfalls bereit sein muss, das Archiv in elektronischer Umgebung neu zu erfinden und einen Paradigmenwechsel zu vollziehen7.
3 Informatik im Bundesarchiv heute
3.1 Archivierung elektronischen Schriftgutes
Nachdem bereits die Weisung betreffend die Abgabe von Schriftgut an das Bundesarchiv (1980)8 die datenträgerunabhängige Archivierungs- pflicht für die Amtsstellen der Bundesverwaltung fixiert hat, haben die Weisung betreffend die Archivierung und Benutzung der elektronisch ge- speicherten Daten der Bundesverwaltung im Bundesarchiv von 1984 und die entsprechenden archivinternen Richtlinien für die Erfassung, Bewer-
7 DOLLAR 1992b:2 schreibt unter der Überschrift "What Librarians and Archivists Have in Common": "Peggy Johnson [Automation and Organizational Change in Li- braries, Boston 1991:156] argues there is a library paradigm shift underway in which new technologies are transforming how 'libraries are viewed, experienced, and organized.' As Pat Battin put it, libraries are being 'reinvented in the electronic environment.' [quoted in Peggy Johnson, p. 40]".
8 Weisung betreffend die Abgabe von Schriftgut an das Bundesarchiv, hg. vom Schweizerischen Bundesarchiv, 30.6.1970 (3. Aufl. 1980): Punkt 132 definiert Ak- ten folgendermassen: "Der Begriff Akten umfasst: - das eigentliche Schriftwerk [ ... ], - elektronische Datenträger [ ... ]" und hält fest (Punkt 121), dass die Archivie- rung elektronischer Datenträger in einer speziellen Weisung noch genauer zu re- geln sei ..
69
tung und Archivierung von EDV-Datenbeständen der Bundesverwaltung im Bundesarchiv (1987)9 die Struktur archivierungsfähiger Daten10 ebenso wie diejenige der Datenträger11 festgelegt und gleichzeitig die Bewertung der Datenbestände, das Übernahmeverfahren und den Unterhalt der Daten, die Erstellung und den Unterhalt der Findmittel im Archiv sowie die Benutzung der Daten geregelt.
Für die Archivierung sequentieller Daten ist die bestehende Lösung ein erster Ansatz. Die bestehenden Weisungen und Richtlinien bedürfen aber dringend einer (eigentlich: einer ständigen) Aktualisierung, um den sich wandelnden technischen Rahmenbedingungen angepasst zu bleiben. Eine solche Revision ist in nährerer Zukunft auch zu erwarten. In die- sem Zusammenhang sind auch erste Schritte gemacht, um das Bundesar- chiv infrastrukturmässig aus seiner Abhängigkeit von externen Rechen- zentren zu lösen. Mit einer archiveigenen Bandstation ist die hausinterne Verarbeitung (Qualitätskontrolle, Kontrolle der Übereinstimmung von Datenbeschreibungen und Daten, Kopierarbeiten etc.) flacher Dateien jetzt möglich.
Nun sind die Probleme zu lösen, die sich bei der Archivierung von elektronischen Sachakten und Datenbanken ergeben, nicht zu reden von den Problemen im Zusammenhang mit virtuellen, Hyper- oder Multime- dia-Dokumenten (Compound Documents)12. Die Fragen betreffend die
9 ABEDIB-Weisung vom 2.5.1984, gemeinsam vom Bundesarchiv und dem Bundes- amt für Organisation ausgearbeitet. Die dazugehörenden Richtlinien folgten am 27.5.1987.
Neben den technischen Fragen muss man sich aus archivischer Sicht auch Gedan- ken machen, über die Auswahl des Datenmaterials für die Überlieferungsbildung, vgl. dazu grundlegend BÜTIKOFER 1991b.
10 Punkt 2.1 der Weisung: "Datenbestände [ ... ] die unabhängig von der Hauptanwen- dung und ohne besondere Voraussetzungen [ ... ] ausgewertet werden können".
11 Punkt 2.2 der Weisung: "ausschliesslich Magnetbänder"
12 Virtuelle Dokumente bestehen nur auf dem Bildschirm oder als Papierkopien als physische Einheit; im Grunde sind sie zusammengesetzt aus Textfragmenten und Verweisen auf Datenbanken oder andere dokumentenfremde Informationsquellen.
Compound documents/Multimediadokumente verbinden verschiedene informations- tragende Medien zu einer Einheit, z.B. Text, (bewegtes) Bild und Ton.
Hypermediadokumente vereinigen Charakteristika von virtuellen und multimedialen Dokumenten. Sie haben neben einer linearen Struktur (Text) noch eine vordefi- nierte Zweitstruktur, welche ein Beziehungsnetz von einzelnen Textelementen zu anderen (textfremden) Informationen schafft (Text, Bild, Ton), die nach Bedarf ak-
70
Speichermedien können dabei zwar weitgehend als gelöst betrachtet werden. Es sind heute einerseits andere EDV-technische Probleme, wie sie sich aus der existierenden Systemvielfalt ergeben, anderseits Pro- bleme der logischen Ordnung und einer möglichen Erschliessung, wel- che einer zukunftsträchtigen und richtungsweisenden Lösung harren.
Ausgehend von der reglementarisch fixierten Pflicht zur bundeszentralen Archivierung von Verwaltungsakten und der amtsstelleneigenen Beschaffungsautonomie sowohl im Hardware- als im Softwarebereich ergibt sich als wesentliches informatisches Problem die Portabilität elektronischer Akten aus den EDV-Systemen in den Verwaltungsstellen in ein Archiv-Informationssystem. Als Grundsatz könnte gelten: elek- tronische Akten müssen in einer Form archiviert werden, welche unab- hängig ist von der ursprünglichen Hardware- und Softwareumgebung. Die Einhaltung allgemein anerkannter Standards und Normen scheint dabei die einfachste und kostengünstigste Lösung zu sein. Allerdings sind noch lange nicht in allen Bereichen entsprechende Standardisierun- gen erreicht, noch sind sie immer absehbar. Die Archivare sind also ge- zwungen, sich um die Formulierung ihrer Bedürfnisse und deren Um- setzung in EDV-Normen aktiv zu bemühen13. Eine andere Lösung würde in der Aufhebung der zentralen Archivierung liegen: die Amts- stellen würden dann ihre eigenen Akten innerhalb ihrer EDV-Systeme selber aufbewahren und für ihre bleibende Lesbarkeit und Verstehbarkeit besorgt sein; eine zentrale Archivstelle würde die Wahrnehmung dieser Aufgaben nur noch beratend begleiten und die Durchführung überwa- chen14
tiviert werden können, so dass neben einer herkömmlichen sequentiellen auch eine 'assoziative' Lektüre möglich ist.
13 NATIONAL ARCHIVES TECHNICAL PAPER 8/1990, DOLLAR 1992.
14 DOLLAR 1992a:71: Unter Berücksichtigung von Kostenfaktoren wird die Rolle von Archiven neu zu bestimmen sein. Die Archive "könnten sich auf die Entwick- lung von Programmen, Werkzeugen, Richtlinien und Regulierungen konzentrieren, die den Zugang zu verschiedensten Datenbasen und Informationssystemen erleich- tern [ ... ] den Zugang regulieren. Aus diesen Gründen müssten zentralisierte Archiveinrichtungen als finale Endarchive definiert werden. Nur dann, wenn eine Organisation nicht länger für die Aufbewahrung und Übertragung auf neue Tech- nologien einstehen kann, wären die zentralisierten Archiveinrichtungen der Ort für die physische Aufbewahrung von elektronischen Akten." Das würde m.E. die Rolle zentraler Archive im Lebenszyklus von Schriftgut nur zeitlich verschieben, ihre Aufgaben im Grunde aber nicht aufheben. Eine systemunabhängige Archivie- rung müsste einfach zu einem späteren Zeitpunkt realisiert werden.
71
Zu den archivarischen Anforderungen an elektronische Sachakten und die sie begleitenden Metadaten15 gehört sicher die Erhaltung einer sach- systematischen, vorgangsorientierten Ordnung während des Prozesses der Informationsproduktion. Allerdings musste noch Ende der 1980er Jahre festgestellt werden, dass marktgängige Büroautomationssysteme die Anforderungen an "amtszentrale Registraturen oder an die bun- deszentrale Langzeitarchivierung, insbesondere an die Dossierbildung nach einem sachsystematischen Registraturplan" nicht zu erfüllen ver- mochten. Da die geschäftsbezogene, vorausschauende Ordnung des Schriftgutes wesentlich ist, gilt bis heute die Regel, dass archivwürdiges Schriftgut in Papierform in einer herkömmlichen Registratur aufbewahrt und später in dieser Form ins Archiv abgeliefert werden muss16. Mit der Weiterentwicklung der Büroautomationssysteme, um die sich die Archi- vare ebenfalls aktiv kümmern sollten, wird sich die Situation ändern. Die heute bestehende Notlösung der Archivierung von Papierkopien muss überwunden werden.
Aus diesem Grund beschäftigt sich eine vom Bundesarchiv geleitete in- terdepartementale Arbeitsgruppe ARELDA (Archivierung elektronischer Daten) mit den Fragen rund um die Archivierung von Büroautomations- daten. Ziel dieser Arbeitsgruppe ist es, ein Verfahren zu entwickeln für die Archivierung elektronischer Sachakten. Logischerweise muss dieses Verfahren bereits bei der Aktenproduktion ansetzen, damit die zu archi- vierenden Daten einmal auch in der gewünschten Form und mit den notwendigen quellengenerierten Metadaten zusammen vorliegen werden. Diese Metadaten sollen als Informationen über die archivierten elektro- nischen Sachakten den institutionellen und geschäftsbezogenen Entstehungszusammenhang dokumentieren und als erstes Findmittel die- nen. Soweit möglich sollen sie automatisch während des Prozesses der Aktenentstehung gesammelt und nicht, wie die heutigen Findmittel, nachträglich zusammengestellt werden. Anders ist die Les- und Versteh- barkeit elektronischer Akten nicht sicherzustellen. Denn: "Überliefe- rungsbildung kann angesichts der Büroautomation nicht mehr unbewus-
15 Mit Metadaten sind Daten gemeint, welche die Struktur, den Inhalt der eigentlichen Daten beschreiben, also: Daten über Daten.
16 Vgl. das REALISIERUNGSKONZEPT 1989:23, zusammengefasst dargestellt in GRAF 1990.
Vgl. auch die grundsätzliche Auseinandersetzung mit diesem Thema in MENNE- HARITZ 1988.
72
ster Nebeneffekt sein, sondern muss geplant und gezielt in den Ar- beitsprozess im Büro eingegliedert werden*17.
Die genannte Arbeitsgruppe ARELDA eruiert in diesem Zusammenhang zuerst einmal empirisch, welche Büroautomationssysteme überhaupt in Gebrauch sind, was für Daten und welche Mengen von Akten damit produziert werden, wie diese geordnet sind (Registraturplan, Indexie- rung durch die Sachbearbeiter), welche Zugriffshäufigkeiten festzustel- len sind, wie die Speicherungsmöglichkeiten sind etc. Parallel zu dieser Informationssammlung wird versucht, die juristischen und archivisch-hi- storischen Anforderungen an eine Langzeitarchivierung und spätere Nut- zung elektronischer Akten zu formulieren und die technischen Möglichkeiten zu eruieren, welche die Erfüllung dieser Anforderungen gewährleisten, damit die relevanten Schritte eines Geschäftsganges je- derzeit rekonstruiert werden können. Absicht ist es, die Überliefe- rungsbildung in einem offenen System sicherzustellen, welches durch Einhaltung allgemein anerkannter EDV-Normen und -Standards eine allgemeine Akzeptanz finden und einen (Meta-)Datenaustausch in alle Richtungen erlauben wird18. Mit einem solchen Vorgehen wird die Si- cherstellung künftigen Archivgutes (elektronische Sachakten und Meta- daten), analog zur Bewertung an der Quelle, aus dem archivischen Be- reich vorverlegt in den Bereich administrativer Geschäftserledigung und Aktenproduktion19.
Die Digitalisierung bereits archivierter Akten, wie sie in verschiedenen aufwendigen ausländischen Grossprojekten für klar umrissene Bestände mit Erfolg gewagt worden ist20, steht aber als beständeübergreifendes Unternehmen zur Zeit nicht zur Diskussion, selbst wenn sie aus konser- vatorischer Sicht interessant sein und für viele Bestände eine Alternative oder Ergänzung zu teuren Restaurierungs- und Konservierungsmassnah- men oder herkömmlichen Mikroverfilmungen darstellen könnte. Eine
17 MENNE-HARITZ 1990:94.
18 Die Anstrengungen im Rahmen der Bundesverwaltung sind natürlich nicht isoliert zu sehen. Vgl. etwa die ähnlichen Überlegungen, die in den USA angestellt wer- den: NATIONAL ARCHIVES TECHNICAL INFORMATION PAPER 8/1990.
19 Vgl. DOLLAR 1992
20 Vgl. u.a. Spanisches Nationalarchiv: Digitalisierung von Beständen aus dem Ar- chivo General de Indias in Sevilla, National Archives der USA: Digitalisierung von Beständen aus der Zeit des amerikanischen Bürgerkriegs.
73
Digitalisierung einzelner Bestände(teile) im Rahmen von Forschungspro- jekten dagegen ist nie auszuschliessen.
3.2 Teilweise Automatisierung der Verwaltung herkömmlichen Archivgutes: Das EDIBAR-System
Der Einsatz der EDV hat auch im Bundesarchiv nicht mit der Archivie- rung maschinenlesbarer Daten begonnen, sondern mit der Verwaltung herkömmlichen Schriftgutes: Nach der Entwicklung eines beständeüber- greifenden Personennamennachweissystems (PERSEIS: Personennamen: Ein Informationssystem) in den frühen 1970er Jahren21 war es der Ak- tenzuwachs ohne gleichzeitige Personalzunahme, welcher den weiteren Einsatz der neuen Technologien in den 1980er Jahren wünschbar werden liess, damit die vorhandenen Mittel effizienter eingesetzt, die Arbeit ra- tionalisiert werden konnte. Die eigentliche Planung für die Entwicklung eines archivischen Arbeitsinstrumentes begann vor rund 10 Jahren (1983 Voranalyse, 1985 Konzeptbericht). 1987 konnten erste Teile des angestrebten benutzerfreundlichen, "umfassenden, aufeinander ab- gestimmten Instrumentariums zur Verwaltung und Kontrolle der Be- stände und ihrer Benutzung“ in Betrieb genommen und der Öffent- lichkeit vorgestellt werden22. Seither ist das EDIBAR-System weiterent- wickelt und durch neue Komponenten ergänzt worden. Gleichzeitig hat sich aber auch der state-of-the-art im Informatik-Bereich wesentlich ver- ändert, und die Vorstellungen von Benutzerfreundlichkeit oder Natürlichsprachlichkeit haben sich verschoben. Aus dem Wandel der Vorstellungen und Erwartungen ergibt sich, dass das vor fünf Jahren moderne und noch heute dem Archivpersonal in verschiedenen Berei- chen äusserst hilfreiche EDIBAR-System weiterentwickelt werden muss.
3.2.1 Der Ist-Zustand
Das EDIBAR-System ist ein für die Benutzung durch das Archiv- personal konzipiertes Archiv-Informatiksystem für die Verwaltung von Papierakten, das aus verschiedenen, einander ergänzenden Komponenten
21 CADUFF 1978.
22 CADUFF 1989:213-272, hier: S. 218.
74
besteht. Tabelle 1 zeigt die wichtigsten archivischen Aufgaben, die mit diesen verknüpften Ordnungsmittel (Findmittel) und die entsprechenden EDV-Applikationen (fett = EDIBAR-Teil, normal = sonstige Applika- tionen [des Bundesarchivs oder anderer Anbieter]).
Kernstück eines Archivverwaltungssystems sollte eine relationale Daten- bank sein, deren verknüpfte Tabellen die Informationen enthalten, wel- che für die logische und physische Ordnung der Archivbestände notwen- dig sind.
Grundlage für das EDIBAR-System ist das ORACLE-Datenbank-Mana- gementsystem. Die Teile BAK (Bestände- und Akzessionsverwaltung23), BAKMAG (Magazinverwaltung) und BAKBV (Benutzerverkehr) ent- halten die wichtigsten Daten aus dem Archiv und die dazu passenden Recherche-Instrumente (-RE)24. Bei KOMP handelt es sich um eine Übersicht über die Kompetenzen und Aufgaben des Bundes, wie sie aus den organisations- oder anderen bundesrechtlichen Erlassen oder auch aus Geschäftsberichten etc. eruiert werden können. In zeitraubender Kleinarbeit wird die Verbindung zwischen den rechtsordnungsbezogenen KOMPentenzentabellen und den beständebezogenen BAKtabellen herge- stellt; diese Arbeiten sollten in näherer Zukunft abgeschlossen werden können25.
23 Akzession: Ablieferung von Akten ans Archiv. Zur Begrifflichkeit vgl. MENNE- HARITZ 1992.
24 Eine aktualisierte Beschreibung des EDIBAR-Systems findet sich in CADUFF et. al. 1990.
25 SCHÄRER 1976.
75
TAB. 1: (VOR-) ARCHIVISCHE TÄTIGKEITEN UND ENTSPRECHENDE ORDNUNGSMITTEL
Tätigkeit
Ort der Ausübung
Ordnungs- mittel (logische)
Ordnungs- mittel (physische)
Geschäftserle- digung, Sach- bearbeitung
Amtsstelle/ Registratur
Registraturplan [ZAC], Geschäfts- kontrolle [GEKO-BV]
Ablieferung/ Akzession
Zwischenarchiv
Abgabevezeich- nisse [ZAC]
Bewertung/ Kassation
Archiv
Kassationsliste (Abgabever- zeichnis)
Magazinverwal- tung (Standort grundsätzlich [BAKMAG]
Erschliessung
Vermittlung
Abgabever- zeichnisse Repertorien [REP] Inventare, Indices [SYBU, KOMP BAK(-RE), BAK- BV-RE, DONA- BAR, NFP 23, EX PERTENSY- STEM]
Benutzerverwal- tung (aktueller Standort) [BAK-BV]
Neben diesen eigentlichen EDIBAR-Teilen verfügt das Bundesarchiv über das bereits erwähnte Personennamen-Nachweis-System PERSEIS und über verschiedene, selbständige Kleinapplikationen, welche bei- · spielsweise die klassische archivische Erschliessung (REP als Arbeits- hilfe für die Erstellung von Repertorien) oder, im vorarchivischen Be- reich, die Erfassung von Registraturplänen oder Abgabeverzeichnissen (ZAC) unterstützen. Ebenfalls für den Einsatz im vorarchivischen Be- reich ist das vom Bundesarchiv entwickelte komplette Geschäftskontroll-
76
system (GEKO-BV) gedacht. Neben dieser Eigenentwicklung beteiligt sich das Bundesarchiv auch an entsprechenden Projekten für die Ausar- beitung ähnlicher Geschäftskontrollsysteme auf unterschiedlichsten Sy- stemplattformen.
Betrachten wir allein das EDIBAR-System, so verfügt das Bundesarchiv schon mit diesem über ein Informatik-System, welches es erlaubt, ar- chiviertes herkömmliches Schriftgut physisch unter Kontrolle zu halten (von der Akzessionierung bis zur Ausleihe) und logisch zugänglich zu machen.
Mit EDIBAR sind verschiedene Arbeitsschritte automatisiert worden (z.B. Fristenkontrolle und Mahnwesen bei Aktenausleihen, Magazin- raumbewirtschaftung). Die Kontrolle des Benutzerverkehrs ermöglicht zudem eine einfache Ermittlung und Auswertung der Benutzungsfre- quenzen für die einzelnen Archivbestände. Das EDIBAR-System er- möglichte es weiter - gleichsam als Nebenprodukt -, eine Systematische Beständeübersicht26 zusammenzustellen, welche jederzeit nach Bedarf aktualisiert, d.h. um die Neuzugänge ergänzt werden kann. Ihre Integration ins Retrievalsystem von EDIBAR bleibt allerdings noch zu realisieren.
3.2.2 Unmittelbare Ausbaupläne: DONABAR - IZBAR
Bevor wir uns der Retrievalmethode des EDIBAR-Systems und mög- lichen methodischen Erweiterungen zuwenden, sollen die EDIBAR-Er- weiterungsabsichten des Bundesarchivs vorgestellt werden, die sich teils im Stadium konkreter Detailplanung, teils im Stadium konzeptioneller Entwürfe befinden.
Das DONABAR-Projekt ist in der Planung am weitesten fortge- schritten. Es steht vor seiner Realisierung. In Rahmen dieses Projektes sollen in den nächsten Jahren alle Detailfindmittel (z.B. Abgabe- /Zugangsverzeichnisse) im Bundesarchiv digitalisiert und als maschi- nenlesbare Findmittel im Rahmen des EDIBAR-Systems zugänglich ge- macht werden.
26 BŪTIKOFER 19918.
77
In BAK sind bis heute die wichtigsten inhaltlichen und formalen Anga- ben zu den Beständen (Signatur), Generationen (Geltungsdauer eines Registraturplans) und Akzessionen (Zeitraum enthaltener Akten und Gruppentitel vertretener Registraturplanpositionen je Aktenablieferung) enthalten. Die letzten Schritte einer Recherche, d.h. insbesondere die Ermittlung der gesuchten Akteneinheiten innerhalb einer Akzession, müssen immer noch in den papierenen Detailfindmitteln gemacht wer- den. Nach deren Digitalisierung müsste eine Recherche im EDIBAR-Sy- stem nicht mehr auf der Ebene der Gruppentitel der einzelnen Abga- beverzeichnisse abgebrochen, sondern sie könnte am Bildschirm bis zur Ermittlung einzelner Dossiertitel vollendet werden.
Dank der zunehmenden Verbreitung der im Auftrag des Bundesarchivs entwickelten Einzelplatz-Applikation ZAC (Zugangs- und Abgabever- zeichnis-Computer), welche im Bedarfsfall zusammen mit der nötigen Hardware einzelnen Amtsstellen zur Vorbereitung von Aktenablieferun- gen und zur Erstellung der begleitenden Abgabeverzeichnisse leihweise abgegeben wird, erhielt das Bundesarchiv in den letzten Jahren eine ständig wachsende Zahl maschinenlesbarer Abgabeverzeichnisse. Diese könnten im Rahmen des DONABAR-Projektes direkt ins EDIBAR-Sy- stem integriert werden.
Diesen modernen Abgabeverzeichnissen, welche in der Regel auch qua- litativ heutigen archivischen Ansprüchen zu genügen vermögen, steht aber eine riesige Menge papierener Abgabeverzeichnisse unterschiedli- cher Qualität gegenüber. Diese müssen durch Abschreiben oder mit ei- nem Scanner und anschliessender OCR-Bearbeitung in ein brauchbares Datenformat überführt werden, bevor sie in die EDIBAR-Datenbank in- tegriert werden können. Diese Arbeit wird etliche Arbeitsjahre dauern, und es hängt wesentlich von den finanziellen Mitteln und den zur Verfü- gung stehenden Arbeitskapazitäten ab, in welchem zeitlichen Rahmen dieses Projekt vollendet werden kann.
Nach Abschluss des DONABAR-Projektes, der logischen Weiterführung von EDIBAR, wäre das archiv-informatische Arbeitsinstrument für die . Verwaltung archivierter Papierakten gemäss Anfangskonzept grund- sätzlich vollendet. Ein weiterer Schritt wird noch sein, die archivierten elektronischen Akten selbst in ein erweitertes Archiv-Informatik-System einzubinden.
78
Die datenmässige Ausweitung des EDIBAR-Systems durch Integration maschinenlesbarer Detailfindmittel und - später - elektronischer Sachak- ten kann nicht die einzige Zukunftsperspektive sein. Im Rahmen einer Ideenskizze IZBAR ist bereits der Frage nachgegangen worden, wie das Bundesarchiv zu einem fachbereichsspezifischen Informationsversor- gungszentrum entwickelt werden konnte27. Ein solches fachbereichsspezifisches Informationsversorgungszentrum müsste selbstverständlich den Zugang zu den Akten der Bundesverwaltung eröffnen.Gleichzeitig sollte auch der Zugang zu anderen Archiven - im Rahmen eines Archivverbundes ähnlich dem bereits bestehenden Bi- bliotheksverbund - bzw. zu Bibliotheken, (kommerziell betriebenen) öf- fentlich zugänglichen Datenbanken (Nachrichtenagenturen, H[istorisches]L[exikon der ]S[chweiz], Kulturgüterdatenbank, Informa- tionssammlungen aus Forschungsprojekten etc.) oder anderen Infor- mationsquellen ermöglicht werden. Umgekehrt müsste von Informationsversorgungszentren anderer Fachbereiche aus nach Bedarf auf die Akten und Daten der Bundesverwaltung zugegriffen werden kön- nen. Damit könnten BenutzerInnen zwischen Literatur- und Quellen- studium hin und herwechseln, könnten Bundes- und Kantonsakten, die häufig eine materielle Einheit bilden, im gleichen Arbeitsgang konsul- tiert bzw. den EndbenutzerInnen zu einer computerunterstützen Analyse und Auswertung on-line zur Verfügung gestellt werden28.
Im eigentlichen Bereich der Vermittlung elektronischen Schriftgutes von eidgenössischen Amtsstellen müssten in einem zukünftigen Informa- tionsversorgungszentrum neue Retrievalmöglichkeiten geschaffen wer- den, welche auf der Grundlage einer umfassenden Sammlung von Meta- daten zur Dokumentation der Entstehungsprozesse von Akten vielfältige Zugänge zu diesen erlauben würden. Die Erschliessung als Bearbeitung definitiv bewerteter, abgeschlossener Archivbestände müsste sich in den Entstehungsprozess des Schriftgutes vorverschieben, wie es in einer elektronischen Umgebung eigentlich naheliegend ist. Die eigentlichen Sachakten würden dann nicht mehr nur als archivischer Rohstoff dienen,
27 Zur Idee des Informationsversorgungszentrums vgl. den Bericht der COMMISSION FEDERALE POUR L'INFORMATION SCIENTIFIQUE 1988.
28 Vgl. das Recherchebeispiel in Tabelle 2, das eine Kompetenz berührt, die teilweise von den Kantonen wahrgenommen wird.
Alig. zu den Bedürfnissen der ForscherInnen: MICHELSON 1992.
79
sondern sie könnten gleichzeitig selber auch Findmittelfunktionen über- nehmen29.
4 Das EDIBAR-Retrievalkonzept
Die Erschliessung von Archivbeständen und die Benutzung der Find- mittel während eines Suchprozesses stehen naheliegenderweise in einem engen wechselseitigen Verhältnis. Nur was während der Er- schliessungsarbeit an Informationen in ein Findmittel einfliesst, kann später während einer Recherche die Informationssuchenden weiterfüh- ren. Während der Erschliessung werden Informationen über die Her- kunft, den Charakter und Inhalt von Beständen und deren Teilen ge- sammelt. In den archivischen Verzeichnissen entsteht ein konzentriertes Abbild der Akten selbst30, ohne allerdings deren eigene ursprüngliche Informationsfülle bewahren zu können. Diese Konzentrierung der Infor- mation setzt Entscheidungen voraus - ähnlich der Bewertung - über die Trennung des Wichtigen vom Unwichtigen.
Die Benutzungsbedürfnisse ihrerseits wecken Wünsche nach spezifischer Erschliessung des Archivmaterials. Der ständige Wandel der Interessen von ForscherInnen verweist aber auf eine grundsätzliche Problematik: Es ist schwierig vorauszusagen, nach welchen Kriterien Archivmaterial erschlossen werden sollte, damit auch künftigen Generationen von Ar- chivbenutzern der Zugang zu ihnen entsprechend ihren eigenen
29 Vgl. BEARMAN 1992.
Bereits der EDIBAR-Konzeptbericht von 1985 formuliert weitsichtig eine solche Perspektive: "Das BAR ist möglicherweise gezwungen, in Zukunft auf traditionelle und bewährte Arbeitsverfahren und -ergebnisse zu verzichten."
Es wird auch von den Ergebnissen der Arbeitsgruppe ARELDA abhängen, wie viele Informationen aus dem Schriftgutproduktionsprozess gesichert und als archi- vische Erschliessungshilfen genutzt werden können. Als Beispiel für Dokumente, welche eine solche Doppelfunktion haben, können die Geschäftsberichte genannt werden: Als Verwaltungsdokumente gehören sie, obwohl publiziert, sicher auch ins Archiv. Sie können aber auch als Findmittel benutzt werden, geben sie doch Auf- schluss über die tatsächlich wahrgenommenen Kompetenzen und Aufgaben (vgl. SCHÄRER 1976).
30 Nach INTERNATIONAL COUNCIL ON ARCHIVES 1990:1.
80
Interessenlagen sinnvoll erleichtert werden kann. Heute sind die archivi- schen Findmittel angebotsorientiert und verlangen von den Benut- zerInnen spezifische eigene Suchanstrengungen mit ungewissem Aus- gang: erst am Schluss eines Suchprozesses zeigt sich, ob Akten gefunden werden können, welche die Beantwortung einer Frage ermöglichen31.
Dazu kommt: Die archivischen Suchstrategien unterscheiden sich nach archivarischem Selbstverständnis methodisch grundsätzlich von bi- bliothekarischen oder dokumentarischen Suchstrategien, weil Archivgut organisch gewachsen und nicht nach sachlichen Kriterien bewusst ge- sammelt worden ist. Methodisch muss deshalb ein archivisches Retrie- valkonzept auf dem allseitig anerkannten Provenienzprinzip und dem Re- spect des fonds aufbauen - so auch im Rahmen des EDIBAR-Systems.
Recherchieren setzt deshalb bei den Fragenden immer ein spezifisches Wissen um die Struktur des archivierten Materials voraus, welches pri- mär nach abliefernden Informationsproduzenten (Verwaltungsstellen) und sekundär, innerhalb der Gruppen von Informationen gleicher Her- kunft, nach einer hierarchisch-geschäftsbezogenen Sachgliederung (Registraturplan) geordnet ist, welche die den informations- produzierenden Stellen übertragenen Aufgaben (Kompetenzen) wider- spiegelt.
Eine themenbezogene Recherche im EDIBAR-System läuft fol- gendermassen ab (vgl. Tabelle 2): In einem ersten Schritt muss eine Frage in Kompetenz-Begriffe übersetzt werden, d.h. im Rahmen des EDIBAR-Teiles KOMP, einer Art vorgangsbezogener Pertinen- zordnung, muss die der Frage entsprechende Kompetenz eruiert werden. Diesem Vorgehen liegt die Überlegung zugrunde, dass nur der Aufgabenbezug Grundlage für eine sinnvolle Ordnung archivierten oder archivwürdigen Schriftgutes sein könne.
In einem zweiten Schritt muss festgestellt werden, welcher Kompetenz- träger (mit einer Kompetenz/Aufgabe beauftrage Amtsstelle) während eines bestimmten Zeitraumes mit der eruierten Kompetenz betraut war. Das Schriftgut eines Kompetenzträgers formt zusammen einen Bestand. Systemtechnisch entspricht dieser zweite Schritt der Recherche dem Übergang von KOMP zu BAK, logisch demjenigen von einer Hand- lungsordnung zu einer Organisationsordnung.
31 DOLLAR 1992a:84ff.
81
Im dritten Schritt ist das Schriftgut des ermittelten Kompetenzträgers ge- nauer zu befragen. Dieses Schriftgut ist seit dem Stadium seiner Produk- tion gemäss einem Registraturplan geordnet; Auszüge aus diesem Re- gistraturplan begleiten als Abgabeverzeichnisse die einzelnen Aktenab- lieferungen dieser Amtsstelle, und die kumulierten Abgabeverzeichnisse stellen eine Art Rohdetailfindmittel für einen Bestand dar. Ordnungs- prinzip für die Registraturpläne sollte wiederum die Aufgabenverteilung sein. Konkret: jeder Registraturplan sollte in seiner Gliederung die wichtigsten Aufgaben einer Verwaltungsstelle spiegeln. Entsprechend dem Kompetenzprinzip müsste man eigentlich zwischen einzelnen Posi- tionen eines Registraturplanes und den einzelnen Kompetenzen einer Amtsstelle eine klare Verbindung herstellen können. Gestützt auf eine solche Beziehung, selbst wenn diese in der Praxis nicht so eindeutig herzustellen ist, müsste im weiteren Verlauf des Rechercheprozesses nur noch auf diejenigen Akzessionen eines Bestandes verwiesen werden, welche auch entsprechendes Schriftgut enthalten. Im Rahmen der BAK- RE-Applikation wird aber auf eine solche, in der Praxis nur in den sel- tensten Fällen sauber herzustellende Verknüpfung von Kompetenzen mit Registraturplanpositionen ganz verzichtet, d.h. dass während des Re- chercheprozesses immer auf das ganze Schriftgut einer Verwaltungsstelle verwiesen wird. Es bleibt den BenutzerInnen vorbehalten, eine Fein- ausscheidung möglicherweise relevanten Schriftgutes vorzunehmen. Hilfreich sind dabei v.a. die Randdaten der einzelnen Akzessionen, wel- che auf den Zeitraum hinweisen, aus dem das Schriftgut stammt. An- hand dieser Randdaten und anhand der Haupttitel der einzelnen Abgabeverzeichnisse kann eine erste Feinausscheidung in Frage kom- menden Archivmaterials im Rahmen des EDIBAR-Systems vorgenom- men werden. Zudem verweist EDIBAR in diesem Stadium auch auf Be- stände, welche erst theoretisch bestehen, zu denen aber noch nie Akten abgeliefert worden sind32; ein Suchprozess kann so in mehrfacher Hin- sicht in Sackgassen führen (vgl. die schematische Zusammenstellung in Tabelle 3). Die Resultate werden nach der im Rahmen von DONABAR zu realisierenden Integration der bestehenden Detailfindmittel ins EDI- BAR-System wesentlich positiver ausfallen.
Nach der Eruierung potentiell wichtiger Bestände und eventuell einzel- ner Akzessionen muss die weitere Recherche vor der im Rahmen des DONABAR-Projektes geplanten Digitalisierung der Abgabever- zeichnisse in den papierenen Detailfindmitteln zu Ende geführt werden.
32 1966 ist im Bundesarchiv eine Zusammenstellung aller Amtsstellen erarbeitet wor- den (Basis: Staatskalender etc.) und jeder Amtsstelle ist eine Bestandessignatur zu- geordnet worden. Diese dauernd ergänzte Beständesübersicht ist in EDIBAR inte- griert worden.
82
EDIBAR liefert dann wieder die Angaben zu den Standorten der einzel- nen Akzessionen im Magazin.
Tab. 2: RECHERCHE IM EDIBAR-SYSTEM I
Frage "Ich interessiere mich für die Geschichte des Kokainkonsums in der Schweiz."
Stichwort
Kokain
Kompetenz Betäubungsmittelverkehr 1925-52 [1] Betäubungsmittelgesetz 1952- [2]
Kompetenz- träger
1 Gesundheitsamt 1925-52 [11] Zollverwaltung 1925-52 [12] Kommission für die Ausführung des Betäubungsmittelgesetzes 1925-52 [13]
2 Gesundheitsamt 1952-79 [21] Bundesamt für Gesundheitswesen 1979- [22]
Bundesanwaltschaft 1952- [23 ] Schweiz. Zentralstelle für die Bekämpfung illegalen Betäu- bungsmittelverkehrs 1952- [24] Zollverwaltung 1952-79 [25] Eidg. Zollverwaltung 1979- [26]
Kantone 1952-
[27]
83
Bestände (Signatur)
11 E 3300 (A) Gesundheitsamt 1896- 1935 / 1921-79 [111] E 3300 (B) Gesundheitsamt 1936- 39 / 1921-79 [112] E 3300 (C) BA Gesundheitswesen 1940- / 1979- [113] E 3301 (-) [7] Personen- dosimetrie
12 Zollverwaltung -> Ober- zolldirektion E 6350 (A) [7] Amtsbücher
E 6350 (B) [121] E 6355 (-) [7] Schweiz. Zolltarif
13
21 wie [11]
22 Teil von [11] +
E EDI, 1004 (-) Abt. Gifte, Daten aus RAGIDOS
23 E 4320 (A) [7] Polizeidienst
E 4320 (B) [7] Polizeidienst
E 4320 (C) [7] Polizeidienst
E 4321 (A) [7] Rechtsdienst
E 4325 (-) [7] Zentrale Dienste
E 4327 (-) Bundesanwaltschaft 1889 - [231]
24 25 wie [12]
26
27 --
Akzessionen 111 (Anzahl)
5 - 1 davon zum Thema Betäu bungsmittel
112 3 - 1
113
38 -
4
121
44
231 1 - 0
84
Tab. 3: RECHERCHE IM EDIBAR-SYSTEM II: SUCHBAUM
Schlagwort
Kompetenzen
Kompetenzträger
O
Bestände
Akzessionen
00000
0
O
O
O
00OOO
0
)
0000O
C
0000
00000
OOOOO
0000
00OOO
0000
OOOOO
0000
00000
0000
0000
. positives Suchresultat
O negatives Suchergebnis (Sackgasse)
00
85
Der oben beschriebene Suchweg zeigt eine komplette Recherche in unse- rem heutigen elektronischen Suchsystem. Für einen erfahrenen Archiva- ren ist es nicht notwendig, alle diese Schritte wirklich im EDIBAR-Sy- stem nachzuvollziehen. In den meisten Fällen weiss er bereits aufgrund einer gestellten Frage bzw. seiner Rückfragen, welche Amtsstellen mit ihrem Schriftgut für die Beantwortung zu berücksichtigen sind; er wird also erst auf der Ebene der Bestände ins elektronische Retrievalsystem einsteigen und mit dem Überblick über die vorhandenen Akzessionen weiterarbeiten. In KOMP und in demjenigen Teil von BAK, welcher die Übersicht über die Amtsstellen enthält, ist viel archivarisches Experten- wissen formalisiert, das heute auch noch in den Köpfen der langjährigen Archivmitarbeiter gespeichert ist. Liegen für den Archivar-Experten die Vorteile von EDIBAR also nicht in erster Linie in dessen Retrievalkom- ponenten, so sind diese für die ArchivbenutzerInnen ohne Vermittlung durch das Archivpersonal noch zu kompliziert. Hier besteht ein Aus- baubedarf, und im Hinblick auf eine solche notwendige Erweiterung des BenützerInnenkreises sind auch die nachfolgenden methodischen Über- legungen zu verstehen.
5 Mögliche Erweiterungen der Retrievalstrategie
Grundsätzlich denken wir an zwei Arten der Erweiterung anzubietender Retrievalmöglichkeiten:
86
fehlenden direkten Zugangs auf ungleich schwierigere Art erwerben müssen.
5.1 Sprachanalytischer Ansatz (NFP 23)
Seit gut zwei Jahren beteiligt sich das Schweizerische Bundesarchiv, zu- sammen mit dem Institut dalle Molle pour les études sémantiques et co- gnitives (ISSCO) in Genf und dem Istituto dalle Molle di studi sull'intelligenza artificiale (IDSIA) in Lugano mit dem Projekt Speci- fication and Prototyping of a System for the Intelligent Management of Information am Nationalen Forschungsprogramm 23, Artificial Intelligence and Robotics.
Ausgangspunkt unserer Überlegungen für den Entwurf des For- schungsplanes ist die Vorstellung gewesen, dass in Zukunft Massen maschinenlesbarer Informationen zur Verfügung stehen werden, welche sinnvollerweise auch in dieser Form archiviert werden sollten. Die tech- nischen und wirtschaftlichen Fragen, die mit der Aufbewahrung grosser Datenmengen verbunden sind, können heute grundsätzlich als gelöst gelten. Völlig offen ist es dagegen noch, welche Form diese maschi- nenlesbaren Dokumente haben und wie sie geordnet sein werden. Die Eigenschaft der Maschinenlesbarkeit elektronischer Akten eröffnet aber auf alle Fälle neue Möglichkeiten der Analyse und des Zugriffs - sei es auf ungeordnet abgespeicherte und nur indexierte oder auf klar struktu- rierte und mit herkömmlichen Aktenzeichen versehene Dokumente.
87
Im Rahmen des genannten NFP-23-Projektes sind zwei methodische An- sätze ausgewählt worden zur Sicherstellung oder gar Erweiterung und Verbesserung archivischer Retrievalmöglichkeiten in einer elektroni- schen Umgebung: die automatische Verarbeitung natürlichsprachlicher Dokumente und der Einsatz wissensbasierter Systeme. Die Expertensy- stemteile würden dabei Funktionen des heutigen EDIBAR-Systems in verbesserter Form übernehmen; die sprachanalytischen Teile müssten die auf herkömmliche Art nicht erreichbare Präzision der Suche durch Berücksichtigung von Dokumenteninhalten erhöhen.
Tabelle 4 zeigt die geplante Struktur des ganz in Prolog programmierten Prototyps, welcher ursprünglich eine enge Verflechtung der beiden Ele- mente - Expertensystem und Sprachverarbeitung - vorsah, die sich auch funktional bestens ergänzen können.
Tab. 4: Struktur des Prototyps
DOKUMENT -> DOKUMENT- - > ERKENNEN ->
ZERGLIE- DERUNG
DOKUMENTEN- STRUKTUR
-> TEXT-
ANALYSE
-> INDEXIE- -- > RUNG DOKUMENTE
-> EXPERTEN SYSTEM
-> ANALYSE DOSSIERS ->
FRAGE BEANT- WORTEN
EXPERTEN -> SYSTEM
PRÄZISIERUNG -> DER FRAGE -- >
FRAGEZER- GLIEDERUNG/ -> -ANALYSE
INDEXIERUNG
-> DER FRAGE ->
BENUTZER- ->
FRAGEFORMU-
RECHERCHE -- >
OBERFLÄCHE -> LIERUNG
Im Rahmen des NFP-23-Projektes sind, den zur Verfügung stehenden Personalkapazitäten entsprechend, zuerst der Dokumentenparser und die
88
Textanalyse ausgearbeitet worden33. Die Analyse der Fragen wird sich analog der Textanalyse vollziehen; sie stellt deshalb keine weiteren Pro- bleme. Die Ausarbeitung einer ergonomischen Benutzeroberfläche stellt v.a. ein technisches Problem dar; sie war deshalb nie von grosser Dring- lichkeit. Die Expertensystemteile sollten erst in einer zweiten Phase des Projekts in Angriff genommen werden. Da die vorgesehene Wei- terfinanzierung nicht bewilligt worden ist, können sie im Rahmen dieses Forschungsprojektes nun nicht mehr realisiert werden und bleiben als Pläne auf dem Papier bestehen.
Der Hauptteil unserer Arbeit hat sich also auf die Verarbeitung von maschinenlesbaren Dokumenten konzentriert. Damit eine automatische Fragebeantwortung in einigermassen akzeptabler Zeit zu erreichen ist, müsste die Analyse des Schriftgutes im Rahmen der Akzessionierungs- arbeiten durchgeführt werden. Die Resultate dieser Analyse - die Do- kumentenprofile, eine Art komplexer Indexeinträge - würden an- schliessend in einer Datenbank aufbewahrt.
Um eine Frage zu beantworten, genügt es, diese auf die gleiche Weise zu analysieren wie die archivierten Dokumente. Das Resultat der Frage- analyse - das Frageprofil - kann dann mit den Dokumentenprofilen verglichen werden. Finden sich vergleichbare Profile, so ist die Frage positiv beantwortet. Es bleibt dabei offen, wie weit sprachliche Deckungsgleichheit zwischen Fragen und Quellen überhaupt erwartet werden kann (man denke nur an die Änderungen des Sprachgebrauchs: Atomkraftwerk > Kernkraftwerk, technische Zusammenarbeit > Ent- wicklungshilfe etc.). Führt dieser Ansatz aber - wie wir glauben - zu po- sitiven Ergebnissen, so liesse sich ein enorm flexibles Retrievalinstru- ment entwickeln, weil der Inhalt von Dokumenten plötzlich als "Findmittel" zur Verfügung stehen würde.
33 Am Projekt haben drei Forscher mitgearbeitet: Der Computerlinguist Michael Hess für die ISSCO, der Systemanalytiker Jean-Luc Cochard für die IDSIA und der Ver- fasser als Historiker und Vertreter des Bundesarchvs.
89
5.1.1 Dokumentenparser34
In diesem Kapitel soll der Verlauf der Analyse der rohen Dokumente bis zur Erstellung eines passenden Dokumentenprofils beschrieben werden. Diese Dokumentenanalyse besteht aus mehreren Arbeitsschritten. Sie beginnt mit der Analyse der Dokumentenstruktur und des Dokumen- tentyps.
Tab. 5: ORIGINALDOKUMENT
DIRECTION FEDERALE DES FORETS
3001 Berne Laupenstrasse 20 Case postale 5662 Tél .: 031 / 61 80 91 n.réf .: 267 AB/ef
Aux Inspections cantonales des forêts
Berne, mai 1989
Inventaire complet des vues aériennes des dégâts causés par les tempêtes
Messieurs
Die Dokumente stehen uns in einem 'hart'-formatierten ASCII-Format zur Verfügung (keine Tabulatoren, keine Paragraphenbezeichnungen, nur Leerschläge und alle Zeilen mit
34 Parser, dt. Zerteiler; Programm, das eine Zeichenfolge einliest und diese syntak- tisch analysiert bis ein Ableitungsbaum als Output ausgegeben werden kann. Die Verwendung des Begriffs hier verweist auf die strukturelle Ähnlichkeit dieses Ar- beitsschrittes der Dokumentenerkennung mit demjenigen der Syntaxanalyse.
35 Aus methodischen Gründen ist der Ansatz dieses Forschungsprojektes auf franzö- sischsprachige Dokumente beschränkt, da die französische Sprache nicht so frei zusammengestellte Nominalkomposita kennt wie das Deutsche und da auch die Syntaxstruktur klarer definiert ist.
Da aktuelle Dokumente der Verwaltung dem Amtsgeheimnis unterliegen, war es schwieriger als ursprünglich geplant, eine ausreichende Zahl von maschinen- lesbaren Dokumenten in französischer Sprache zu finden. Die Sektion Förde- rungsmassnahmen der Abteilung Walderhaltung und Jagd der Eidg. Forstdirektion (Bundesamt für Umwelt, Wald und Landschaft) hat schliesslich Dokumente aus ih-
90
zur Verfügung stehende elektronische Schriftgut zeigt, dass es bereits für einfachste Dokumente eine enorme Formvielfalt gibt. Dieser Um- stand hat uns gezwungen, die Erkennung des Dokumententyps zu beschränken auf die Erkennung von Briefen und von Protokollen. Wer- den in den Büroinformationssystemen vermehrt internationale Normen und Standards eingehalten, so wird sich die Dokumentenarchitektur bes- ser definieren und bei einer automatischen Analylse auch leichter wie- dererkennen lassen36.
rem Büroautomationssystem zur Verfügung gestellt. Wir danken Herrn R. Gerber, Sektionschef, für dieses Entgegenkommen, dank dem wir uns eine Arbeitsbasis von rund 500 ASCII-Dokumenten beschaffen konnten, 120 davon in französischer Sprache. Die deutschsprachigen Dokumente konnten wir v.a. für die Strukturana- lyse benutzen. Daneben verfügen wir noch über eine parallele Datenbank, welche die strukturierten Informationen enthält, wie sie zusammen mit den Dokumenten im Büroautomationssystem verwendet werden (Titel, Verfasser, Datum, Stichworte). Auch aus diesen Informationen konnten wir interessante Einsichten über die Nut- zungsgewohnheiten gewinnen.
36 Wir denken etwa an folgende Standards: SGML (Standard Generalized Markup Language, ISO 2709) zur Standardisierung des Dokumentenaufbaus, nur für Text- dokumente geeignet. ODA/ODIF (Office Document Architecture/Interchange For- mat, ISO 8613), ebenfalls eine Norm zur strukturierten Dokumentengestaltung. Die ODA/ODIF-Regeln könnten an sich in SGML ausgedrückt werden. Vgl. etwa APPELT 1990.
91
Tab. 6: ZERGLIEDERTES DOKUMENT
Bloc: orig(1,1), 29 * 1, DIRECTION FEDERALE DES FORETS
Bloc: orig(37,1), 23 * 4, Aux Inspections cantonales des forêts
orig(Spalte, Zeile [Position der linken oberen Blockecke]), n*m [Blocklänge * Anzahl Zeilen].
Bloc: orig(1,3), 20 * 5, 3001 Berne
Laupenstrasse 20 Case postale 5662 Tél .: 031 / 61 80 91
n.réf .: 267 AB/ef
Bloc: orig(40,9), 15 * 1, Berne, mai 1989
Bloc: orig(1,12), 49 * 3, Inventaire complet des vues aériennes des dégâts causés par les tempêtes
Eine sequentielle Lesart würde unverständliche Informationen liefern: ... 'cantonales' '3001' 'Berne' 'des' 'forêts' ... Während der Dokument- analyse muss also die menschliche Fähigkeit simuliert werden, blockar- tig angeordnete, sinnmässig zusammengehörige Informationen als Ein- heiten zu erfassen. Dieser Vorgang ähnelt dem Vorgehen von OCR-Sy- stemen, die Zonen mit hoher Pixeldichte von anderen trennen; der Unterschied liegt darin, dass für unseren Prototyp die Buchstaben die 'Pixels' sind. Der Dokumentenparser liefert als Resultat die Angaben, die in Tabelle 6 enthalten sind.
92
Tab. 7: TEXTGRAMMATIK37
Objekt
-> Definition (Beschreibung jeden Objektes durch die Aufzählung der obligatorischen, fakultativen, einmal oder mehrmals auftauchenden Elemente)
Textsorte Brief Rundschreiben
-> { ... ) | Brief ( ... )
->
Normaler_Brief | Rundschreiben
->
(Briefkopf),
(Telefonnummer),
(Adresse), Datierung +, Referenz Betreff, .. (Post_Scriptum),
Adresse
-> (Verteiler) | Amt | Firmen- name Personenname, (Strasse), Ort.
Post_Scriptum
-> ( ['PS '] )
Da eine automatische linguistische Analyse ganzer Dokumente die Möglichkeiten heutiger Computerlinguistik übersteigt, muss die sprachliche Analyse auf Dokumententeile mit hoher Informationsdichte beschränkt werden können, z.B. auf die Betreff-Angaben. Um dieses Ziel zu erreichen, muss jedem Block eine Etikette 'angeheftet' werden, welche dessen funktionale Bedeutung beschreibt. Dieser Vorgang basiert auf einer «Textgrammatik», welche das Resultat der Analyse von rund hundert Briefen darstellt. Die Grundform dieser «Textgrammatik» ist in Tabelle 7 dargestellt.
Durch die Angabe von Relationen (die Absenderangabe findet sich links von der Adressangabe, das Datum findet sich unter der Aderessangabe
37 (Begriff) - optional
Begriff + - ein- oder mehrmaliges Vorkommen möglich Begriff * - kein oder mehrmaliges Vorkommen möglich Begriff1 | Begriff2 - alternatives Vorkommen [Begriff] - konkretes Erscheinungsbild
"Begriff" - Vorkommen genau in dieser Form
Begriff1, Begriff2 | Begriff3 - Begriffl und 2 oder Begriff3
93
etc.) und durch die Angabe eines möglichen Spektrums des Inhaltes die- ser Strukturelemente (Datum kann sich zusammensetzen aus Teilen von 123 .. JanFebMärz .. etc.) gelingt es, die Dokumentenstruktur zu erfassen
Tab. 8: DOKUMENTENSTRUKTUR UND -INHALT: ANALYSERESULTAT
Brief
(Rundschreiben
(Absender ( "DIRECTION FEDERALE DES FORETS 3001 Berne Laupenstrasse 20 Case postale 5662"), Telefon("031 / 61 80 91"), Referenz ("267 AB/ef"), Adresse
(Verteiler ("Aux Inspections cantonales des forêts") ),
Datierung("Berne, mai 1989"),
Betreff("Inventaire complet des vues aériennes des dégâts causés par les tempêtes" ) , Anrede ( "Messieurs") , .)).
5.1.2 Die automatische linguistische Analyse38
Im Rahmen einer umfassenden Analyse von natürlichsprachlichen Dokumententeilen kommt an erster Stelle die morphologische Analyse. Diese ist bei einer flexionsreichen Sprache wie dem Französischen von grosser Bedeutung. Im Rahmen unseres NFP-23-Projektes ist ein Mor-
38 Vgl. für die folgenden Ausführungen zur Morphologie: COCHARD 1992, für den syntaxo-semantischen Teil: HESS 1992.
94
phologieanalyseprogramm entwikkelt worden, welches es erlaubt, mehr als 100'000 Wortformen zu verstehen.
Die Dokumententeile, die gewöhnlich die grösste Informationsdichte aufweisen, werden sprachlich analysiert. Viele Systeme beschränken sich dabei auf eine statistische Auswertung. Sie entfernen zuerst alle Funktionswörter und alle häufig auftauchenden Wörter. Die übrigen Be- griffe werden auf ihre Stammform reduziert, wie z.B.
(1) inventaire, inventorisation, inventorier -- > inventaire
Die Fragen werden als Bool'sche Kombinationen von Begriffen formu- liert. Die Frage etwa
(2) Existe-t-il un inventaire des vues aériennes des dégâts causés par les tempêtes?
würde als Bool'sche Kombination der Begriffe
(3) inventaire & vue_aérienne & dégât & tempête.
formuliert. Ein solches Retrievalsystem würde als Antwort einerseits zwar richtigerweise auf Dokumente verweisen, deren Betreffangabe fol- gendermassen lautete:
(4) Inventaire complet des vues aériennes de dégâts causés par une tempête.
Leider würden anderseits auch Dokumente angezeigt, deren Betreffzeile lauten könnte:
(5) Inventaire complet et vues aériennes de dégâts causés par une tempête
Eine solche Antwort ist unbefriedigend wegen ihrer mangelnden Präzi- sion, die sich, sind erst einmal Tausende elektronischer Dokumenten ar- chiviert, verheerend auswirken würde, müssten doch schier endlose Referenzlisten von Hand bearbeitet werden, damit man die nützlichen von den unnützen Dokumenten trennen kann.
Um die Präzision der Retrievalresultate zu erhöhen, wird die linguisti- sche Analyse um eine syntaktische und semantische Analyse ergänzt. Das stellt uns vor verschiedene Probleme:
Die öffentliche Verwaltung beschäftigt sich mit fast allen Le- bensbereichen, so dass wir mit Dokumenten konfrontiert sind, deren Sprache allgemein und von enormer Vielfalt ist.
95
Die syntaktische Struktur einer Frage wird sich kaum in der glei- chen Form in den Dokumenten wieder finden lassen, da alles sich in verschiedenen syntaktischen Konstruktionen formulieren lässt. Meist werden wohl die Fragen allgemeiner formuliert sein als die Betreffzeilen von Dokumenten.
Selbst einfache Sätze sind häufig mehrdeutig, wenn man sie sorg- fältig analysiert.
Um die Möglichkeiten heutiger Computerlinguistik nicht überzustrapa- zieren, werden also nur informationsdichte Dokumententeile einer syn- takto-semantischen Analyse unterworfen, deren Ergebnis anschliessend in eine normalisierte Logik übertragen wird.
Tab. 9: SYNTAKTISCHE VARIANTEN FÜR DIE FORMULIERUNG EINES SACHVERHALTES
6a Inventaire des vues aériennes de dégâts causés par une tempête 6b Inventaire des vues aériennes de dégâts qui ont été causés par une tempête
6c Vues aériennes inventorisées de dégâts causés par une tempête
7a Droit de douane sur l'importation de légumes du Marché commun en Suisse
7b Droit de douane sur des légumes importées du Marché commun en Suisse
Die gemeinsame Bedeutung der Betreffangaben (7a-b) kann logisch in folgender Form dargestellt werden39:
(8) droit(sk-1,sk-2),d1,p1,s1 douane(sk-2,sk-3),d1,p1,s1 importation(sk-3,sk-4,sk-5,sk-6),d1,p1,s1 légume(sk-4),d1,p1, s1 marché(sk-5),d1,p1, s1 commun(sk-5),d1,p1, s1 suisse(sk-6),d1,p1, s1
39 sk-n ist eine sogenannte Skolem-Konstante; jedem Begriff wird eine eigene solche fortlaufend nummerierte Konstante zugeordnet. Die Angaben d1, p1, s1 verweisen auf den Ort im Dokument, an welchem sich ein Begriff befindet (dl = im 1. Dokument, p1 = im 1. Absatz, $1 = im 1. Satz etc.).
96
In einem Lexikon sind die entsprechenden Begriffe mit ihren obligato- rischen (fett) und fakultativen (normal) Attributen definiert:
(9) importation(de(1) qc [objet], de(2) [origine], en [but] ) importer(qn [agent], qc [objet], de [origine], en [but] ) importer(qc/qn [agent], qn [objet] ) douane(sur qc [objet] ) droit(de qc [objet] )
Es ist weiter möglich, Variablen zu definieren, welche die Art und Weise, den Ort oder die Zeit wiedergeben. Mit diesen Angaben können die Betreffe 7a-b folgende Form annehmen:
(10) objet(droit,sk-1,sk-2),d1,p1,s1 objet(douane, sk-2,sk-3),d1,p1, s1 action(importation, sk-3, sk-4, sk-5, sk-6),d1,p1, s1 objet(légume, sk-4),d1,p1,s1 propriété(marché, sk-5),d1,p1, s1 propriété(commun, sk-5), d1,p1, s1 propriété(suisse, sk-6),d1,p1, s1
Ein solches Vorgehen erlaubt eine sehr genaue Beantwortung von Fra- gen. Es ist sogar möglich, Antworten auf sehr allgemein formulierte Fragen zu finden, wie etwa auf diejenige über
(11) le droit de douane protectionniste sur l'importation de légumes en Suisse,
welche logisch in nachstehender Form repräsentiert wird:
(12) droit(Dr,D) n douane(D, I) n protectionniste(D) n importation(I, L,_,S) n légume(L) n Suisse(S)
und durch den Verweis auf die Dokumente 7a-b beantwortet werden kann. Die Frage
(13) Existe-t-il un inventaire des vues aériennes des dégâts causés par les tempêtes?
dagegen kann nicht durch den Verweis auf ein Dokument mit der Be- treffzeile
(14) Inventaire des vues aériennes des forêts dévastées par une tempête
beantwortet werden. Da solche sprachlichen Inkongruenzien häufig sind, hatten wir einen Weg zu finden, der verhindert, dass negative Antwor- ten die Regel werden. Dank der Möglichkeit einer graduellen Ab- stumpfung lässt sich der Präzisionsanspruch des Retrievalsystems schrittweise reduzieren (15-17). Die gesuchten Begriffe müssen sich
97
dann nicht mehr innerhalb eines einzelnen Satzes oder eines einzelnen Abschnittes befinden.
(15) vue(V,D), d,p, s aérienne(V)d, p, s inventaire(I,V),d,p,s dégât (D), d,p, s tempête(T),d,p,s cause(T,D), d,p,s
(16) vue(,),d,p,_ aérienne(),d,p, inventaire(,), d,p, dégât(), d,p, tempête(), d, p, cause(,), d,p,_
(17) vue ( , ),d,1- aérienne(),d, inventaire(,),d,, dégât (), d, , tempête(), d,, cause(,), d,,
Damit werden die herausgearbeiteten Beziehungen zwischen den Be- griffen allerdings hinfällig, doch behält unser Prototyp immer noch die Präzision eines konventionellen Retrievalsystems.
5.2 Wissensbasierte Systeme (Expertensysteme)40
Expertensysteme sind wissensbasierte und regelgeleitete Systeme, wel- che versuchen, gemäss den ihnen zur Verfügung gestellten Informa- tionen (Fakten und Regeln) eigenständig einen Weg durch einen Pro- blemraum zu finden. Sie haben bereits mit Erfolg einen grossen Anwen-
40 Es war von Anfang an klar, dass eine sprachliche Analyse von einzelnen Dokumenten nicht einen sinnvollen selbständigen Zugang zu Archivmaterial schaf- fen kann, da die archivische Grundeinheit das Dossier ist. Deshalb sah das NFP 23-Projekt immer vor, neben den computerlinguistischen Teilen auch Expertensy- stemteile im geplanten Prototyp zu integrieren, welchen die Aufgabe zukommen würde, den kompetenz- und institutionenbezogenen Zugang zum Archivmaterial zu sichern.
Neben dem Expertensystemteil im NFP 23-Projekt hat das Bundesarchiv in Zusam- menarbeit mit der ETHZ noch ein Projekt entworfen, welches im Rahmen des Schwerpunktprogrammes Informatik hätte realisiert werden sollen. Im folgenden werden die Ideen beider Projekte ohne weitere Unterscheidung zusammengefasst und vorgestellt.
98
dungskreis in der Praxis gefunden, und auch kommende Büroinformati- onssysteme werden sich ihre Vorteile zu Nutzen machen41. Sie können im Rahmen des Information Retrieval wertvolle Unterstützung bieten.
Wichtiger Bestandteil eines Expertensystems ist dessen Wissensbasis. Es ist klar, dass sich heute in einem Expertensystem nur spezifisches Fach- wissen sinnvoll formalisieren lässt, nicht allgemeines Weltwissen. Da sich öffentliche Verwaltungen heute praktisch mit allen Lebensbereichen auseinandersetzen, ist es kaum möglich, alles benutzte Fachwissen in ei- nem archivischen Expertensystem zu erfassen, um in einem intelligenten Retrievalsystem methodische und themenspezifische Unterstützung an- bieten zu können. Es ist eine 'arbeitsteilige' Lösung anzustreben.
Einerseits werden die einzelnen Amtsstellen - das Bundesarchiv mit eingeschlossen - in Zukunft intelligente Büroinformationssysteme ver- wenden, welche die Erledigung der anfallenden Geschäfte sowohl ver- waltungsseitig wie fachseitig unterstützen werden. Ihre Wissensbasen werden einerseits, wahrscheinlich für die ganze Bundesverwaltung weit- gehend einheitlich, juristisch-administratives Wissen umfassen, anderer- seits höchst unterschiedliches fachlich-inhaltliches Wissen, das jede Amtsstelle für ihre spezifische Aufgabenerledigung benötigt42. In diese Systeme wird durch das integrierte Regelwerk ein Handlungskonzept eingebaut, was neue Probleme bezüglich ihrer Archivierung aufwirft; sie stellen zudem die Forschung vor neue (hermeneutische) Probleme, da Teile des Entscheidungsprozesses in Form von Programmcodes, nicht mehr in Dokumentenform vorliegen.
Ergänzend zu zukünftigen amtsstellenzentrierten Expertensystemen zur Unterstützung der Verwaltungsarbeit müsste das Archiv ein eigenes wissensbasiertes Retrievalsystem entwickeln, welches auf der Basis me- thodisch-archivkundlichen Wissens über erfolgversprechende Suchstra- tegien den BenutzerInnen einen möglichst anwendungsfreundlichen, selbständigen Zugang zum Archivgut ermöglichen sollte. Unter metho- disch-archivkundlichem Wissen ist sowohl Wissen über die Bestände- struktur, Kompetenzverteilung und Organisationsstruktur der ak- tenabliefernden Verwaltung zu verstehen wie auch Erfahrungen aus be-
41 Vgl. etwa SCHMIDT 1989.
42 MICHELSON 1991:13ff gibt einen Überblick über Anwendungsbeispiele in der amerikanischen Bundesverwaltung (Steuerverwaltung, Sozialversicherung, Finanz- verwaltung).
99
reits gemachten Recherchen (heute in BAK-BV enthaltene Informatio- nen), welche helfen könnten, nachfolgende Recherchen zu optimieren. Dieser konzeptionell-zukunftsorientierten Perspektive steht eine gegen- wartsorientiert-pragmatische gegenüber: Es wäre theoretisch möglich, ausgehend von den in der EDIBAR-Datenbank enthaltenen Fakten, be- reits heute ein flexibleres Retrievalinstrument zu entwickeln, welches die Erschliessung bereits archivierter Bestände verbessern würde.
Ausgehend vom Recherche-Beispiel in Tabelle 2 lässt sich andeuten, was eine wissensbasierte Unterstützung der archivischen Suche bedeuten könnte: Bereits die Umsetzung einer Frage in ein Schlagwort oder eine Kompetenz könnte, in Verbindung mit dem oben vorgestellten compu- terlinguistischen Ansatz, wirkungsvoll unterstützt werden. Begriffsgrup- pen aus einer Frage könnten etwa als Suchbegriffe mit der Systemati- schen Rechtssammlung verglichen werden. Entsprechende Fundstellen (Gesetzestitel, Titel eines Gesetzesabschnittes, Titel eines Artikels, Ver- weis auf ein zweites Gesetz in einer Fussnote etc.) könnten vom Retrievalsystem entsprechend ihrer Stellung in einem hierarchisch strukturierten Text gewichtet werden. Sollte eine Suche zu keinen posi- tiven Ergebnissen führen, so könnte das Retrievalsystem weitere Such- bereiche vorschlagen (Geschäftsberichte, Parlamentsprotokolle, Staats- kalender etc.) oder die BenutzerInnen nach zusätzlichen Informationen befragen (vgl. Tabelle 4).
Nach ersten Entscheidungen könnten aufgrund gefundener Informa- tionen die zuständigen Amtsstellen automatisch ermittelt werden.
Wie der Suchbaum zeigt, sind während der Recherche auf verschiedenen Ebenen Entscheidungen zu treffen: Sollen alle möglichen Kompe- tenzträger und alle Bestände in die Recherche eingeschlossen werden? Eine Auswahl einzelner Kompetenzträger bzw. die Priorisierung der Re- cherche hat inhaltliche Konsequenzen, denn die einzelnen Amtsstellen befassen sich unter je einem spezifischen Gesichtspunkt mit "Kokain", und entsprechend wird ihr Schriftgut andere Informationen zum Thema liefern, etwa gesundheitliche Aspekte in den Vordergrund rücken oder solche der Strafverfolgung. Durch die Berücksichtigung der geplanten Arbeitsintensität (Zeitungsartikel - Dissertation) liesse sich die Re- cherche anders gestalten: Das System könnte vorschlagen, einen Tei- laspekt auszuwählen, ev. je nach Quellenlage, Anzahl in Frage kom-
100
mender Dossiers oder nach thematischen Einschränkungen, oder es könnte ohne Rückfrage eine Übersicht über alle Fundstellen liefern.
Bei der manuellen Recherche erweisen sich ausserdem viele anfänglich offene Suchwege, manchmal bereits auf der Ebene der Kompetenzträger, als Sackgassen. Ein intelligentes System würde z.B. Regeln enthalten wie "wenn eine Amtsstelle noch keine Akten ans Archiv abgeliefert hat, dann zeige dies mit einem Vermerk an".
Beim Schritt von der Ebene der Kompetenzträger zur Übersicht über de- ren Schriftgut muss man beachten, dass die Akzession nur eine orga- nisatorische Hilfsgrösse darstellt, welche vom logisch-thematischen Ge- sichtspunkt aus keine sinnvollen Informationen liefert. Ein intelligentes Retrievalsystem müsste demnach das Schriftgut einer Amtsstelle als Ein- heit behandeln. Die gestellte Frage der BenutzerInnen bedeutet die we- sentliche Eingrenzung: es ist nicht alles Schriftgut einer Amtsstelle für die Recherche relevant. Die im EDIBAR-System grundsätzlich mögli- che, allerdings manuell vorzunehmende Eingrenzung auf Akzessionen, welche Schriftgut zu einer bestimmten Registraturplanposition (hier: Betäubungsmittel) enthalten, könnte automatisiert werden; dies wird erst nach der Digitalisierung aller Detailfindmittel sinnvoll möglich sein (Betäubungsmittel und/ oder Kokain). Es könnte auch automatisch auf verschiedene Spezialfindmittel (z.B. Namenkarteien) aufmerksam ge- macht werden, welche in Zukunft ebenfalls maschinenlesbar und inte- graler Bestandteil des archivischen Retrievalsystems sein werden.
Bei einer allgemein gehaltenen Frage könnte ein wissensbasiertes Retrievalsystem die BenutzerInnen auch darauf aufmerksam machen, dass das Rechercheresultat aus dem EDIBAR-System in erster Linie auf Akten aus dem Gesetzesvollzug verweist. Ist man eher am Prozess der Rechtssetzung interessiert, so würde sich eine andere Vorgehensweise aufdrängen, welche im Rahmen eines erneuerten oder zukünftigen Re- trievalsystems natürlich auch zu unterstützen wäre. Dies würde rück- blickend ebenfalls eine Nacherfassung von Informationen voraussetzen, vorausblickend würde es die rechtzeitige Sicherstellung solcher Infor- mationen im Rahmen des Verfahrens zur Archivierung elektronischer Sachakten voraussetzen (als Metadaten).
Im EDIBAR-System ebenfalls nicht direkt ersichtlich ist, dass man in vielen Fällen zusätzlich auch die Akten der Generalsekretariate oder die Handakten einzelner Magistraten oder Chefbeamter konsultieren müsste.
101
Sind die Detailfindmittel einmal digitalisiert, so würde die Recherche automatisch auch diese Bestände miterfassen. Die Bedeutung einzelner solcher Bestände könnte bewertet werden, so dass darauf nur hin- gewiesen wird, wenn sich nicht nur eine sprachliche Deckungsgleichheit feststellen liesse. Die Bewertung würde z.B. Bestände mit inhaltlich in- teressanten Dossiers von solchen unterscheiden helfen, die nur Doppel und Abschriften enthalten, materiell die Nachforschung also nicht wei- terführen.
Ginge man davon aus, dass die bestehende hierarchische Organisation des Suchprozesses im EDIBAR-System nicht zwingend weiter erhalten bleiben muss, so könnte man eine Recherche sinnvollerweise bei der je- weils auf der Basis der Systematischen Rechtssammlung aktuell zu er- mittelnden Kompetenzverteilung einsetzen lassen, von dort aus in einem nächsten Schritt die Kompetenzträger ermitteln und anschliessend - be- vor man das Schriftgut selber in die Recherche miteinbezieht - anhand von Geschäftskontrolldaten heraussuchen, welche Geschäfte für die Be- antwortung einer Frage von Belang sind. Die Geschäftskontrolldaten könnten bereits erste Querbezüge zu anderen Amtsstellen anzeigen. Erst zuletzt würde dann eine möglichst klar eingegrenzte Teilmenge des Schriftgutes Registraturplanpositionen Dossiertitel (Abgabeverzeichnisse) - Dokumente - durch das Retrievalsystem analy- siert. Solche Vorstellungen sind zwar zukunftsgerichtet, gehen sie doch von Daten aus, welche heute in dieser Form gar nicht zur Verfügung stehen. Gleichzeitig dienen sie aber auch dem Zweck, die archivischen Vorstellungen zu konkretisieren, welche Daten den ArchivarInnen nütz- lich sein könnten für die arbeitsökonomisch noch realisierbare Erschlies- sung der Bestände; mit Variationen liesse sich auf dem heutigen System aufbauen. Die Daten müssten neu geordnet werden, damit die Struktur der inhaltlich-erschliessenden Informationen nicht vermischt würde mit denjenigen, die sich aus den Bedürfnissen der physischen Verwaltung des Archivgutes ergibt. Mit verhältnismässig einfachen Veränderungen könnte das bestehende System verbessert werden, bevor KI-Applikatio nen zum Einsatz kämen. Später könnte dann ein archivisches Experten- system, kombiniert mit einer automatischen computerlinguistischen Do- kumentenanalyse, als Ausbauperspektive ins Auge gefasst werden für ein "Archiv 2000 Informationsversorgungssystem".
102
6 Schlussbemerkung
"Die Informationstechnologien werden die archivische Arbeit in den kommenden Jahren in einem heute noch kaum vorstellbaren Ausmass verändern*43 und es wird praktisch jeder Bereich archivischer Tätigkeit von diesen Veränderungen betroffen sein. Es geht dabei nicht nur um die Entwicklung neuer Hilfsmittel, sondern die ganze Methodik steht zur Diskussion. Es geht um die informatikgerechte Gestaltung künftiger Archivarbeit.
Das Bundesarchiv befindet sich dabei in der komfortablen Lage, bereits über ein umfassendes Archiv-Informationssystem zu verfügen. Mit den gewandelten Vorstellungen und Bedürfnissen und den neuen technischen Möglichkeiten ergibt sich aber jetzt ein gewisser Ausbau- und Erneue- rungsbedarf. Es ist deshalb an der Zeit, das Erreichte kritisch zu würdi- gen und darüber nachzudenken, wie zukunftsweisende Verbesserungen in Richtung auf ein vollelektronisches benutzerfreundliches Informa- tionsversorgungszentrum realisiert werden könnten.
In diesem Artikel haben wir uns fast ausschliesslich mit der Re- trievalkomponente des EDIBAR-Systems befasst, der Komponente, wel- che, von einem methodischen Standpunkt aus betrachtet, zu den interes- santesten und anspruchsvollsten Teilen eines Archivinformatiksystems gehört. Eine mögliche Ausweitung eines archivischen Suchinstrumentes in Richtung auf einen methodischen Pluralismus müsste logischerweise auch Konsequenzen haben auf die Art der Erschliessung von Archivmaterial. Heute ist das Bundesarchiv an verschiedenen Forschungsprojekten und Arbeitsgruppen beteiligtund kümmert sich ak- tiv um die Zukunftsgestaltung. Damit ist der Zeitpunkt gegeben, ver- schiedene neue Trends etwas zusammenzufassen und ihre Auswirkungen zu überdenken. Informatischem Optimismus muss dabei oft mit etwas Skepsis begegnet werden. Gleichzeitig darf man aber nicht verkennen, dass sich bei allen Schwierigkeiten auch konkrete positive Entwicklun- gen abzeichnen, wie wir sie hier skizziert haben. Erst das eigene Enga- gement hilft, solche Trends - auch in archivischem Sinn - zu stärken. In dieser offenen Situation werden die ArchivarInnen dauernd herausge-
43 DOLLAR 1992a:1.
103
fordert, und diese Herausforderungen verleihen unserem Beruf einen grossen Reiz.
7 Literaturverzeichnis
APPELT 1990
Wolfgang, Dokumentenaustausch in Offenen Systemen. Einführung in die ISO-Norm 8613: Office Document Architecture (ODA) and Interchange Format, Berlin.
ARCHIVIERUNG 1988
Die, elektronisch gespeicherter Daten, Re- ferate gehalten an der Arbeitstagung der VSA in Bern, 25.3.1988, in: ARBIDO-R 3, S. 69-84.
BEARMAN 1991
David, Archival Principles and the Electro- nic Office, Vortrag Marburg, Oktober 1991, Ms., Pittsburgh.
BEARMAN 1992
David, Documenting Documentation, in: Archivaria 34 (im Druck).
BUCHMANN 1988
Wolf, Anforderungen aus der Sicht des Ar- chivars, Referat gehalten an der VSA- Arbeitstagung in Bern, 1988, in: ARBIDO- R 3, S. 70-75.
BÜTIKOFER 1991a
Niklaus, CADUFF, Hugo, GRAF, Chri- stoph, Systematische Beständeübersicht, Bern.
BÜTIKOFER 1991b
Niklaus, Archivierung von statistischen Da- ten, in: Studien und Quellen 17, Bern, S. 263-294.
CADUFF 1978
Hugo, RUFER, Kurt, Der Einsatz der ma- schinellen Datenverarbeitung im Bun- desarchiv, in: Studien und Quellen 4., S. 129-170.
CADUFF 1990
Hugo, FLÜCKIGER, Bernhard, GRAF, Christoph, Computer Science in the Service of Research and Administration. Electronic Data Processing in the Swiss Federal
104
Archives, in: JANUS, Archival Review 2, S. 5-24.
CADUFF 1989
Hugo, FLÜCKIGER, Bernhard, GRAF, Christoph, Informatik im Dienste von For- schung und Verwaltung, Studien und Quellen 15, S. 213-272.
COCHARD 1992
Jean-Luc, Une technique efficace de trai- tement en Prolog de la morphologie fle- xionelle du français, im Druck.
COMMISSION FEDERALE POUR L'INFORMATION SCIENTIFI- QUE 1988, Versorgung der Schweiz mit wissenschaftlicher Information in Gegenwart und Zukunft, Zürich.
DOLLAR 1992a
Charles, Die Auswirkungen der Informa- tionstechnologien auf archivische Prinzipien und Methoden, übersetzt und hg. von An- gelika Menne-Haritz, Veröffentlichungen der Archivschule Marburg 19, Marburg.
DOLLAR 1992b
Charles, Archivists and Librarians. Our Common Ground in the Information Age, Referat, Ms., Washington.
GRAF 1990
Christoph, Schweizerische Erfahrungen im Spannungsfeld zwischen Büroautomation und Archiven, in: Der Archivar 43, Sp. 102- 106.
GREEN 1991
Adam, The Development of Policies and Plans in Archival Automation, A RAMP Study with Guidelines, Paris.
HESS 1992
Michael, An Incrementally Extensible Do- cument Retrieval System Based on Lin- guistic and Logic Principles, in: Proceedings of SIGIR, Kopenhagen.
INTERNATIONAL COUNCIL ON ARCHIVES 1990, Statement of Principles Regarding Archival Description, adopted by the Ad Hoc Commission on De- scriptive Standards, Höhr-Grenzhausen.
MENNE-HARITZ 1988
Angelika, Büroautomation und Schriftgut- verwaltung. Der Stand der Entwicklung und
105
Überlegungen zu den Konsequenzen für die Archive, in: Der Archivar 41, Sp. 365-386.
MENNE-HARITZ 1990
Angelika, Büroautomation und Schriftgut- verwaltung. Stand der Entwicklung und Konsequenzen für die Archive, in: Der Ar- chivar 43, Sp. 89-95.
MENNE-HARITZ 1992
Angelika, Schlüsselbegriffe der Archivter- minologie. Lehrmaterialien für das Fach Archivwissenschaft, Veröffentlichungen der Archivschule Marburg Nr. 20, Marburg.
MICHELSON 1991
Avra, Expert Systems Technology and its Implication for Archives, National Archives Technical Information Paper No. 9.
MICHELSON 1992
Avra, ROTHENBERG, Jeff, Scholarly Communication and Information Techno- logy: Exploring the Implications of Changes in the Research Process for Archives, in: American Archivist (im Druck).
NATIONAL ARCHIVES TECHNICAL INFORMATION PAPER NO. 8 1990: A National Archives Strategy For the Development and Implementation of Standards for the Creation, Transfer, Ac- cess, and Long-Term Storage of Electronic Records of the Federal Government, Natio- nal Archives Technical Information Paper No. 8, Washington.
PAPRITZ 1964
Johannes, Zum Massenproblem der Archi- vare, in: Der Archivar 17, Sp. 213-220.
REALISIERUNGSKONZEPT 1989 für die Büroautomation in der schweizerischen Bundesverwaltung.
SCHÄRER 1976
Erich, Die systematische Kompetenzenkartei des Bundesarchivs, in: Studien und Quellen 2, Bern, S. 113-153.
SCHMIDT 1989 Stephanie, An Information Model for an Office Information System, in: Angewandte Informatik 10, S. 421-428.
106
Résumé
Les Archives sont depuis un certain temps déjà confrontées à un flot toujours croissant de dossiers, que l'introduction récente de systèmes in- formatiques dans les services administratifs n'a pas réussi à diminuer. L'informatique offre bien cependant, là aussi, des possibilités de diriger dans une certaine mesure ce flux d'informations vers des canaux con- trôlés.
Suite à ces considérations introductives, objet du premier chapitre de l'article, le deuxième chapitre distingue trois domaines d'utilisation de l'informatique aux Archives: la bureautique, l'informatique d'archives proprement dite, en tant qu'automatisation ou soutien électronique de fonctions archivistiques spécifiques, et l'archivage des documents élec- troniques. L'informatique d'archives sert, pour une part, à la rationali- sation des procédures archivistiques, pour une autre part aussi, à l'amélioration qualitative de l'expédition des tâches traditionnelles; elle permet encore, parallèlement, d'offrir de nouveaux services.
Le troisième chapitre présente un aperçu du développement de l'archivage des données électroniques au plan fédéral, en portant une attention particulière aux efforts actuels d'amélioration de la procédure de versement pour permettre la sauvegarde, non seulement des données, mais aussi des documents électroniques eux-mêmes. Suit une apprécia- tion critique du système informatique d'archives actuel, EDIBAR, complétée par la description des projets concrets de développement que les Archives fédérales ont l'intention de réaliser dans les années à venir. Enfin, des idées pour la mise sur pied d'un centre d'information pour un domaine spécifique sont proposées à la discussion.
Le quatrième chapitre analyse les stratégies archivistiques de questionne- ment reposant sur le principe de provenance et du respect des fonds et les possibilités de questionnement dans le système EDIBAR.
Dans la foulée de cette analyse et partant du principe que des documents électroniques seront archivés à l'avenir, le cinquième chapitre propose des élargissements possibles de la stratégie archivistique de questionne- ment. L'occasion de ces réflexions est offerte par l'achèvement d'un projet de recherche que les Archives fédérales ont pu réaliser conjointe- ment avec l'Institut pour les études sémantiques et cognitives (ISSCO)
107
de Genève et l'Istituto dalle Molle di studi sull'intelligenza artificiale (IDSIA) de Lugano, dans le cadre du Programme national de recherche 23 "Artificial Intelligence and Robotics". Dans ce projet de recherche, des méthodes de linguistique computationnelle ont été mises en relation avec celles des systèmes d'experts, pour développer un prototype de système de questionnement intelligent, capable de répondre aux besoins des Archives, en respectant les principes archivistiques mentionnés au chapitre 4. Ce prototype reconnaît la structure des documents électro- niques, il isole les éléments porteurs de sens (indication de l'objet du document, etc.) et analyse ceux-ci de telle sorte qu'il puisse automati- quement générer, pour chaque document, une entrée d'index complexe prenant en considération non seulement des notions isolées mais aussi des informations syntaxiques, qui complètent la caractérisation du do- cument. Il s'ensuit que la précision de la réponse peut être considé- rablement augmentée. Même si le prototype réalisé ne peut encore traiter automatiquement qu'un type de document (lettre), les résultats obtenus sont encourageants et appellent de nouvelles recherches.
Compendio
Da parecchio tempo gli archivi sono confrontati con un flusso di docu- menti sempre crescente, che la recente introduzione dei sistemi in- formtici nell'amministrazione non è riuscita a ridurre. Tuttavia l'informatica permette di canalizzare e di tenere sotto controllo il flusso delle informazioni.
Dopo alcune considerazioni introduttive, nel secondo capitolo si distin- guono tre campi d'applicazione dell'informatica nell'archivio: l'automazione degli uffici, l'informatica d'archivio in senso stretto (intesa cioè come automatizzazione o come supporto elettronico di fun- zioni archivistiche specifiche) e l'archiviazione di documenti informatiz- zati.
L'informatica per uso archivistico serve in parte a garantire l'esecuzione dei compiti tradizionali, in parte a migliorarla qualitativamente, per-
108
mettendo contemporaneamente di assumere nuovi compiti e di fornire nuove prestazioni.
Nel terzo capitolo è presentato per sommi capi lo sviluppo dell'archiviazione di dati informatizzati a livello federale, con partico- lare riguardo agli sforzi compiuti attualmente per lo sviluppo di una mi- gliorata procedura di consegna per gli atti elaborati elettronicamente. Ne segue un apprezzamento critico dell'attuale sistema d'archivio infor- matico EDIBAR, corredata dalla presentazione di concreti progetti d'ampiamento che l'Archivio federale intende realizzare nei prossimi anni. Il capitolo si conclude presentando, affinché siano discusse, di- verse idee riguardo alla creazione di un centro d'informazione specializ- zato.
Nel quarto capitolo sono analizzate le strategie archivistiche "retrieval" e le loro possibilità di applicazione, basate sul principio di provenienza e sul rispetto del fondo nel sistema EDIBAR.
In relazione con quest'analisi e partendo dal principio che in avvenire saranno archiviati altri documenti elettronici, il quinto capitolo propone possibili ampliamenti della strategia archivistica retrieval. Spunto con- creto di discussione è la fine di un progetto di ricerca che l' Archivio fe- derale ha realizzato congiuntamente all'Institut pour les études séman- tiques et cognitives (ISSCO) di Ginevra e all'Istituto dalle Molle di studi sull'intelligenza artificiale (IDSIA) di Lugano, nel quadro del Pro- gramma nazionale di ricerca 23 "Artificial Intelligence and Robotics". Nel progetto sono messi in relazione applicazioni di linguistica compu- tazionale e sistemi di esperti per sviluppare il prototipo di un sistema retrieval intelligente, in grado di soddisfare le necessità ed i principi ar- chivistici. Il prototipo riconosce le strutture dei documenti elettronici, isola gli elementi significanti (indicazione dell'oggetto del documento, ecc.) e li analizza in modo da potere generare automaticamente per ogni documento una complessa registrazione dell'indice, che non contenga solo singoli concetti bensì che tenga presente anche i loro rapporti sin- tattici. In tal modo la precisione delle risposte può essere sostanzial mente migliorata. Nonostante il prototipo realizzato possa trattare auto- nomamente un solo tipo di documenti (lettere), i risultati sono incorag- gianti ed invitano al proseguire le ricerche.
109
Schweizerisches Bundesarchiv, Digitale Amtsdruckschriften Archives fédérales suisses, Publications officielles numérisées Archivio federale svizzero, Pubblicazioni ufficiali digitali
Archivisches Suchen und moderne Informatik
In
Studien und Quellen
Dans
Etudes et Sources
In
Studi e Fonti
Jahr
1992
Année
Anno
Band
18
Volume
Volume
Autor
Kellerhals-Maeder, Andreas
Auteur
Autore
Seite
65-100
Page
Pagina
Ref. No
80 000 109
Das Dokument wurde durch das Schweizerische Bundesarchiv digitalisiert. Le document a été digitalisé par les. Archives Fédérales Suisses. Il documento è stato digitalizzato dell'Archivio federale svizzero.