3.4.3. Ochrana informačního obsahu digitálních objektů

Jedním ze základních úkolů a cílů digitálního archivu je udržení čitelnosti a autenticity informací obsažených ve spravovaných digitálních objektech. Tento cíl ovlivňuje výběr archiválií, správu archivu a postupy zajišťující logickou ochranu obsahu archivu.

Pro naplnění tohoto cíle je důležitým předpokladem existence přehledu o významných vlastnostech uchovávaných digitálních objektů, tj. jejich technických vlastnostech, ale i dalších vlastnostech pro zachování jejich autenticity. Archiv je dostupnými nástroji zjišťuje, ověřuje a ukládá jako součást metadat informačních balíčků. Tyto informace jsou jedním z východisek pro realizaci kroků směřujících k zachování informačního obsahu digitálních objektů.

Formátová politika v předarchivní péči

Informace o formátu digitálního objektu (v kontextu dlouhodobé interpretovatelnosti jeho informačního obsahu) ovlivňuje samotný výběr navrhovaných digitálních dokumentů za archiválie.

Úřední dokumenty zřizovatele

V oblasti úředních dokumentů zřizovatele uplatňuje digitální archiv politiku převážně restriktivní.

Při výběru dokumentů spravovaných v Elektronické spisové službě UK se řídí formátovými omezeními vycházejícími z Národního standardu pro elektronické spisové služby a Vyhlášky č. 259/2012 Sb. o podrobnostech spisové služby. Navržené informační balíčky prochází validací, jejíž součástí je identifikace a validace formátů obsažených digitálních komponent. Pokud balíčky navržené původcem obsahují komponenty, které nejsou v určených formátech, archiv je odmítá a vyzývá původce k převodu těchto komponent do určených výstupních formátů.

Při výběru dokumentů a dat z dalších informačních systémů zřizovatele archiv vychází z best practicies Archiving by design a v případě relevantních informačních systémů obsahujících data s trvalou historickou hodnotou jedná s provozovateli těchto informačních systémů a doporučuje výstupní formáty vhodné k dlouhodobé digitální archivaci. Tato doporučení jsou implementována do vnitřních předpisů zřizovatele pro provoz těchto informačních systémů. Příkladem jsou formátová omezení pro závěrečné studentské práce v digitální podobě v opatření rektora č. 72/2017.

Dokumenty jiných původců

V oblasti výběru dokumentů a dat jiných původců volí archiv strategii vyjednávání. Preferuje dokumenty a data ve formátech vhodných k dlouhodobé digitální archivaci a v rámci předarchivní péče v relevantních případech jedná s původci o převodu do vhodných archivačních formátů. Přijímá však i dokumenty a data ve formátech, které nejsou vhodné k dlouhodobé digitální archivaci. Čitelnost jejich informačního obsahu je zajištěna budoucími činnostmi uvnitř digitálního archivu. Zejména migrací do vhodných formátů, viz Realizace ochrany ohroženého informačního obsahu.

Správa formátů v digitálním archivu

Předpokladem logické ochrany je funkční správa formátů a technických metadat spravovaných digitálních objektů. Ty jsou spravovány ve Formátovém modulu a v Evidenčně správním modulu. Klíčovým nástrojem Formátového modulu je Formátová knihovna AIS, která spravuje záznamy o jednotlivých formátech digitálních objektů. Tyto záznamy jsou přebírány z externích formátových knihoven Pronom a Format Description Document FDD. Knihovna Pronom je v AIS UK primárním zdrojem informací o formátech. Ve formátové knihovně je možné vytvářet i vlastní záznamy formátů, které dosud nejsou popsány v externích formátových knihovnách. Formátová knihovna AIS UK umožňuje vytvářet vlastní rozšiřující popis převzatých formátů, identifikovat rizika spojená s konkrétním formátem a plánovat činnosti nutné k udržení čitelnosti formátů v daném formátu.

Za správu formátové knihovny jsou odpovědni správci digitálního obsahu, kteří udržují aktuálnost záznamů převzatých z externích formátových knihoven a pravidelně (zpravidla jednou ročně) aktualizují rizika konkrétních formátů a plánované činnosti.

V této činnosti vychází z popisu daných formátů a aktuálních informací z oblasti LTP, včetně doporučení a best practicies významných digitálních archivů – v českém kontextu zejména z formátových pravidel Národního digitálního archivu a ze standardů Národní knihovny (projektu Národní digitální knihovna).

Informace o technických vlastnostech digitálních objektů

Všechny digitální objekty prochází v digitálním archivu kompletní formátovou analýzou. Tato činnost je realizována bezprostředně po uložení archivovaných digitálních objektů. Archiv postupuje dle zásady prvotního uložení dat. Realizace kompletní formátové analýzy tedy nepodmiňuje samotné trvalé uložení. Formátovou analýzu je možné v odůvodněných případech zopakovat.

Formátová analýza zahrnuje identifikaci formátu digitálního objektu, v určených případech validaci určeného formátu, vytěžení technických metadat a uložení zjištěných informací do metadat informačního balíčku, v němž je digitální objekt uložen. Činnost je zajištěna postupným spouštěním určených specializovaných nástrojů a zpracováním výsledku jejich činnosti.

Okruh zapojených nástrojů a definice jednotlivých procesních kroků formátové analýzy vychází z analýzy obsahu digitálního archivu, dostupných technických nástrojů a technických možností při jejich integraci. Tým digitálního archivu sleduje vývoj v této oblasti a v rámci pravidelných plánů na rozvoj digitálního archivu může navrhnout aktualizaci zapojených nástrojů a jednotlivých kroků analýzy.

Kompletní formátová analýza je spouštěna automaticky. Mimo to má uživatel možnost spustit konkrétní identifikační, validační či extrakční nástroje nad vybranými digitálními objekty pomocí specializovaných workflow.

Každá jednotlivá operace nad konkrétním digitálním objektem je logována a tento log je přístupný oprávněným uživatelům. V případě uživatelsky spouštěných operací může uživatel rozhodnout, zda výsledek operace zapíše do informačního balíčků nebo zda jej odmítne. Toto rozhodnutí je možné nad jednotlivou komponentou i nad celou dávkou.

Vytěžené informace jsou zapsány do metadat informačního balíčku archiválií a s určenými informacemi je možné pracovat v rámci správy archiválií. Těmi jsou:

  • identifikace formátu,

  • validita digitálního objektu v tomto formátu,

  • vytěžená technická metadata.

Systém v určených intervalech (zpravidla jednou týdně) zhotovuje statistiku výskytu všech formátů v archivu. Součástí této statistiky jsou vybrané vlastnosti formátů (např. jejich míra rizika) a digitálních objektů v těchto formátech (identifikace reprezentace, zda tato reprezentace již byla nahrazena). Tyto statistiky vychází z aktuální báze znalostí o obsahu digitálního archivu. Statistiky jsou v průběhu času aktualizovány o informace o nových digitálních objektech a o výsledky nových formátových analýz nad archivovanými digitálními objekty. Konkrétní statistika vždy obsahuje jen informace aktuální k datu vyhotovení statistiky, neobsahuje tedy např. výsledky již “nahrazených” formátových analýz. Tyto informace jsou trvale k dispozici v metadatech informačních balíčků archiválií. Statistiky je možné uživatelsky vytvořit i pro určenou část archivu.

Tyto statistiky jsou využívány zejména v plánování činností pro zajištění dlouhodobé čitelnosti spravovaného informačního obsahu, ovlivňují i budoucí rozvoj AIS UK a plánování integrace jednotlivých softwarových nástrojů pro práci s objekty v konkrétních formátech.

S částí vytěžených informací (vybrané vlastnosti formátu, vybranými technickými metadaty) je v digitálním archivu dále pracováno jako s významnými (signifikantními) vlastnostmi (viz Transformational Information Property dle OAIS, https://ccsds.org/wp-content/uploads/gravity_forms/5-448e85c647331d9cbaf66c096458bdd5/2025/01//650x0m3.pdf page 1-17), které jsou důležité pro ověření zachování informační hodnoty digitálního objektu v procesu ochrany ohroženého informačního obsahu.

Realizace ochrany ohroženého informačního obsahu

Činnosti zajišťující udržení srozumitelnosti informačního obsahu v ohrožených digitálních objektech jsou připravovány na základě plánování, které vychází z analýzy, formátových statistik a informačního významu ohrožených digitálních objektů s ohledem na zájem určené komunity a možnosti jejího přístupu k informačnímu obsahu v ohrožených digitálních objektech.

K tomuto plánování dochází zpravidla jednou ročně, jeho závěry jsou zahrnuty do plánovaných činností v záznamech jednotlivých formátů ve formátové knihovně. Návrh plánu činností k udržení srozumitelnosti informačního obsahu na konkrétní časové období zpracovávají správci informačního obsahu a schvalují vedoucí archivu a projektový manažer.

Základním nástrojem archivu v této oblasti je v současné době formátová migrace, která je realizována ve formátovém modulu. Jde o proces, při kterém je informační obsah uloženého digitálního objektu převeden do nového digitálního objektu (nové reprezentace) a tento nový objekt (včetně příslušných metadat) je uložen do informačního balíčku archiválie.

Zajištění zachování informačního obsahu

Uživatel v rámci konkrétního procesu migrace volí vhodné softwarové nástroje pro digitální objekty v daném formátu. Součástí procesu je analýza výsledku vzorku migrace, při kterém je posuzována srozumitelnost, shoda informačního obsahu v novém digitálním objektu a zachování jeho dalších významných (signifikantních) vlastností. K tomu dochází porovnáním vybraných technických vlastností (metadat) původního a nového digitálního objektu nástroji digitálního archivu, individuálním posouzením obsaženého informačního obsahu uživatelem v původním a novém digitálním objektu.

Součástí procesu je formátová analýza nového digitálního objektu, jejíž výsledky dávají mimo jiné informaci o signifikantních vlastnostech nového objektu. Celý proces je na úrovni každého migrovaného objektu logován. Log s těmito záznamy je uživatelsky přístupný. Výsledek migrace je akceptován k uložení až po konečném schválení dalším uživatelem. Tím dojde ke vzniku nové verze informačního balíčku. V balíčku je vždy zachována výchozí reprezentace původního digitálního objektu a jeho metadat. Součástí dokumentace každé dávky realizace ochrany ohroženého informačního obsahu je zpráva o určení významných (signifikantních) vlastností původního digitálního objektu a ověření jejich zachování v novém digitálním objektu.

Způsob ověřování zachování významných (signifikantních) vlastností v průběhu procesu realizace ochrany ohroženého informačního obsahu byl navržen s ohledem na technické možnosti digitálního archivu a současný stav poznání. V důsledku očekováného prohlubování znalostí odborné komunity a rozvoje technických prostředků předpokládáme, že okruh sledovaných vlastností bude rozšiřován a budou zapojovány nástroje pro hromadné ověřování jejich zachování.

Otevřená architektura

Otevřená architektura formátového modulu umožňuje integraci dalších softwarových nástrojů pro migraci. Plánování těchto kroků je součástí přípravy pravidelných plánů na rozvoj systému. Obdobně otevřená architektura celého systému umožňuje integraci dalších metod pro zajištění dlouhodobé srozumitelnosti informačního obsahu uložených digitálních objektů, např. emulace historického software a jeho zpřístupnění určené komunitě.

Tým digitálního archivu sleduje vývoj v oblasti digitálního archivnictví s ohledem na nové metody pro zajištění dlouhodobé logické ochrany, potřeby určené komunity, vývoj nového software pro její zajištění, realizuje výzkum v této oblasti a výsledky této činnosti aplikuje v plánování rozvoje AIS.