2.3. Zápis metadat
2.3.1. Obecné požadavky na metadata v informačním balíčku
Obecné požadavky na metadata vychází z E-ARK:CSIP:5.1. General requirements for metadata in a CSIP Information Package.
Stejně jako u ostatních částí této specifikace je hlavním hlediskem u metadat interoperabilita. Konkrétně se jedná o technickou interoperabilitu na vysoké úrovni a požadavky, které umožňují přípravu, přenos a příjem informačního balíčku bez ohledu na zapojené archivy nebo nástroje. Tyto požadavky zahrnují:
jednoznačnou identifikaci informačního balíčku a jeho komponent
validace informačního balíčku a jeho obsahu
zajištění věrohodnosti původu archivního informačního balíčku (viz archivní zákon č. 499/2004 Sb. §3, odst. 5)
zpřístupnění informačního obsahu balíčku.
Z technického hlediska se definuje specifikace pravidel pro metadata, a to tak, aby uživatelé pomocí nástrojů mohli:
procházet datové a metadatové komponenty v rámci balíčku;
ověřit, že při přenosu nebo dlouhodobém uchovávání nedošlo k poškození žádné komponenty (fixity information);
porozumět procesům při vytváření a dosavadním uchovávání balíčku (tj. metadata o původu a uchovávání);
porozumět, jakým způsobem je možné data v archivním balíčku zpřístupnit (tj. popisná metadata, případně jiné reprezentace).
Na rozdíl od specifikace E-ARK tato specifikace podrobněji určuje způsob uchovávání popisných i technických metadat, a to tak, aby je bylo možné přenášet mezi jednotlivými systémy a využívat je. Současně MUSÍ mezi předávajícím a přijímajícím systémem panovat na základě tohoto standardu důvěra ve správnost těchto předávaných metadat.
Základní požadavky na metadata jsou popsány pomocí METS. Ve standardu je přesně popsán způsob a rozsah použití jednotlivých prvků.
Pro účely této specifikace jsou rozlišovány následující typy metadat:
- administrativní metadata
Zahrnují informace nezbytné pro zajištění dlouhodobého uchovávání v digitálním archivu, tj. jeho příslušnost k archivnímu souboru, způsob akvizice, informace o životním cyklu jeho částí, zajištění formátové ochrany a integrity dat.
- popisná metadata
Poskytují podrobné informace o obsahu a kontextu digitálních objektů, což umožňuje uživatelům pochopit a efektivně využívat archivované materiály.
- technická metadata
Metadata popisující technické vlastnosti a charakteristiky jednotlivých komponent tvořících datovou část archivního balíčku.
- ostatní metadata
V závislosti na uchovávaném obsahu v rámci digitálního archivu, jeho vnitřní implementaci se mohou vyskytovat další typy metadat, například v souvislosti s právními otázkami, extrakcí obsahu jednotlivých datových komponent apod.
Tato specifikace upravuje způsob reprezentace vybrané podmnožiny metadat a definuje jejich výměnný formát.
2.3.2. Požadavky na používání metadat
Před podrobným popisem požadavků na používání METS a PREMIS je třeba zdůraznit některé obecné otázky týkající se metadat, které by měly být důsledně řešeny.
Používání identifikátorů
CZDAX-PMD0101: Pro identifikátory v rámci výměnného balíčku MUSÍ být využíváno UUID v definovaném tvaru včetně
prefixu uuid-
.
UUID se skládá z hexadecimálních znaků a pomlček (např. hodnota 906F4F12-BA52-4779-AE2C-178F9206111F
),
má pevnou datovou délku.
Jak METS, tak i další metadatové standardy hojně využívají datový typ XML ID (viz: https://www.w3.org/TR/xml-id/). Platné XML ID musí rovněž splňovat omezení NCName (viz: https://www.w3.org/TR/REC-xml-names/#NT-NCName), musí začínat písmenem nebo znakem podtržítka („_“) a nesmí obsahovat jiné znaky než písmena, číslice, pomlčky, podtržítka, tečky a některé rozšiřující a kombinované znaky. Hodnoty NCName a xml:id nemohou začínat číselnými znaky. Řešením je přidání předpony uuid- před hodnotu každého identifikátoru.
Příklad:
<dmdSec ID="uuid-906F4F12-BA52-4779-AE2C-178F9206111F" CREATED="2018-04-24T14:37:49.609+01:00">
Používání data a času
CZDAX-PMD0102: Schéma METS vyžaduje několik atributů CREATEDATE
či LASTMODDATE
,
které se používají k zaznamenání časových údajů o vytvoření a změně souborů balíčků.
Ačkoli jsou tyto atributy jednoduše pojmenovány DATE
, ve skutečnosti se jedná o data
ve schématu XML a musí obsahovat jak čas, tak datum.
V mnoha případech nebudou mít implementátoři k dispozici přesný čas, pouze datum.
V těchto případech se použije čas půlnoci a příslušné časové pásmo. Příklad: 2021-10-12T00:00:00+01:00
.
Kontrolní součty
CZDAX-PMD0103: Pro každý datový a metadatový soubor vyjma kořenového METS.xml
MUSÍ být uveden kontrolní součet.
Kontrolní součet MUSÍ být vypočtený pomocí funkce SHA512.
Ve specifikaci E-ARK se obvykle vyžaduje požadavek na SHA256, v rámci tohoto standardu je závazné užití SHA512.
2.3.3. Rozsah metadat v informačním balíčku
V informačním balíčku jsou přenášena metadata vztahující se k celému balíčku, k jeho obsahu i ke konkrétní komponentě či její části.
CZDAX-PMD0201: Administrativní metadata MUSÍ být předávána ve formátu PREMIS, a to v souladu s technickými požadavky formulovanými v části Použití PREMIS. Typy předávaných administrativních metadat jsou:
Informace o balíčku, tj. informace o celém balíčku, jeho zařazení do archivní evidence, informace o souvisejících vnějších či vnitřních změnách v evidenci
Metadata o uchovávání, tj. informace o jednotlivých komponentách, jejich uchování, formátových migracích a dalších souvisejících událostech
CZDAX-PMD0202: Popisná metadata MUSÍ být předávána ve formátu EAD, dle profilu pro ČR.
Rozeznáváme následující typy popisných metadat archiválií:
- Popisná metadata od původce
Popisná metadata předávaná původcem při přejímce do digitálního archivu, která jsou součástí prvotního SIP. Ukládají se společně s daty a nejsou uložena v samostatných metadatových strukturách balíčku. Jejich vymezení je provedeno v rámci jednotlivých formátů uchovávaných dat.
- Inherentní archivní popis
Popisná metadata vycházející primárně z dat v digitálním archivu, metadat od původce, doplňujícího archivního popisu v rámci přejímky nebo při následných změnách AIP.
- Kontextuální archivní popis
Archivní popis vzniklý při zpracování archiválií archiváři v software pro zpracování archiválií.