2.3. Zápis metadat

2.3.1. Obecné požadavky na metadata v informačním balíčku

Obecné požadavky na metadata vychází z E-ARK:CSIP:5.1. General requirements for metadata in a CSIP Information Package.

Stejně jako u ostatních částí této specifikace je hlavním hlediskem u metadat interoperabilita. Konkrétně se jedná o technickou interoperabilitu na vysoké úrovni a požadavky, které umožňují přípravu, přenos a příjem informačního balíčku bez ohledu na zapojené archivy nebo nástroje. Tyto požadavky zahrnují:

  • jednoznačnou identifikaci informačního balíčku a jeho komponent

  • validace informačního balíčku a jeho obsahu

  • zajištění věrohodnosti původu archivního informačního balíčku (viz archivní zákon č. 499/2004 Sb. §3, odst. 5)

  • zpřístupnění informačního obsahu balíčku.

Z technického hlediska se definuje specifikace pravidel pro metadata, a to tak, aby uživatelé pomocí nástrojů mohli:

  • procházet datové a metadatové komponenty v rámci balíčku;

  • ověřit, že při přenosu nebo dlouhodobém uchovávání nedošlo k poškození žádné komponenty (fixity information);

  • porozumět procesům při vytváření a dosavadním uchovávání balíčku (tj. metadata o původu a uchovávání);

  • porozumět, jakým způsobem je možné data v archivním balíčku zpřístupnit (tj. popisná metadata, případně jiné reprezentace).

Na rozdíl od specifikace E-ARK tato specifikace podrobněji určuje způsob uchovávání popisných i technických metadat, a to tak, aby je bylo možné přenášet mezi jednotlivými systémy a využívat je. Současně MUSÍ mezi předávajícím a přijímajícím systémem panovat na základě tohoto standardu důvěra ve správnost těchto předávaných metadat.

Základní požadavky na metadata jsou popsány pomocí METS. Ve standardu je přesně popsán způsob a rozsah použití jednotlivých prvků.

Pro účely této specifikace jsou rozlišovány následující typy metadat:

administrativní metadata

Zahrnují informace nezbytné pro zajištění dlouhodobého uchovávání v digitálním archivu, tj. jeho příslušnost k archivnímu souboru, způsob akvizice, informace o životním cyklu jeho částí, zajištění formátové ochrany a integrity dat.

popisná metadata

Poskytují podrobné informace o obsahu a kontextu digitálních objektů, což umožňuje uživatelům pochopit a efektivně využívat archivované materiály.

technická metadata

Metadata popisující technické vlastnosti a charakteristiky jednotlivých komponent tvořících datovou část archivního balíčku.

ostatní metadata

V závislosti na uchovávaném obsahu v rámci digitálního archivu, jeho vnitřní implementaci se mohou vyskytovat další typy metadat, například v souvislosti s právními otázkami, extrakcí obsahu jednotlivých datových komponent apod.

Tato specifikace upravuje způsob reprezentace vybrané podmnožiny metadat a definuje jejich výměnný formát.

2.3.2. Požadavky na používání metadat

Před podrobným popisem požadavků na používání METS a PREMIS je třeba zdůraznit některé obecné otázky týkající se metadat, které by měly být důsledně řešeny.

Používání identifikátorů

CZDAX-PMD0101: Pro identifikátory v rámci výměnného balíčku MUSÍ být využíváno UUID v definovaném tvaru včetně prefixu uuid-.

UUID se skládá z hexadecimálních znaků a pomlček (např. hodnota 906F4F12-BA52-4779-AE2C-178F9206111F), má pevnou datovou délku.

Jak METS, tak i další metadatové standardy hojně využívají datový typ XML ID (viz: https://www.w3.org/TR/xml-id/). Platné XML ID musí rovněž splňovat omezení NCName (viz: https://www.w3.org/TR/REC-xml-names/#NT-NCName), musí začínat písmenem nebo znakem podtržítka („_“) a nesmí obsahovat jiné znaky než písmena, číslice, pomlčky, podtržítka, tečky a některé rozšiřující a kombinované znaky. Hodnoty NCName a xml:id nemohou začínat číselnými znaky. Řešením je přidání předpony uuid- před hodnotu každého identifikátoru.

Příklad:

<dmdSec ID="uuid-906F4F12-BA52-4779-AE2C-178F9206111F" CREATED="2018-04-24T14:37:49.609+01:00">

Používání data a času

CZDAX-PMD0102: Schéma METS vyžaduje několik atributů CREATEDATE či LASTMODDATE, které se používají k zaznamenání časových údajů o vytvoření a změně souborů balíčků. Ačkoli jsou tyto atributy jednoduše pojmenovány DATE, ve skutečnosti se jedná o data ve schématu XML a musí obsahovat jak čas, tak datum. V mnoha případech nebudou mít implementátoři k dispozici přesný čas, pouze datum. V těchto případech se použije čas půlnoci a příslušné časové pásmo. Příklad: 2021-10-12T00:00:00+01:00.

Kontrolní součty

CZDAX-PMD0103: Pro každý datový a metadatový soubor vyjma kořenového METS.xml MUSÍ být uveden kontrolní součet. Kontrolní součet MUSÍ být vypočtený pomocí funkce SHA512.

Ve specifikaci E-ARK se obvykle vyžaduje požadavek na SHA256, v rámci tohoto standardu je závazné užití SHA512.

2.3.3. Rozsah metadat v informačním balíčku

V informačním balíčku jsou přenášena metadata vztahující se k celému balíčku, k jeho obsahu i ke konkrétní komponentě či její části.

CZDAX-PMD0201: Administrativní metadata MUSÍ být předávána ve formátu PREMIS, a to v souladu s technickými požadavky formulovanými v části Použití PREMIS. Typy předávaných administrativních metadat jsou:

  • Informace o balíčku, tj. informace o celém balíčku, jeho zařazení do archivní evidence, informace o souvisejících vnějších či vnitřních změnách v evidenci

  • Metadata o uchovávání, tj. informace o jednotlivých komponentách, jejich uchování, formátových migracích a dalších souvisejících událostech

CZDAX-PMD0202: Popisná metadata MUSÍ být předávána ve formátu EAD, dle profilu pro ČR.

Rozeznáváme následující typy popisných metadat archiválií:

Popisná metadata od původce

Popisná metadata předávaná původcem při přejímce do digitálního archivu, která jsou součástí prvotního SIP. Ukládají se společně s daty a nejsou uložena v samostatných metadatových strukturách balíčku. Jejich vymezení je provedeno v rámci jednotlivých formátů uchovávaných dat.

Inherentní archivní popis

Popisná metadata vycházející primárně z dat v digitálním archivu, metadat od původce, doplňujícího archivního popisu v rámci přejímky nebo při následných změnách AIP.

Kontextuální archivní popis

Archivní popis vzniklý při zpracování archiválií archiváři v software pro zpracování archiválií.