2.5. Použití PREMIS

Účelem tohoto dokumentu je popsat specifikaci způsobu uložení a předání metadat o uchovávání. Pro zaznamenání metadat o uchovávání je v souladu s E-ARK zvolen formát PREMIS.

Tento dokument definuje základní implementaci PREMIS, přičemž propracovanější implementace může a měla by být provedena v rámci implementace digitálního archivu a komponenty pro uchovávání dat. Specifikace by měla být rozšířena o další požadavky v souvislosti s uchováváním a péčí o digitální objekty, i když ty, které jsou zde představeny, jsou minimálním avšak solidním základem.

Účelem této specifikace je zachování pravosti a integrity digitálních objektů v digitálním úložišti. Neslouží k zjišťování informací o digitálních objektech pro jiný účel než k jejich uchovávání. Specifikace je určena k použití pro přenos do archivů a výměnu informací mezi různými systémy, které vyžadují metadata pro uchovávání digitálních objektů přenosu.

Způsob užití formátu PREMIS v E-ARK je rámcově popsán v samostatné specifikaci Použití PREMIS dle E-ARK. Tato specifikace vychází ideově z uvedeného dokumentu, avšak plně jej nahrazuje zde definovanými pravidly.

Hlavní případy užití formátu PREMIS jsou:

  • Zaznamenání původu archivního infromačního balíčku

  • Zaznamenání historie změn uložení balíčku v digitálním archivu, změny příslušnosti k archivnímu souboru a změny v pečujícím archivu.

  • Zaznamenání původu a vývoje všech datových komponent, které vytvářejí balíček, a to včetně migrace formátů

  • Zaznamenání informací o akcích a agentech souvisejících s dlouhodobým uchováváním (LTP) komponent jako jsou kontrolní součty, podrobné informace o jejich formátech

  • Zaznamenání informací o extrahovaných technických metadatech

Uvedené případy užití jsou definovány v této specifikaci. Další typy informací formou metadat je možné v PREMIS předávat jen v rámci individuálních rozšíření a nejsou součástí této specifikace.

Použití formátu PREMIS staví na jeho definovaném schématu a využívá slova z řízeného slovníku.

2.5.1. Způsob použití

CZDAX-PMS0101: Metadata o uchovávání MUSÍ být ve formátu PREMIS, verze 3.0.

CZDAX-PMS0102: Všechna relevantní metadata o uchovávání balíčku a vztahující se k jeho obsahu BY MĚLA být zahrnuta do metadat ve formátu PREMIS.

CZDAX-PMS0103: Popis typů (událostí, identifikátorů a dalších) v PREMIS MUSÍ být dle řízeného slovníku Řízený slovník typů událostí v PREMIS. Pokud je v řízeném slovníku uveden kód pro dané slovo a jeho popis, používá se kód.

Například pro lokální identifikátor (viz https://id.loc.gov/vocabulary/identifiers/local.html) z řízeného slovníku se použije hodnota local a nikoliv Locally defined identifier.

CZDAX-PMS0104: Metadata o uchovávání MOHOU být popsána v jednom nebo několika souborech. Popis událostí a objektů MUSÍ být jednoznačný a zcela shodná sémantická jednotka NESMÍ být uváděna opakovaně.

2.5.2. Identifikátory a jejich použití

V rámci metadat, resp. popisu objektů a událostí dochází k odkazování a propojování s objekty definovanými v rámci kořenového METS.xml.

Sémantická jednotka identifikátoru v PREMIS je tvořena jeho typem a hodnotou. Pro odkazování uvnitř balíčku se používá jako typ identifikátoru hodnota local (viz: https://id.loc.gov/vocabulary/identifiers/local.html) a uvede se hodnota identifikátoru dle Používání identifikátorů.

CZDAX-PMS0201: Identifikátory uvnitř balíčku MUSÍ být tvořeny uvedením typu identifikátoru s hodnotou local a jeho vlastní hodnotou. Tato musí být zcela shodná při použití v METS.xml i při použití v rámci PREMIS.

CZDAX-PMS0202: Pokud je v rámci zápisu metadat nutné odkazovat na celý objekt předávaného balíčku, MŮŽE být použita speciální hodnota identifikátoru _THIS. Tato hodnota zastupuje identifikátor celého balíčku. Jako typ identifikátoru se uvede local.

Příklad odkazů na celý balíček
<object xsi:type="file">
  <objectIdentifier>
    <objectIdentifierType>local</objectIdentifierType>
    <objectIdentifierValue>_THIS</objectIdentifierValue>
  </objectIdentifier>
  ...
</object>

CZDAX-PMS0203: Pro vzájemné odkazování z PREMIS (ať již z elementů událostí, či jiných odkazů) MUSÍ být pro danou komponentu, intelektuální entitu či metadatový soubor použit identifikátor, který je přímo uveden v METS.xml. Tj. v případech, kdy je možné <object> identifikovat pomocí více identifikátorů, použije se primárně ten z METS.xml.

2.5.3. Zápis datace

Ve vybraných sémantických jednotkách se uvádí čas a datum. Zejména se jedná o sémantickou jednotku u události eventDateTime, resp. element <eventDateTime>. V souladu s doporučením ve specifikaci PREMIS se uvádí strojově zpracovatelná hodnota. Samotná časová hodnota se uvádí ve formátu dle ISO 8601, a to buď formou samotné datace, nebo včetně času s možností uvedení časové zóny. Je možné reprezentovat časový interval, a to uvedením dvou hodnot oddělených lomítkem.

CZDAX-PMS0301: Datace MUSÍ být uváděna v souladu s definicí v tomto dokumentu. Pro uvedení samostatné hodnoty, resp. zápis horní či spodní meze intervalu se použije zápis datace dle ISO 8601.

CZDAX-PMS0302: Interval u datace MUSÍ být zapsán jako dvě datace oddělené lomítkem.

CZDAX-PMS0303: Uvedená přesnost datace archiválií a událostí MUSÍ odpovídat zjištěným faktům. Pokud je známa datace archiválií s přesností na den, tak NESMÍ být uvedena doplňující časová informace.

CZDAX-PMS0304: Pokud nelze za účelem zápisu události dataci zjistit a uvést správný časový rozsah, MUSÍ být uvedena speciální hodnota pro vyjádření nezjištěné datace, a to konstanta: NA. Jedná se o zkratku termínu Not Available.

Příklad uvádění datace
2020-10-12
2020-10-12T00:00:00+01:00
2020-10-12/2022-08-15
2020-10-12T00:00:00/2020-10-14T14:00:00

2.5.4. Reprezentace

Každá reprezentace je uvedena v souboru METS.xml (viz Použití METS). Pro odkazování na reprezentaci je možné používat přímo její příslušný identifikátor. Nastávají však situace, kdy jednotlivý PREMIS metadatový soubor vystupuje samostatně jako manifest obsahu balíčku (viz Informace o balíčku). Pro tyto případy je nutné mít možnost objekt reprezentace uvést formou intelektuální entity a tím zajistit samonosnost takového metadatového souboru. U reprezentace se uvede její identifikátor a název, resp. název složky, v níž je reprezentace uložena (např. submission). Volitelně je možné metadata reprezentace doplnit o jiné významné doplňující vlastnosti reprezentace.

CZDAX-PMS0401: Každá reprezentace, na níž je odkazováno v rámci PREMIS MŮŽE být také popsána v samostatném elementu <object> s uvedením typu representation, tj. v podobě: <object xsi:type="representation">.

CZDAX-PMS0402: Reprezentace popsaná samostatně v PREMIS MUSÍ mít identifikátor typu local se shodnou hodnotou jako v elementu <fileGrp> pro reprezentaci, viz CZDAX-PMT0502.

CZDAX-PMS0403: Reprezentace MUSÍ mít uveden název, který odpovídá názvu složky s reprezentací. Uvede se samotný název složky bez nadřazené složky representations.

Příklad reprezentace
<object xsi:type="representation">
  <objectIdentifier>
    <objectIdentifierType>local</objectIdentifierType>
    <objectIdentifierValue>uuid-a13c7fb3-caad-4505-8a3e-144fc6dca744</objectIdentifierValue>
  </objectIdentifier>
  <originalName>submission</originalName>
</object>

2.5.5. Událost

Události se zapisují pomocí sémantické jednotky event a odpovídajícího elementu <event>. Každá událost je identifikována svým lokálním identifikátorem. Povinně se uvádí typ události a datace. Na základě typu události je určen její charakter. Možné typy událostí, způsob jejich identifikace a hlavně význam každého typu jsou definovány v této specifikaci. Součástí definice jednotlivého typu události je také význam rolí napojených objektů a agentů.

CZDAX-PMS0501: Událost MUSÍ mít lokální identifikátor typu local a odpovídat svou strukturou způsobu deklarace lokálních identifikátorů (viz CZDAX-PMS0201).

CZDAX-PMS0502: V metadatových souborech SE NESMÍ uvádět jiné typy událostí než definované touto specifikací. Význam jednotlivých uvedených událostí MUSÍ být vždy v souladu s významem deklarovaným v této specifikaci. Role napojených objektů a agentů MUSÍ být vždy v souladu s touto specifikací, jiné typy rolí se NESMÍ uvádět.

2.5.6. Agent

Agenti se zapisují pomocí sémantické jednotky agent a odpovídajícího elementu <agent>. Každý agent je identifikován svým lokálním identifikátorem. Povinně se uvádí typ agenta (osoba, software apod.), jeho název a případně další doplňující identifikátory.

CZDAX-PMS0601: Agent MUSÍ mít lokální identifikátor typu local a odpovídat svou strukturou způsobu deklarace lokálních identifikátorů (viz CZDAX-PMS0201).

CZDAX-PMS0602: V metadatových souborech SE NESMÍ uvádět jiné typy agentů než ty definované v této specifikaci. Význam jednotlivých uvedených agentů MUSÍ být vždy v souladu s významem deklarovaným v této specifikaci.

Software

Počítačové programy a software jsou speciálním typem agentů. Tento typ agentů se používá pro dokumentaci vazby mezi aplikací a daným výstupem. Počítačový program se identifikuje svým názvem a verzí.

CZDAX-PMS0603: Každý agent MUSÍ mít uveden svůj název, resp. jméno. To se uvádí v elementu <agentName>. Agent typu software MUSÍ mít uveden právě jeden název. Jako název se uvede všeobecně známé označení aplikace nebo to, které aplikace sama používá při vytváření datových výstupů pro své vlastní označení.

CZDAX-PMS0604: Každý agent typu software MUSÍ mít určen typ. Typ agenta se uvádí v elementu <agentType> a musí mít hodnotu sof (viz: https://id.loc.gov/vocabulary/preservation/agentType/sof.html).

CZDAX-PMS0605: Každý agent typu software BY MĚL mít uvedeno označení verze, která byla použita. Pokud software pro označování verzí používá sémantické verzování, použije se přednostně tato hodnota. Pokud je například k dispozici jen označení datem sestavení, lze použít i takový údaj s cílem jednoznačně identifikovat použitou aplikaci a její verzi. Verze se uvádí v elementu <agentVersion>.

CZDAX-PMS0606: Součástí popisu agenta typu software MŮŽE BÝT nanejvýše jedna doplňující sémantická jednotka agentNote uvedená v elementu <agentNote>. V této jednotce je možné blíže určit použitý software, jeho verzi apod.

Příklad uvedení software
<agent>
  <agentIdentifier>
    <agentIdentifierType>local</agentIdentifierType>
    <agentIdentifierValue>uuid-18074e4a-05e5-492b-9a21-a650baca17c8</agentIdentifierValue>
  </agentIdentifier>
  <agentName>sha512sum (GNU coreutils)</agentName>
  <agentType>sof</agentType>
  <agentVersion>8.22</agentVersion>
</agent>

2.5.7. Řízený slovník

Pro vyjádření typů hodnot a vztahů se využívají konstanty definované v rámci specifikace PREMIS, resp. ty, které jsou součástí doporučených řízených slovníků pro jednotlivé sémantické jednotky. Pokud se vhodná hodnota v řízeném slovníku nevyskytuje, definuje tato metodika vlastní konstanty s pevným významem.

Následující tabulky poskytují jejich souhrnný přehled po jednotlivých typech objektů.

Objekty - doplňující řízený slovník (element <object>)

Sémantická jednotka

Název

Význam

objectIdentifierValue

_THIS

Odkaz na aktuální balíček. Používá se ve spojení s lokálním identifikátorem (local).

objectIdentifierType

AIP_ID

Identifikátor AIPu v digitálním archivu.

objectIdentifierType

INGESTION_ID
Identifikátor přejímky předané do digitálního archivu. Hodnota identifikátoru,
resp. jeho význam je specifický pro daný archiv, který vystupuje v roli přejímajícího.

objectIdentifierType

REFERENCE_NUMBER
Číslo jednací.

objectIdentifierType

CZ_NAD_VNEZ
Číslo vnější změny v evidenci NAD a aplikaci PEvA.

objectIdentifierType

CZ_NAD_VNIZ
Číslo vnitřní změny v evidenci NAD a aplikaci PEvA.

significantPropertiesType

AIP_VERSION

Identifikátor verze AIPu, využívá se pro určení shodnosti verzí, resp. aktuálnosti verze.

significantPropertiesType

AIP_SIZE

Volitelné vyjádření velikosti celého AIPu v bytech.

Události - doplňující řízený slovník (element <event>)

Sémantická jednotka

Název

Význam

linkingAgentRole

ORIGINATOR

Odkaz na původce archiválií.

linkingAgentRole

SUBMITTER

Odkaz na předávajícího.

linkingAgentRole

CURATOR

Odkaz na přejímající instituci.

eventOutcome

SUCCESS

Kontrola či událost dopadla úspěšně.

eventOutcome

VIRUS_THREAT

Nalezena virová hrozba.