2.1. Principy

Metodika vychází z obecných principů, které jsou níže popsány. Tyto principy jsou dále rozvedeny formou jednotlivých pravidel.

2.1.1. Obecné principy

CZDAX-PPR0101: Balíček MUSÍ umožnit přenášet data, která jsou předmětem dlouhodobého uchovávání.

Výměnný archivní informační balíček je určen pro přenos dat mezi digitálními archivy realizovanými v souladu s normou OAIS. Balíček musí umožnit přenos dat, která jsou předmětem dlouhodobého uchovávání (LTP).

CZDAX-PPR0102: Formát balíčku MUSÍ být dle specifikace E-ARK.

Standard výměnného balíčku vychází z doporučení pracovní skupiny DILCIS, zejména z publikovaných specifikací pro formát balíčku E-ARK. Vycházíme ze specifikace E-ARK dostupné k polovině roku 2024 (verze 2.2.0, May 17, 2024), konkrétní verze jednotlivých částí specifikace jsou uvedeny v kapitole specifikace E-ARK.

Pokud dochází k odlišnosti mezi doporučením E-ARK a touto specifikací, má přednost podoba formátu v této specifikaci.

CZDAX-PPR0103: Formát balíčku MUSÍ respektovat principy uvedené ve specifikaci E-ARK.

Způsob uložení dat respektuje principy definované v části 3 General principles specifikace E-ARK.

CZDAX-PPR0104: Pravidla a doporučení specifikace E-ARK BY MĚLA být v maximální míře respektována.

Pokud to je možné, jsou v maximální míře využívána pravidla ze specifikace E-ARK. Pokud to není možné, je pravidlo příslušným způsobem upraveno a definováno pro potřeby této specifikace.

CZDAX-PPR0105: Specifikace MUSÍ být jednoznačná a určitá.

Specifikace je určena pro přenos balíčků dat mezi digitálními archivy. V tomto smyslu musí zaručovat přenos dat plně definovaným způsobem, a to při zachování jejich významu a zajištění shodného výkladu přenosového formátu.

CZDAX-PPR0106: MUSÍ být definována místa rozšiřitelnosti pro předávání doplňujících metadat a reprezentací nad rámec základních.

Předávající strana má možnost, po dohodě s přejímající stranou, doplnit předávaná data o další doplňující informace. Těmi mohou být jiné reprezentace dat, rozšířená podoba metadat apod. Toto doplnění musí být realizováno definovaným způsobem.

2.1.2. Identifikace informačních balíčků

CZDAX-PPR0201: Předávaný balíček MUSÍ být označen jako AIP.

Specifikace E-ARK nedefinuje transportní podobu balíčku, definuje společnou část a je dále specializována pro SIP, AIP a DIP. Balíček sám o sobě je ucelený a samonosný. Současně jeho datová podoba má nejblíže specifikaci pro AIP.

CZDAX-PPR0202: Každý balíček MUSÍ mít určený a rozpoznatelný typ informačního obsahu.

Informační obsah přenášený v balíčku je vždy určitého typu. Tento typ musí být uveden. Pro každý přenášený typ informačního obsahu je definována samostatná specifikace, která podrobněji určuje jeho vnitřní strukturu a vlastnosti. V rámci tohoto standardu jsou definovány tyto typy informačního obsahu:

CZDAX-PPR0203: Každý předávaný balíček MUSÍ mít jednoznačný identifikátor ve formátu UUID dle RFC 4122, verze 4.

Identifikátor předávaného balíčku musí být jednoznačný a nezaměnitelný. Takové vlastnosti má UUID. S jeho pomocí lze jednoznačně identifikovat každý přenášený balíček. Identifikátory je možné dále používat v předávacích protokolech, při validaci balíčků apod. UUID je verze 4 (dle RFC 4122#section-4.1.3), tj. jedná se o náhodný nebo pseudo-náhodně generovaný identifikátor.

2.1.3. Struktura balíčku (principy)

Struktura balíčku vychází ze základních premis formulovaných v kapitole „3.3. Structure of the Information Package“ standardu E-ARK:CSIP. Nad rámec tam definovaných principů jsou doplněny následující:

CZDAX-PPR0301: Balíčky MUSÍ být samostatné.

Jednotlivé balíčky jsou samostatné a neobsahují vazby na jiné balíčky archiválií s výjimkou popisných metadat. Přímo související informace je nutné předávat v rámci jednoho balíčku. Například metadata spisu ze spisové služby a související dokumenty je nutné předávat formou jednoho balíčku.

CZDAX-PPR0302: Struktura balíčku MUSÍ být srozumitelná i bez použití technických nástrojů.

Struktura balíčku MUSÍ být srozumitelná, a to i bez použití specializovaných nástrojů. XML dokumenty BY MĚLY být vhodným způsobem formátovány. Metadata NESMÍ být kódována a uchovávána nestandardním způsobem. Data v balíčku NESMÍ být dodatečně šifrována, jejich ochranu je nutné řešit na úrovni přenosového protokolu.

CZDAX-PPR0303: Balíčky MUSÍ mít technicky zpracovatelnou velikost balíčků.

Výchozí limit pro maximální velikost balíčku je stanoven na 10 GB. Výchozí limit pro velikost metadatového souboru je 10 MB.

Balíčky do uvedených velikostí a velikosti souborů musí být přijímající systém připraven zpracovat bez dodatečných opatření. Velikost limitu lze dle dohody stran navýšit.

CZDAX-PPR0304: Balíčky MUSÍ mít technicky zpracovatelné množství souborů.

Výchozí limit pro balíček je stanoven na 50 000 souborů. Tj. balíčky do tohoto počtu souborů musí být přijímající systém připraven zpracovat bez dodatečných opatření. Velikost limitu lze dle dohody stran navýšit.

CZDAX-PPR0305: Metadata reprezentací MUSÍ být uvedena na kořenové úrovni ve složce metadata.

Metadata reprezentací jsou uchovávána přímo na kořenové úrovni. Důvodem je jednodušší struktura balíčku, dostupnost všech identifikátorů na jednom místě a možnost přímé identifikace jejich vzájemných vazeb.

V případě individuální dohody mezi archivy o předání jiných reprezentací je možné metadata takovýchto rozšiřujících reprezentací uvést na úrovni reprezentace.

@startwbs
* Balíček (AIP)
** metadata
*** descriptive
*** preservation
** representations
--- submission
**** data
+++ migration...
**** data
** schemas
** documentation
@endwbs

Struktura balíčku

CZDAX-PPR0306: Fyzická struktura balíčku MUSÍ odpovídat logické podobě balíčku.

Na základě principů 3.1 – 3.5 popsaných E-ARK:CSIP je vytvořena logická podoba balíčku a požadavky na ní kladené. Fyzická reprezentace balíčku, tj. rozdělení do složek, jejich pojmenování a obsah musí přímo odpovídat této logické struktuře, jak je definována v rámci E-ARK. Například jednotlivé reprezentace, resp. jejich složky jsou uloženy přímo ve složce pojmenované representations a není nutné dále definovat mapování logické složky representations na její fyzický název.

CZDAX-PPR0307: Odkazy na soubory MUSÍ přesně odpovídat fyzickým názvům souborů včetně velikosti písmen.

Pokud jsou uváděny názvy souborů a cest v metadatových souborech, tak se musí uvádět velká a malá písmena v názvech souborů shodně s jejich reprezentací na disku.

CZDAX-PPR0308: Balíček BY NEMĚL obsahovat soubory a složky, jejichž názvy se vzájemně liší jen velikostí písmen.

Téměř shodně pojmenované soubory se od sebe špatně odlišují a není možné je na některé souborové systémy uložit. Je vhodné se těmto situacím vyhnout, soubory přejmenovat a původní název uchovat v rámci metadatového popisu.

2.1.4. Formát metadat

CZDAX-PPR0401: Soubory s metadaty MUSÍ být samostatné bez vnoření.

Metadata jsou obvykle uložena v souborech ve formátu XML. Vytváření komplexních XML souborů, jejich validace a kontrola je složitější než v případě samostatných datových souborů.

CZDAX-PPR0402: Pro metadata MUSÍ být využívány oborové standardy.

Metadata jsou uchovávána v k tomu určených datových formátech. Zejména se jedná o formáty METS, PREMIS, EAD 3. Popisná archivní metadata se zapisují ve standardu EAD 3 dle jeho českého profilu (Profil EAD pro ČR), metadata o uchování se zapisují ve standardu PREMIS v rozsahu definovaném v této a návazných specifikacích.

CZDAX-PPR0403: Metadata v informačním balíčku MUSÍ umožňovat jednoznačný výklad.

CZDAX-PPR0404: Na všechny datové komponenty a intelektuální entity uchovávané v informačním balíčku MUSÍ být možné se odkázat v rámci archivního popisu.

Archivní popis je možné přidávat k jednotlivým komponentám, které jsou v balíčku uchovány nebo k jejich logickým celkům, tzv. intelektuálním entitám. Tyto vyšší celky jsou popsány v podobě logické strukturální mapy.