4.6. Digitalizace

4.6.1. Import pomocí šablony

Import probíhá pomocí metadat uložených v souboru csv.

Předpoklady importu:

  • data obsahují jeden soubor csv s popisem naskenovaných dat všech archiválií

  • data jedné archiválie s naskenovanými obrázky jsou v samostatném adresáři

  • soubor csv je v kódování utf-8, první řádek obsahuje názvy sloupců

  • názvy sloupců jsou fixní

  • k naskenovanému souboru může existovat stejně pojmenovaný soubor s příponou exif.xml, který obsahuje metadata souboru

Název sloupce

Platnost

Povinnost

Význam

„ID archiválie“

Balíček

A

Identifikátor balíčku

„file name - vstup (s adresářem)“

Soubor

A

Cesta k souboru (v cestě je identifikátor balíčku)

„formátová skupina“

Soubor

A

LQ, HQ, LTP

„label“

Soubor

N

název souboru

„md5“

Soubor

A

md5 hash

„popis“

Balíček

N

název balíčku

„Číslo pomůcky“

Balíček

N

číslo archivní pomůcky

„ID jednotky popisu (JinyIdentifikator)“

Balíček

N

jiný identifikátor

„datace“

Soubor/B

N

datace souboru i balíčku,hodnota musí být stejná pro všechny soubory

„párování“

Soubor

A

spárování formátových skupin stejného souboru, navíc slouží k řazení

Příklad csv souboru s metadaty:

"ID archiválie","file name - vstup (s adresářem)","formátová skupina","label","md5","popis","Číslo pomůcky","ID jednotky popisu (JinyIdentifikator)","datace","párování"
"a_00000614","davka2/57_1_1_p00553.jpg","LQ","Strana 553","fabc6ed7621221f17573370b8ab43ec1","Doupov, katalogy","p_00000124","100","1818","57_1_1_p00553"
"a_00000614","davka2/57_1_1_p00562.jpg","LQ","Strana 562","0d6cadb318f07255abc9e16ca9489f6c","Doupov, katalogy","p_00000124","100","1818","57_1_1_p00562"
"a_00000614","davka2/57_1_1_p00569.jpg","LQ","Strana 569","8f11befd2b78ae76284d81acd20d98c0","Doupov, katalogy","p_00000124","100","1818","57_1_1_p00569"
"a_00000614","davka2/57_1_1_p00574.jpg","LQ","Strana 574","1b32309aa54f7c3a6edd78afe20fc3e5","Doupov, katalogy","p_00000124","100","1818","57_1_1_p00574"
"a_00000614","davka2/57_1_1_p00581.jpg","LQ","Strana 581","f9258c6ccada2d713e10c88e0ca330c5","Doupov, katalogy","p_00000124","100","1818","57_1_1_p00581"

Příklad odpovídajících dat nahraných do Výberu z UPL:

Obsah složky „Soubory“

Význam

vkladani_dat.csv

Soubor s metadaty

davka2

Adresář se soubory jedné archiválie

Algoritmus importu:

  1. najde se csv soubor a přečte se a zkontroluje

  2. prochází se zdrojové soubory (levá část UI složka „Soubory“) a pokud k adresáři existuje balíček se stejným identifikátorem, tak se provede import dat

  3. prochází se všechny soubory v rámci jedné složky a pokud k souboru existuje záznam v csv, tak se soubor přenese do balíčku (pravá část UI)

  4. pokud k souboru existuje soubor s metadaty, tak se metadata načtou a vyplní do databáze

  5. k přesunutému souboru se nastaví jeho groupId

  6. soubory jsou seřazeny podle hodnoty atributu „párování“

  7. vytvoří se protokol o importu

4.6.2. Import pomocí názvové konvence souborů

Předpoklady importu:

  • data jedné archiválie s naskenovanými obrázky jsou v samostatném adresáři pojmenovaném identifikátorem archiválie

  • v adresáři jsou soubory obsahující v názvu identifikátor archiválie, identifikátor dokumentu, identifikátor formátu a identifikátor verze

  • ke každému souboru musí existovat soubor s md5 součtem. Soubor má stejný název a příponu md5

Příklad vstupních dat nahraných do Výberu z UPL:

Obsah složky „Soubory“

Význam

a_00287938/a_00287938_dok00001_HQ_v00001.jpg

Digitalizát v HQ pro dokument 1, verze 1

a_00287938/a_00287938_dok00001_HQ_v00001.jpg.md5

md5 k předchozímu souboru

a_00287938/a_00287938_dok00002_LQ_v00001.jpg

Digitalizát v LQ pro dokument 2, verze 1

a_00287938/a_00287938_dok00002_LQ_v00001.jpg.md5

md5 k předchozímu souboru

Identifikátory formátu

Identifikátor formátu

Význam

fileGrp USE

HQ

Kopie ve vysoké kvalitě

HQ_COPY

LQ

Kopie v nízké kvalitě

LQ_COPY

LTP

Formátová verze (inkrementuje se číslo formátu)

LTP_COPY

Algoritmus importu:

  1. Prochází se adresáře pod složkou „Soubory“

  2. Pokud se pro adresář najde archiválie, která má id shodné s názvem adresáře začne se provádět import

  3. Provede se kontrola shody s md5 soubory

  4. Pro každý soubor se najde již existující soubor se stejným číslem dokumentu a verze a připojí se pod stejnou rodičovskou úroveň. Ze souboru, na který se páruje se přebere jeho jméno.

  5. Pokud soubor se stejným číslem dokumentu a verze neexistuje, tak se v případě, že verze je 1 vytvoří nová komponenta pod úrovní balíček

Příklad souboru tech.md

Příklad souboru tech.md: techmd.xml