4.6. Digitalizace
4.6.1. Import pomocí šablony
Import probíhá pomocí metadat uložených v souboru csv.
Předpoklady importu:
data obsahují jeden soubor csv s popisem naskenovaných dat všech archiválií
data jedné archiválie s naskenovanými obrázky jsou v samostatném adresáři
soubor csv je v kódování utf-8, první řádek obsahuje názvy sloupců
názvy sloupců jsou fixní
k naskenovanému souboru může existovat stejně pojmenovaný soubor s příponou exif.xml, který obsahuje metadata souboru
Název sloupce |
Platnost |
Povinnost |
Význam |
---|---|---|---|
„ID archiválie“ |
Balíček |
A |
Identifikátor balíčku |
„file name - vstup (s adresářem)“ |
Soubor |
A |
Cesta k souboru (v cestě je identifikátor balíčku) |
„formátová skupina“ |
Soubor |
A |
LQ, HQ, LTP |
„label“ |
Soubor |
N |
název souboru |
„md5“ |
Soubor |
A |
md5 hash |
„popis“ |
Balíček |
N |
název balíčku |
„Číslo pomůcky“ |
Balíček |
N |
číslo archivní pomůcky |
„ID jednotky popisu (JinyIdentifikator)“ |
Balíček |
N |
jiný identifikátor |
„datace“ |
Soubor/B |
N |
datace souboru i balíčku,hodnota musí být stejná pro všechny soubory |
„párování“ |
Soubor |
A |
spárování formátových skupin stejného souboru, navíc slouží k řazení |
Příklad csv souboru s metadaty:
"ID archiválie","file name - vstup (s adresářem)","formátová skupina","label","md5","popis","Číslo pomůcky","ID jednotky popisu (JinyIdentifikator)","datace","párování"
"a_00000614","davka2/57_1_1_p00553.jpg","LQ","Strana 553","fabc6ed7621221f17573370b8ab43ec1","Doupov, katalogy","p_00000124","100","1818","57_1_1_p00553"
"a_00000614","davka2/57_1_1_p00562.jpg","LQ","Strana 562","0d6cadb318f07255abc9e16ca9489f6c","Doupov, katalogy","p_00000124","100","1818","57_1_1_p00562"
"a_00000614","davka2/57_1_1_p00569.jpg","LQ","Strana 569","8f11befd2b78ae76284d81acd20d98c0","Doupov, katalogy","p_00000124","100","1818","57_1_1_p00569"
"a_00000614","davka2/57_1_1_p00574.jpg","LQ","Strana 574","1b32309aa54f7c3a6edd78afe20fc3e5","Doupov, katalogy","p_00000124","100","1818","57_1_1_p00574"
"a_00000614","davka2/57_1_1_p00581.jpg","LQ","Strana 581","f9258c6ccada2d713e10c88e0ca330c5","Doupov, katalogy","p_00000124","100","1818","57_1_1_p00581"
Příklad odpovídajících dat nahraných do Výberu z UPL:
Obsah složky „Soubory“ |
Význam |
---|---|
|
Soubor s metadaty |
|
Adresář se soubory jedné archiválie |
Algoritmus importu:
najde se csv soubor a přečte se a zkontroluje
prochází se zdrojové soubory (levá část UI složka „Soubory“) a pokud k adresáři existuje balíček se stejným identifikátorem, tak se provede import dat
prochází se všechny soubory v rámci jedné složky a pokud k souboru existuje záznam v csv, tak se soubor přenese do balíčku (pravá část UI)
pokud k souboru existuje soubor s metadaty, tak se metadata načtou a vyplní do databáze
k přesunutému souboru se nastaví jeho groupId
soubory jsou seřazeny podle hodnoty atributu „párování“
vytvoří se protokol o importu
4.6.2. Import pomocí názvové konvence souborů
Předpoklady importu:
data jedné archiválie s naskenovanými obrázky jsou v samostatném adresáři pojmenovaném identifikátorem archiválie
v adresáři jsou soubory obsahující v názvu identifikátor archiválie, identifikátor dokumentu, identifikátor formátu a identifikátor verze
ke každému souboru musí existovat soubor s md5 součtem. Soubor má stejný název a příponu md5
Příklad vstupních dat nahraných do Výberu z UPL:
Obsah složky „Soubory“ |
Význam |
---|---|
|
Digitalizát v HQ pro dokument 1, verze 1 |
|
md5 k předchozímu souboru |
|
Digitalizát v LQ pro dokument 2, verze 1 |
|
md5 k předchozímu souboru |
Identifikátory formátu
Identifikátor formátu |
Význam |
fileGrp USE |
---|---|---|
HQ |
Kopie ve vysoké kvalitě |
HQ_COPY |
LQ |
Kopie v nízké kvalitě |
LQ_COPY |
LTP |
Formátová verze (inkrementuje se číslo formátu) |
LTP_COPY |
Algoritmus importu:
Prochází se adresáře pod složkou „Soubory“
Pokud se pro adresář najde archiválie, která má id shodné s názvem adresáře začne se provádět import
Provede se kontrola shody s md5 soubory
Pro každý soubor se najde již existující soubor se stejným číslem dokumentu a verze a připojí se pod stejnou rodičovskou úroveň. Ze souboru, na který se páruje se přebere jeho jméno.
Pokud soubor se stejným číslem dokumentu a verze neexistuje, tak se v případě, že verze je 1 vytvoří nová komponenta pod úrovní balíček
Příklad souboru tech.md
Příklad souboru tech.md: techmd.xml