7.4.3. Formátová analýza
Formátová analýza provádí detekci souborových formátů, validaci a extrakci technických metadat.
Práce s workflow
Vytvoření nového workflow
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Postup:
V levém menu vyberte volbu „Vytvořit workflow“. Otevře se editační formulář pro zadání metadat workflow.
Vyplňte metadata workflow a vyberte skript, podle kterého bude analýza probíhat. Zkontrolujte v popisu skriptu zobrazeném pod metadaty workflow, zda skript nemá nějaké povinné parametry. V takovém případě vyplňte i metadato „Parametry skriptu“. Stiskněte tlačítko „Vytvořit“. Je vytvořeno nové workflow.
Vytvoření workflow přes akci vytvoření procesu
Postup:
V levém menu vyberte volbu „Vytvořit proces“. Otevře se editační formulář pro zadání metadat procesu.
U metadata „Workflow“ klikněte na text „Vytvořit nové workflow“. Otevře se editační formulář pro zadání metadat workflow.
Vyplňte metadata workflow a vyberte skript, podle kterého bude analýza probíhat. Stiskněte tlačítko „Vytvořit“. Je vytvořeno nové workflow.
Vytvoření workflow kopií (úpravou stávajícího workflow)
Postup:
Na detailu záznamu workflow stiskněte tlačítko „Vytvořit kopii“. Otevře se editační formulář s vyplněnými metadaty podle vzorového workflow.
Upravte metadata a stiskněte tlačítko „Vytvořit“. Je vytvořeno nové workflow.
Vyhledání workflow
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Postup:
V levém menu vyberte volbu „Seznam workflow“. Zobrazí se seznam všech záznamů workflow v systému.
Vyhledávání můžete upřesnit:
Při stisknutí tlačítka „Filtrovat“ se zobrazí dialogové okno pro zadání parametrů dotazu.
Vyplňte vyhledávací kritéria a stiskněte „Uložit“ - zobrazí se seznam workflow odpovídající daným kritériím.
Pokud chcete zrušit zpřesnění vyhledávání, klikněte na text „Zrušit všechny“.
Můžete změnit výchozí nastavení zobrazených metadat ve výsledku vyhledávání:
Klikněte na ozubené kolečko vpravo nad seznamem vyhledaných workflow. Zobrazí se dialogové okno „Nastavení sloupců“.
Zaškrtněte nebo odškrtněte požadované sloupce a klikněte na „Uložit“. Zobrazí se sloupce dle výběru.
Klikněte na ikonu před názvem libovolného workflow. Zobrazí se detail daného workflow.
Editace workflow
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Postup:
Na detailu záznamu workflow stiskněte tlačítko „Editovat“. Zobrazí se dialogové okno s editačním formulářem záznamu.
Změňte požadovanou hodnotu metadata. Tlačítkem „Uložit“ potvrďte editaci záznamu. Je zobrazena informace, že změny byly úspěšně uloženy.
Práce s procesy formátové analýzy
Stavový diagram procesu
Stavy procesu
REGISTERED - Registrovaný - Proces je pouze založený v databázi. Neobsahuje žádné balíčky.
READING_ESM - Načítaný z ESM - Proces načítá dávku z ESM.
Stavy balíčků: CREATED
RUNNING - Běžící - Proces běží, probíhá načítání a zpracovávání jeho balíčků.
Stavy balíčků: CREATED, LOADING, PROCESSING, PROCESSED, PROCESSING_FAILED, DISPATCH_REQUESTED, DISPATCHING, DISPATCHED, CANCEL_REQUESTED, CANCELING, CANCELED
FINISHING - Ukončovaný - Probíhá ukončování procesu. Do tohoto stavu přejde proces buď automaticky po dokončení všech jeho balíčků a souborů nebo manuálně na vyžádání uživatele. Pokud ještě existují nedokončené balíčky a soubory, přecházejí postupně do CANCELED. Nakonec je smazán adresář procesu ve workspace a potvrzen konec procesu do ESM.
Stavy balíčků: CREATED, LOADING, PROCESSING, PROCESSED, PROCESSING_FAILED, DISPATCH_REQUESTED, DISPATCHING, DISPATCHED, CANCEL_REQUESTED, CANCELING, CANCELED
FINISHED - Ukončený - Proces skončil. Všechny jeho balíčky a soubory jsou dokončené (DISPATCHED nebo CANCELED)
Stavy balíčků: DISPATCHED, CANCELED
Vytvoření procesu
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Postup:
V levém menu vyberte volbu „Vytvořit proces“. Otevře se editační formulář pro zadání metadat procesu.
Vyplňte metadato Číslo dávky, vyberte workflow a stiskněte tlačítko „Vytvořit“. Je vytvořen nový proces. Zároveň jsou vytvořeny záznamy balíčků, které budou tímto procesem odbaveny. Balíčky se začnou ihned po vytvoření zpracovávat (probíhá u nich formátová analýza), a to tak, že se ihned zpracuje 20 balíčků. Jakmile budou některé balíčky odbaveny, zpracují se další balíčky do maximálního počtu 20 zpracovaných balíčků.
Vidíte metadata procesu a tabulku s balíčky k odbavení - u tabulky lze provádět filtrování, nastavování sloupců, rušení filtrů. Ihned po vytvoření záznamů se balíčky začnou zpracovávat - provádí se nad nimi formátová analýza.
V tabulce s balíčky k odbavení klikněte na ikonu před názvem libovolného balíčku. Zobrazí se detail daného balíčku.
Vyhledání procesu
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Vyhledání probíhajícího procesu
Postup:
V levém menu vyberte volbu „Probíhající procesy“. Zobrazí se seznam všech záznamů procesů v systému, které jsou ve stavu „BĚŽÍCÍ“.
Vyhledávání můžete upřesnit:
Při stisknutí tlačítka „Filtrovat“ se zobrazí dialogové okno pro zadání parametrů dotazu.
Vyplňte vyhledávací kritéria a stiskněte „Uložit“ - zobrazí se seznam procesů odpovídající daným kritériím.
Pokud chcete zrušit zpřesnění vyhledávání, klikněte na text „Zrušit všechny“.
Můžete změnit výchozí nastavení zobrazených metadat ve výsledku vyhledávání:
Klikněte na ozubené kolečko vpravo nad seznamem vyhledaných procesů. Zobrazí se dialogové okno „Nastavení sloupců“.
Zaškrtněte nebo odškrtněte požadované sloupce a klikněte na „Uložit“. Zobrazí se sloupce dle výběru.
Klikněte na ikonu před názvem libovolného procesu. Zobrazí se detail daného procesu.
Vyhledání proběhlého procesu
Postup:
V levém menu vyberte volbu „Proběhlé procesy“. Zobrazí se seznam všech procesů v systému, které jsou ve stavu „UKONČENÝ“.
Vyhledávání můžete upřesnit:
Při stisknutí tlačítka „Filtrovat“ se zobrazí dialogové okno pro zadání parametrů dotazu.
Vyplňte vyhledávací kritéria a stiskněte „Uložit“ - zobrazí se seznam procesů odpovídající daným kritériím.
Pokud chcete zrušit zpřesnění vyhledávání, klikněte na text „Zrušit všechny“.
Můžete změnit výchozí nastavení zobrazených metadat ve výsledku vyhledávání:
Klikněte na ozubené kolečko vpravo nad seznamem vyhledaných procesů. Zobrazí se dialogové okno „Nastavení sloupců“.
Zaškrtněte nebo odškrtněte požadované sloupce a klikněte na „Uložit“. Zobrazí se sloupce dle výběru.
Klikněte na ikonu před názvem libovolného procesu. Zobrazí se detail daného procesu.
Ukončení procesu
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Postup:
Na detailu záznamu procesu stiskněte tlačítko „Ukončit“. Zobrazí se dialogové okno s upozorněním.
Potvrďte ukončení procesu stiskem tlačítka „Ano“. Dojde k ukončení procesu. Stav procesu se změní na hodnotu „UKONČOVANÝ“ a následně „UKONČENÝ“. Stav balíčků zpracovávaných tímto procesem se změní na hodnotu „ODMÍTNUTÝ“.
Práce s balíčky
Stavový diagram balíčku
Stavový diagram balíčku bez ukončení procesu
Stavový diagram balíčku při ukončení procesu
Stavy balíčku
CREATED - Vytvořený - Pouze záznam v databázi
Stavy souborů: CREATED
LOADING - Načítaný - Balíček se právě načítá z úložiště do pracovního prostoru.
Stavy souborů: CREATED
PROCESSING - Zpracovávaný - Balíček je kompletně načtený, ale ne všechny jeho soubory jsou zpracované. Probíhá zpracování jeho souborů.
Stavy souborů: LOADED, PROCESSING, PROCESSED, PROCESSING_FAILED
PROCESSED - Zpracovaný - Všechny soubory v balíčku jsou úspěšně zpracované.
Stavy souborů: PROCESSED
PROCESSING_FAILED - K řešení - Všechny soubory v balíčku jsou úspěšně nebo neúspěšně zpracované. Alespoň jeden soubor je zpracován neúspěšně.
Stavy souborů: PROCESSED, PROCESSING_FAILED
DISPATCH_REQUESTED - Čekající na odbavení - Bylo vyžádáno odbavení balíčku.
Stavy souborů: PROCESSED, PROCESSING_FAILED
DISPATCHING - Odbavovaný - Probíhá odbavování balíčku. Modifikace souborů jsou odesílány do ESM.
Stavy souborů: PROCESSED, PROCESSING_FAILED
DISPATCHED - Odbavený - Balíček byl odeslán do ESM. Soubory které byly odeslánu jsou ve stavu DISPATCHED, soubory, které odeslány nebyly jsou ve stavu CANCELED. Alespoň jeden soubor je ve stavu DISPATCHED.
Stavy souborů: DISPATCHED, CANCELED
CANCEL_REQUESTED - Čekající na odmítnutí - Bylo vyžádáno odmítnutí balíčku.
Stavy souborů: PROCESSED, PROCESSING_FAILED
CANCELING - Odmítaný - Probíhá odmítnutí balíčku, tedy jeho smazání ve workspace.
Stavy souborů: PROCESSED, PROCESSING_FAILED
CANCELED - Odmítnutý - Balíček byl odmítnutý, žádná změna jeho souboru nebyla odeslána do ESM.
Stavy souborů: CANCELED
Zobrazení balíčku k odbavení
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Postup:
V levém menu vyberte volbu „Probíhající procesy“, klikem na ikonu před číslem dávky odpovídajícího procesu si zobrazte detail procesu.
Na detailu záznamu procesu v tabulce s balíčky k odbavení klikněte na ikonu před názvem požadovaného balíčku. Zobrazí se detail daného balíčku - metadata týkající se balíčku a tabulka s modifikovanými soubory.
Odbavení balíčku
Balíčky jsou ihned po vytvoření automaticky zpracovávány - je nad nimi prováděna formátová analýza. Po dokončení zpracování je možné balíčky odbavit, tj. odeslat je do systému ESM.
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Odbavení balíčku ručně
Balíčky je možné odbavit hromadně nebo jednotlivě.
Postup hromadného odbavení balíčků:
Na detailu záznamu procesu s tabulkou s balíčky k odbavení zaškrtněte checkbox u všech balíčků, které chcete odbavit (balíčky musí být ve stavu „ZPRACOVANÝ“).
Klikněte na tlačítko „Odbavit“. Stav balíčků se postupně změní na hodnotu „ČEKAJÍCÍ NA ODBAVENÍ“ a následně na „ODBAVENÝ“. Zároveň se na hodnotu „ODBAVENÝ“ změní i stav souborů daných balíčků. Balíčky jsou odbaveny.
Postup odbavení balíčku jednotlivě:
Na detailu záznamu procesu s tabulkou s balíčky k odbavení klikněte na ikonu před názvem balíčku, který chcete odbavit (balíček musí být ve stavu „ZPRACOVANÝ“). Zobrazí se detail daného balíčku.
Klikněte na tlačíko „Odbavit“. Stav balíčku se změní na hodnotu „ČEKAJÍCÍ NA ODBAVENÍ“ a následně na „ODBAVENÝ“. Zároveň se na hodnotu „ODBAVENÝ“ změní i stav souborů daného balíčku. Balíček je odbaven.
Odbavení balíčku automaticky
Postup:
Na detailu záznamu procesu s tabulkou s balíčky k odbavení stiskněte tlačítko „Automaticky odbavit“. Metadato „Režim odbavování“ se změní na hodnotu „Automatický“. Balíčky daného procesu, které jsou ve stavu „ZPRACOVANÝ“, se začnou postupně odbavovat - jejich stav se bude měnit na „ODBAVENÝ“. Zároveň u balíčků ve stavu „VYTVOŘENÝ“ začne probíhat formátová analýza a jejich stav se změní na „ZPRACOVANÝ“ a ve chvíli, kdy na ně přijde řada s odbavením, také na stav „ODBAVENÝ“.
Všechny balíčky jsou postupně odbavovány - odesílány do systmu ESM. Po odbavení všech balíčků procesu se stav procesu změní na hodnotu „UKONČENÝ“.
Odmítnutí balíčků
Odeslání do systému ESM může být uživatelsky zrušeno, např. protože balíček není validní.
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Postup:
Na detailu záznamu procesu s tabulkou s balíčky k odbavení klikněte na ikonu před názvem balíčku, který chcete odmítnout (balíček musí být ve stavu „ZPRACOVANÝ“). Zobrazí se detail daného balíčku.
Klikněte na tlačíko „Odmítnout“. Zobrazí se dialogové okno s upozorněním, zda chcete opravdu balíček odmítnout.
Potvrďte volbu stiskem tlačítka „Ano“. Stav balíčku se změní na hodnotu „ODMÍTNUTÝ“. Zároveň se na hodnotu „ODMÍTNUTÝ“ změní i stav souborů daného balíčku. Balíček je odmítnut.
Vyhledání zpracovaných balíčků
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Postup:
V levém menu vyberte volbu „Zpracované balíčky“. Zobrazí se seznam všech balíčků v systému, které jsou ve stavu „ODBAVENÝ“.
Vyhledávání můžete upřesnit:
Při stisknutí tlačítka „Filtrovat“ se zobrazí dialogové okno pro zadání parametrů dotazu.
Vyplňte vyhledávací kritéria a stiskněte „Uložit“ - zobrazí se seznam balíčků odpovídající daným kritériím.
Pokud chcete zrušit zpřesnění vyhledávání, klikněte na text „Zrušit všechny“.
Můžete změnit výchozí nastavení zobrazených metadat ve výsledku vyhledávání:
Klikněte na ozubené kolečko vpravo nad seznamem vyhledaných balíčků. Zobrazí se dialogové okno „Nastavení sloupců“.
Zaškrtněte nebo odškrtněte požadované sloupce a klikněte na „Uložit“. Zobrazí se sloupce dle výběru.
Klikněte na ikonu před názvem libovolného balíčku. Zobrazí se detail procesu, v rámci něhož byl balíček zpracovávaný.
Práce se soubory
Stavový diagram souboru
Stavový diagram souboru bez ukončení procesu
Stavový diagram souboru při ukončení procesu
Stavy souboru
CREATED - Vytvořený - Pouze záznam v databázi o existenci souboru.
LOADED - Načtený - Soubor se nachází ve workspace a může být zpracováván.
PROCESSING - Zpracovávaný - Soubor je aktuálně zpracovávaný
PROCESSED - Zpracovaný - Proběhllo úspěšné zpracování souboru.
PROCESSING_FAILED - K řešení - Zpracování souboru selhalo nebo obsahuje varování.
DISPATCHED - Odbavený - Změna souboru byla odeslána do ESM, soubor již ve workspace není.
CANCELED - Odmítnutý - Změna souboru nebyla odeslána do ESM, soubor již ve workspace není.
Změna workflow souboru
Předpoklady:
Uživatel je přihlášený ve Formátovém modulu - Analýza.
Uživatel má oprávnění Procesy formátové analýzy a migrace.
Postup:
Na detailu záznamu balíčku vidíte tabulku s modifikovanými soubory. U jednoho ze souborů klikněte na ikonu tužky u metadata Workflow. Zobrazí se dialogové okno s možností změnit workflow.
Vyberte jiné workflow a změnu potvrďte tlačítkem „Spustit“. V tabulce u souboru se změní hodnota pro použité workflow. Workflow se na souboru ihned spustí (stav souboru se změní na „NAČTENÝ“, poté na „ZPRACOVÁVANÝ“ a následně na „ZPRACOVANÝ“).
Práce ve workspace
Ve výjimečných případech (například při selhání standardní formátové analýzy) může technicky zdatný uživatel přímo editovat soubory ve workspace a opravit výstupy formátové analýzy.
Struktura pracovního prostoru
Pracovní prostor obsahuje adrsáře pro jednotlivé procesy. Jméno adresáře procesu je dáno identifikací procesu.
Uvnitř adresáře procesu jsou adresáře zpracovávaných balíčků. Jméno adresáře balíčku je dáno jeho id na úložišti.
Adresář balíčku se skládá z následujících podadresářů:
input-files - Obsahuje vstupní soubory do formátové analýzy,
input-metadata - Obsahuje původní metadata souborů.
output-metadata - Obsahuje nová metadata souborů a log jejich zpracování.
V adresářích je každý soubor pojmenován svým AIS ID (a_00…) s příslušnou příponou.
Metadata jsou uvedena ve dvou souborech yml a xml. YML soubor má pevnou strukturu stejnou pro všechny typy souborů. XML soubor obsahuje obecná technická metadata závislá na formátu souboru umísťovaná do premis objectCharacteristicsExtension.
Struktura YML souboru
format: # Výstup identifikace formátu
identifiers: # seznam - Seznam identifikátorů rozpoznaného formátu
- type: PRONOM # string Typ identifikátoru (PRONOM, FDD, CUSTOM)
value: fmt/17 # string Hodnota identifikátoru
- type: MIME
value: application/pdf
software:
name: Siegfried # string - Jméno nástroje, který identifikaci formátu provedl.
version: 1.10.1 # string - Verze nástroje, který identifikaci formátu provedl.
time: '2023-11-10T13:26:20.235020+01:00' # string - Datum a čas identifikace formátu v iso 8601 formátu.
validation: # Výstup validace
valid: false # boolean - Výstup validace.
messages: # seznam stringů - Zprávy upřesňující výstup validace.
- The value of Author entry from the document Info dictionary and its matching XMP
property dc:creator are not equivalent (Info /Author = Philip Hutchison, XMP dc:creator
= null)
- The document catalog dictionary doesn't contain metadata key.
- The value of Creator entry from the document Info dictionary and its matching
XMP property xmp:CreatorTool are not equivalent (Info /Creator = Pages, XMP xmp:CreatorTool
= null)
- The value of Producer entry from the document Info dictionary and its matching
XMP property pdf:Producer are not equivalent (Info /Producer = Mac OS X 10.5.4
Quartz PDFContext, XMP pdf:Producer = null)
- The value of Title entry from the document Info dictionary and its matching XMP
property dc:title['x-default'] are not equivalent (Info /Title = sample, XMP dc:title['x-default']
= null)
software:
name: VeraPDF # string - Jméno nástroje, který validaci provedl.
version: 1.24.1 # string - Verze nástroje, který validaci provedl.
time: '2023-11-10T13:26:22.835225+01:00' # string - Datum a čas validace v iso 8601 formátu.
tech: # Výstup extrakce technických metadat, samotná metadata jsou v xml souboru.
software:
name: ExifTool # string - Jméno nástroje, který extrakci metadat provedl.
version: '12.67' # string - Verze nástroje, který extrakci metadat provedl.
time: '2023-11-10T13:26:23.618642+01:00' # string - Datum a čas extrakce metadat v iso 8601 formátu.
error: '' # string - Chyba při zpracování, pokud není prázdné, zobrazí se uživateli a uživatel musí potvrdit odbavení balíčku.
warnings: # seznam stringů - Varování, pokud není prázdné, zobrazí se uživateli a uživatel musí potvrdit odbavení balíčku.
- Ručně upravováno
Úpravy ve workspace
Úpravy je třeba provádět pod uživatelem ais.
Po provedení úprav v adresáři output-metadata je třeba stisknout ve webovém rozhraní u změněného souboru tlačítko Aktualizovat z disku.
Při provádění úprav je třeba dávat pozor na validitu yml a xml souborů.
Například atribut version musí být typu string. Pokud do něj chceme zapsat verzi 1.10 musíme ji uvést do apostrofů '1.10', aby se nejednalo o číslo 1,1. Oproti tomu verzi 1.10.5 do apostrofů psát můžeme ale nemusíme. Viz definice yaml formátu.
Podobně atribut value v identifiers nemůže obsahovat číselný identifikátor například 5 ale jen řetězcový identifikátor například '5'.
Soubory můžeme upravovat také manuálním spouštěním scriptů.
Skripty spouštíme jako uživatel ais pomocí následující šablony.
podman exec -w /opt/uk-ais-scriptlib uk-ais-scriptlib /opt/uk-ais-scriptlib/venv/bin/python3 -m ukaisscriptlib.scriptlib.<soubor skriptu> <parametry skriptu> <adresář balíčku ve workspace> <AIS id souboru>
Například:
podman exec -w /opt/uk-ais-scriptlib uk-ais-scriptlib /opt/uk-ais-scriptlib/venv/bin/python3 -m ukaisscriptlib.scriptlib.analyze --disableVeraPDF aa9d610c-316a-443e-9f05-be6a6981ffa6/00a831b9-1938-42f5-825d-c38213f81ff6 a_00320860_dok00001_f001_v00001