.. _fm_user_analysis: Formátová analýza ================= Formátová analýza provádí detekci souborových formátů, validaci a extrakci technických metadat. Práce s workflow ---------------- Vytvoření nového workflow ......................... Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Postup: 1) V levém menu vyberte volbu "Vytvořit workflow". Otevře se editační formulář pro zadání metadat workflow. 2) Vyplňte metadata workflow a vyberte skript, podle kterého bude analýza probíhat. Zkontrolujte v popisu skriptu zobrazeném pod metadaty workflow, zda skript nemá nějaké povinné parametry. V takovém případě vyplňte i metadato "Parametry skriptu". Stiskněte tlačítko "Vytvořit". Je vytvořeno nové workflow. Vytvoření workflow přes akci vytvoření procesu ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ Postup: 1) V levém menu vyberte volbu "Vytvořit proces". Otevře se editační formulář pro zadání metadat procesu. 2) U metadata "Workflow" klikněte na text "Vytvořit nové workflow". Otevře se editační formulář pro zadání metadat workflow. 3) Vyplňte metadata workflow a vyberte skript, podle kterého bude analýza probíhat. Stiskněte tlačítko "Vytvořit". Je vytvořeno nové workflow. Vytvoření workflow kopií (úpravou stávajícího workflow) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ Postup: 1) Na detailu záznamu workflow stiskněte tlačítko "Vytvořit kopii". Otevře se editační formulář s vyplněnými metadaty podle vzorového workflow. 2) Upravte metadata a stiskněte tlačítko "Vytvořit". Je vytvořeno nové workflow. Vyhledání workflow .................. Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Postup: 1) V levém menu vyberte volbu "Seznam workflow". Zobrazí se seznam všech záznamů workflow v systému. 2) Vyhledávání můžete upřesnit: a) Při stisknutí tlačítka "Filtrovat" se zobrazí dialogové okno pro zadání parametrů dotazu. b) Vyplňte vyhledávací kritéria a stiskněte "Uložit" - zobrazí se seznam workflow odpovídající daným kritériím. c) Pokud chcete zrušit zpřesnění vyhledávání, klikněte na text "Zrušit všechny". 3) Můžete změnit výchozí nastavení zobrazených metadat ve výsledku vyhledávání: a) Klikněte na ozubené kolečko vpravo nad seznamem vyhledaných workflow. Zobrazí se dialogové okno "Nastavení sloupců". b) Zaškrtněte nebo odškrtněte požadované sloupce a klikněte na "Uložit". Zobrazí se sloupce dle výběru. 4) Klikněte na ikonu před názvem libovolného workflow. Zobrazí se detail daného workflow. Editace workflow ................ Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Postup: 1) Na detailu záznamu workflow stiskněte tlačítko "Editovat". Zobrazí se dialogové okno s editačním formulářem záznamu. 2) Změňte požadovanou hodnotu metadata. Tlačítkem "Uložit" potvrďte editaci záznamu. Je zobrazena informace, že změny byly úspěšně uloženy. Práce s procesy formátové analýzy --------------------------------- Stavový diagram procesu ....................... .. uml:: [*]-[#orange]->REGISTERED: Vytvořit proces REGISTERED -[#green]-> READING_ESM READING_ESM -[#green]-> RUNNING RUNNING -[#green]-> FINISHING RUNNING -[#orange,dashed]-> FINISHING: Ukončit FINISHING -[#green]-> FINISHED FINISHED -[#green]-> [*] Stavy procesu ^^^^^^^^^^^^^ * REGISTERED - Registrovaný - Proces je pouze založený v databázi. Neobsahuje žádné balíčky. * READING_ESM - Načítaný z ESM - Proces načítá dávku z ESM. Stavy balíčků: CREATED * RUNNING - Běžící - Proces běží, probíhá načítání a zpracovávání jeho balíčků. Stavy balíčků: CREATED, LOADING, PROCESSING, PROCESSED, PROCESSING_FAILED, DISPATCH_REQUESTED, DISPATCHING, DISPATCHED, CANCEL_REQUESTED, CANCELING, CANCELED * FINISHING - Ukončovaný - Probíhá ukončování procesu. Do tohoto stavu přejde proces buď automaticky po dokončení všech jeho balíčků a souborů nebo manuálně na vyžádání uživatele. Pokud ještě existují nedokončené balíčky a soubory, přecházejí postupně do CANCELED. Nakonec je smazán adresář procesu ve workspace a potvrzen konec procesu do ESM. Stavy balíčků: CREATED, LOADING, PROCESSING, PROCESSED, PROCESSING_FAILED, DISPATCH_REQUESTED, DISPATCHING, DISPATCHED, CANCEL_REQUESTED, CANCELING, CANCELED * FINISHED - Ukončený - Proces skončil. Všechny jeho balíčky a soubory jsou dokončené (DISPATCHED nebo CANCELED) Stavy balíčků: DISPATCHED, CANCELED Vytvoření procesu ................. Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Postup: 1) V levém menu vyberte volbu "Vytvořit proces". Otevře se editační formulář pro zadání metadat procesu. 2) Vyplňte metadato Číslo dávky, vyberte workflow a stiskněte tlačítko "Vytvořit". Je vytvořen nový proces. Zároveň jsou vytvořeny záznamy balíčků, které budou tímto procesem odbaveny. Balíčky se začnou ihned po vytvoření zpracovávat (probíhá u nich formátová analýza), a to tak, že se ihned zpracuje 20 balíčků. Jakmile budou některé balíčky odbaveny, zpracují se další balíčky do maximálního počtu 20 zpracovaných balíčků. 3) Vidíte metadata procesu a tabulku s balíčky k odbavení - u tabulky lze provádět filtrování, nastavování sloupců, rušení filtrů. Ihned po vytvoření záznamů se balíčky začnou zpracovávat - provádí se nad nimi formátová analýza. 4) V tabulce s balíčky k odbavení klikněte na ikonu před názvem libovolného balíčku. Zobrazí se detail daného balíčku. Vyhledání procesu ................. Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Vyhledání probíhajícího procesu ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ Postup: 1) V levém menu vyberte volbu "Probíhající procesy". Zobrazí se seznam všech záznamů procesů v systému, které jsou ve stavu "BĚŽÍCÍ". 2) Vyhledávání můžete upřesnit: a) Při stisknutí tlačítka "Filtrovat" se zobrazí dialogové okno pro zadání parametrů dotazu. b) Vyplňte vyhledávací kritéria a stiskněte "Uložit" - zobrazí se seznam procesů odpovídající daným kritériím. c) Pokud chcete zrušit zpřesnění vyhledávání, klikněte na text "Zrušit všechny". 3) Můžete změnit výchozí nastavení zobrazených metadat ve výsledku vyhledávání: a) Klikněte na ozubené kolečko vpravo nad seznamem vyhledaných procesů. Zobrazí se dialogové okno "Nastavení sloupců". b) Zaškrtněte nebo odškrtněte požadované sloupce a klikněte na "Uložit". Zobrazí se sloupce dle výběru. 4) Klikněte na ikonu před názvem libovolného procesu. Zobrazí se detail daného procesu. Vyhledání proběhlého procesu ^^^^^^^^^^^^^^^^^^^^^^^^^^^^ Postup: 1) V levém menu vyberte volbu "Proběhlé procesy". Zobrazí se seznam všech procesů v systému, které jsou ve stavu "UKONČENÝ". 2) Vyhledávání můžete upřesnit: a) Při stisknutí tlačítka "Filtrovat" se zobrazí dialogové okno pro zadání parametrů dotazu. b) Vyplňte vyhledávací kritéria a stiskněte "Uložit" - zobrazí se seznam procesů odpovídající daným kritériím. c) Pokud chcete zrušit zpřesnění vyhledávání, klikněte na text "Zrušit všechny". 3) Můžete změnit výchozí nastavení zobrazených metadat ve výsledku vyhledávání: a) Klikněte na ozubené kolečko vpravo nad seznamem vyhledaných procesů. Zobrazí se dialogové okno "Nastavení sloupců". b) Zaškrtněte nebo odškrtněte požadované sloupce a klikněte na "Uložit". Zobrazí se sloupce dle výběru. 4) Klikněte na ikonu před názvem libovolného procesu. Zobrazí se detail daného procesu. Ukončení procesu ................ Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Postup: 1) Na detailu záznamu procesu stiskněte tlačítko "Ukončit". Zobrazí se dialogové okno s upozorněním. 2) Potvrďte ukončení procesu stiskem tlačítka "Ano". Dojde k ukončení procesu. Stav procesu se změní na hodnotu "UKONČOVANÝ" a následně "UKONČENÝ". Stav balíčků zpracovávaných tímto procesem se změní na hodnotu "ODMÍTNUTÝ". Práce s balíčky --------------- Stavový diagram balíčku ....................... Stavový diagram balíčku bez ukončení procesu .. uml:: [*]-[#green]->CREATED CREATED -[#green]-> LOADING LOADING -[#green]-> PROCESSING PROCESSING -[#green]-> PROCESSED PROCESSING -[#green,dashed]-> PROCESSING_FAILED PROCESSED -up[#green,dashed]-> PROCESSING PROCESSING_FAILED -up[#green,dashed]-> PROCESSING PROCESSED -[#orange]-> DISPATCH_REQUESTED: Odbavit PROCESSED -[#orange,dashed]-> CANCEL_REQUESTED: Odmítnout PROCESSING_FAILED -[#orange,dashed]-> DISPATCH_REQUESTED: Odbavit PROCESSING_FAILED -[#orange,dashed]-> CANCEL_REQUESTED: Odmítnout DISPATCH_REQUESTED -[#green]-> DISPATCHING DISPATCHING -[#green]-> DISPATCHED DISPATCHING -up[#green,dashed]-> PROCESSED DISPATCHING -up[#green,dashed]-> PROCESSING_FAILED CANCEL_REQUESTED -[#green,dashed]-> CANCELING CANCELING -[#green,dashed]-> CANCELED CANCELED -[#green,dashed]->[*] DISPATCHED -[#green]->[*] Stavový diagram balíčku při ukončení procesu .. uml:: CREATED -[#green]-> CANCELING LOADING -[#green]-> CANCELING PROCESSING -[#green]-> CANCELING PROCESSED -[#green]-> CANCELING PROCESSING_FAILED -[#green]-> CANCELING DISPATCH_REQUESTED -[#green]-> CANCELING CANCEL_REQUESTED -[#green]-> CANCELING CANCELING -[#green]-> CANCELED DISPATCHING -[#green]-> DISPATCHED CANCELED -[#green]->[*] DISPATCHED -[#green]->[*] Stavy balíčku ^^^^^^^^^^^^^ * CREATED - Vytvořený - Pouze záznam v databázi Stavy souborů: CREATED * LOADING - Načítaný - Balíček se právě načítá z úložiště do pracovního prostoru. Stavy souborů: CREATED * PROCESSING - Zpracovávaný - Balíček je kompletně načtený, ale ne všechny jeho soubory jsou zpracované. Probíhá zpracování jeho souborů. Stavy souborů: LOADED, PROCESSING, PROCESSED, PROCESSING_FAILED * PROCESSED - Zpracovaný - Všechny soubory v balíčku jsou úspěšně zpracované. Stavy souborů: PROCESSED * PROCESSING_FAILED - K řešení - Všechny soubory v balíčku jsou úspěšně nebo neúspěšně zpracované. Alespoň jeden soubor je zpracován neúspěšně. Stavy souborů: PROCESSED, PROCESSING_FAILED * DISPATCH_REQUESTED - Čekající na odbavení - Bylo vyžádáno odbavení balíčku. Stavy souborů: PROCESSED, PROCESSING_FAILED * DISPATCHING - Odbavovaný - Probíhá odbavování balíčku. Modifikace souborů jsou odesílány do ESM. Stavy souborů: PROCESSED, PROCESSING_FAILED * DISPATCHED - Odbavený - Balíček byl odeslán do ESM. Soubory které byly odeslánu jsou ve stavu DISPATCHED, soubory, které odeslány nebyly jsou ve stavu CANCELED. Alespoň jeden soubor je ve stavu DISPATCHED. Stavy souborů: DISPATCHED, CANCELED * CANCEL_REQUESTED - Čekající na odmítnutí - Bylo vyžádáno odmítnutí balíčku. Stavy souborů: PROCESSED, PROCESSING_FAILED * CANCELING - Odmítaný - Probíhá odmítnutí balíčku, tedy jeho smazání ve workspace. Stavy souborů: PROCESSED, PROCESSING_FAILED * CANCELED - Odmítnutý - Balíček byl odmítnutý, žádná změna jeho souboru nebyla odeslána do ESM. Stavy souborů: CANCELED Zobrazení balíčku k odbavení ............................ Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Postup: 1) V levém menu vyberte volbu "Probíhající procesy", klikem na ikonu před číslem dávky odpovídajícího procesu si zobrazte detail procesu. 2) Na detailu záznamu procesu v tabulce s balíčky k odbavení klikněte na ikonu před názvem požadovaného balíčku. Zobrazí se detail daného balíčku - metadata týkající se balíčku a tabulka s modifikovanými soubory. Odbavení balíčku ................ Balíčky jsou ihned po vytvoření automaticky zpracovávány - je nad nimi prováděna formátová analýza. Po dokončení zpracování je možné balíčky odbavit, tj. odeslat je do systému ESM. Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Odbavení balíčku ručně ^^^^^^^^^^^^^^^^^^^^^^ Balíčky je možné odbavit hromadně nebo jednotlivě. Postup hromadného odbavení balíčků: 1) Na detailu záznamu procesu s tabulkou s balíčky k odbavení zaškrtněte checkbox u všech balíčků, které chcete odbavit (balíčky musí být ve stavu "ZPRACOVANÝ"). 2) Klikněte na tlačítko "Odbavit". Stav balíčků se postupně změní na hodnotu "ČEKAJÍCÍ NA ODBAVENÍ" a následně na "ODBAVENÝ". Zároveň se na hodnotu "ODBAVENÝ" změní i stav souborů daných balíčků. Balíčky jsou odbaveny. Postup odbavení balíčku jednotlivě: 1) Na detailu záznamu procesu s tabulkou s balíčky k odbavení klikněte na ikonu před názvem balíčku, který chcete odbavit (balíček musí být ve stavu "ZPRACOVANÝ"). Zobrazí se detail daného balíčku. 2) Klikněte na tlačíko "Odbavit". Stav balíčku se změní na hodnotu "ČEKAJÍCÍ NA ODBAVENÍ" a následně na "ODBAVENÝ". Zároveň se na hodnotu "ODBAVENÝ" změní i stav souborů daného balíčku. Balíček je odbaven. Odbavení balíčku automaticky ^^^^^^^^^^^^^^^^^^^^^^^^^^^^ Postup: 1) Na detailu záznamu procesu s tabulkou s balíčky k odbavení stiskněte tlačítko "Automaticky odbavit". Metadato "Režim odbavování" se změní na hodnotu "Automatický". Balíčky daného procesu, které jsou ve stavu "ZPRACOVANÝ", se začnou postupně odbavovat - jejich stav se bude měnit na "ODBAVENÝ". Zároveň u balíčků ve stavu "VYTVOŘENÝ" začne probíhat formátová analýza a jejich stav se změní na "ZPRACOVANÝ" a ve chvíli, kdy na ně přijde řada s odbavením, také na stav "ODBAVENÝ". 2) Všechny balíčky jsou postupně odbavovány - odesílány do systmu ESM. Po odbavení všech balíčků procesu se stav procesu změní na hodnotu "UKONČENÝ". Odmítnutí balíčků ................. Odeslání do systému ESM může být uživatelsky zrušeno, např. protože balíček není validní. Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Postup: 1) Na detailu záznamu procesu s tabulkou s balíčky k odbavení klikněte na ikonu před názvem balíčku, který chcete odmítnout (balíček musí být ve stavu "ZPRACOVANÝ"). Zobrazí se detail daného balíčku. 2) Klikněte na tlačíko "Odmítnout". Zobrazí se dialogové okno s upozorněním, zda chcete opravdu balíček odmítnout. 3) Potvrďte volbu stiskem tlačítka "Ano". Stav balíčku se změní na hodnotu "ODMÍTNUTÝ". Zároveň se na hodnotu "ODMÍTNUTÝ" změní i stav souborů daného balíčku. Balíček je odmítnut. Vyhledání zpracovaných balíčků .............................. Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Postup: 1) V levém menu vyberte volbu "Zpracované balíčky". Zobrazí se seznam všech balíčků v systému, které jsou ve stavu "ODBAVENÝ". 2) Vyhledávání můžete upřesnit: a) Při stisknutí tlačítka "Filtrovat" se zobrazí dialogové okno pro zadání parametrů dotazu. b) Vyplňte vyhledávací kritéria a stiskněte "Uložit" - zobrazí se seznam balíčků odpovídající daným kritériím. c) Pokud chcete zrušit zpřesnění vyhledávání, klikněte na text "Zrušit všechny". 3) Můžete změnit výchozí nastavení zobrazených metadat ve výsledku vyhledávání: a) Klikněte na ozubené kolečko vpravo nad seznamem vyhledaných balíčků. Zobrazí se dialogové okno "Nastavení sloupců". b) Zaškrtněte nebo odškrtněte požadované sloupce a klikněte na "Uložit". Zobrazí se sloupce dle výběru. 4) Klikněte na ikonu před názvem libovolného balíčku. Zobrazí se detail procesu, v rámci něhož byl balíček zpracovávaný. Práce se soubory ---------------- Stavový diagram souboru ....................... Stavový diagram souboru bez ukončení procesu .. uml:: [*] -[#green]-> CREATED CREATED -[#green]-> LOADED LOADED -[#green]-> PROCESSING PROCESSING -[#green]-> PROCESSED PROCESSING -[#green,dashed]-> PROCESSING_FAILED PROCESSED -[#green]-> DISPATCHED PROCESSED -[#green,dashed]-> CANCELED PROCESSED -[#orange,dashed]-> LOADED: Změnit workflow PROCESSING_FAILED -[#green,dashed]-> DISPATCHED PROCESSING_FAILED -[#green,dashed]-> CANCELED PROCESSING_FAILED -[#orange,dashed]-> LOADED: Změnit workflow DISPATCHED -[#green]-> [*] CANCELED -[#green,dashed]-> [*] Stavový diagram souboru při ukončení procesu .. uml:: CREATED -[#green]-> CANCELED LOADED -[#green]-> CANCELED PROCESSING -[#green]-> CANCELED PROCESSING_FAILED -[#green]-> CANCELED PROCESSED -[#green]-> CANCELED CANCELED -[#green]-> [*] DISPATCHED -[#green]-> [*] Stavy souboru ^^^^^^^^^^^^^ * CREATED - Vytvořený - Pouze záznam v databázi o existenci souboru. * LOADED - Načtený - Soubor se nachází ve workspace a může být zpracováván. * PROCESSING - Zpracovávaný - Soubor je aktuálně zpracovávaný * PROCESSED - Zpracovaný - Proběhllo úspěšné zpracování souboru. * PROCESSING_FAILED - K řešení - Zpracování souboru selhalo nebo obsahuje varování. * DISPATCHED - Odbavený - Změna souboru byla odeslána do ESM, soubor již ve workspace není. * CANCELED - Odmítnutý - Změna souboru nebyla odeslána do ESM, soubor již ve workspace není. Změna workflow souboru ...................... Předpoklady: - Uživatel je přihlášený ve Formátovém modulu - Analýza. - Uživatel má oprávnění Procesy formátové analýzy a migrace. Postup: 1) Na detailu záznamu balíčku vidíte tabulku s modifikovanými soubory. U jednoho ze souborů klikněte na ikonu tužky u metadata Workflow. Zobrazí se dialogové okno s možností změnit workflow. 2) Vyberte jiné workflow a změnu potvrďte tlačítkem "Spustit". V tabulce u souboru se změní hodnota pro použité workflow. Workflow se na souboru ihned spustí (stav souboru se změní na "NAČTENÝ", poté na "ZPRACOVÁVANÝ" a následně na "ZPRACOVANÝ"). Práce ve workspace ------------------ Ve výjimečných případech (například při selhání standardní formátové analýzy) může technicky zdatný uživatel přímo editovat soubory ve workspace a opravit výstupy formátové analýzy. Struktura pracovního prostoru ............................. Pracovní prostor obsahuje adrsáře pro jednotlivé procesy. Jméno adresáře procesu je dáno identifikací procesu. Uvnitř adresáře procesu jsou adresáře zpracovávaných balíčků. Jméno adresáře balíčku je dáno jeho id na úložišti. Adresář balíčku se skládá z následujících podadresářů: * input-files - Obsahuje vstupní soubory do formátové analýzy, * input-metadata - Obsahuje původní metadata souborů. * output-metadata - Obsahuje nová metadata souborů a log jejich zpracování. V adresářích je každý soubor pojmenován svým AIS ID (a_00...) s příslušnou příponou. Metadata jsou uvedena ve dvou souborech yml a xml. YML soubor má pevnou strukturu stejnou pro všechny typy souborů. XML soubor obsahuje obecná technická metadata závislá na formátu souboru umísťovaná do premis objectCharacteristicsExtension. Struktura YML souboru ..................... .. literalinclude:: analysis.yml :language: yaml Úpravy ve workspace ................... Úpravy je třeba provádět pod uživatelem ais. Po provedení úprav v adresáři output-metadata je třeba stisknout ve webovém rozhraní u změněného souboru tlačítko Aktualizovat z disku. Při provádění úprav je třeba dávat pozor na validitu yml a xml souborů. Například atribut version musí být typu string. Pokud do něj chceme zapsat verzi 1.10 musíme ji uvést do apostrofů \'1.10\', aby se nejednalo o číslo 1,1. Oproti tomu verzi 1.10.5 do apostrofů psát můžeme ale nemusíme. Viz definice yaml formátu. Podobně atribut value v identifiers nemůže obsahovat číselný identifikátor například 5 ale jen řetězcový identifikátor například \'5\'. Soubory můžeme upravovat také manuálním spouštěním scriptů. Skripty spouštíme jako uživatel ais pomocí následující šablony. .. code-block:: shell podman exec -w /opt/uk-ais-scriptlib uk-ais-scriptlib /opt/uk-ais-scriptlib/venv/bin/python3 -m ukaisscriptlib.scriptlib. Například: .. code-block:: shell podman exec -w /opt/uk-ais-scriptlib uk-ais-scriptlib /opt/uk-ais-scriptlib/venv/bin/python3 -m ukaisscriptlib.scriptlib.analyze --disableVeraPDF aa9d610c-316a-443e-9f05-be6a6981ffa6/00a831b9-1938-42f5-825d-c38213f81ff6 a_00320860_dok00001_f001_v00001