Abstrakt

Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře.

Číslo jednací

Jednoznačným identifikátorem entity ( sady stránek ) přes všechny zpracovávané dávky je číslo jednací. Číslo jednací je 14-ti místný čiselný identifikátor.

Adresářová struktura

Základni rozděleni skenovaných souborů bude do adresařové struktury o třech úrovních.

 PRODUKTOVA_RADA
  DAVKA1 
    SADA_STRANEK1
    SADA_STRANEK2
    ...
  DAVKA2
    SADA_STRANEK1
    SADA_STRANEK2
    ...

PRODUKTOVA_RADA - adresář , reprezentující logické rozdělení skenování podle produktových řad ( smlouvy,škody určitého typu ).

DAVKA - jedna naskenovaná dávka

adresář obsahuje soubor description.xml , jeho formát definuje POSAM. V tomto souboru jsou uloženy atributy vzniklé při skenování, popisující tento proces, vytěžené atributy apod.
úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování) od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat

SADA_STRANEK - sada stranek se stejným číslem jednacím * název adresáře se sadou dokumentů formát: číslo jednací * adresář obsahuje: jednotlivé naskenované stránky a soubor docset.xml

Příklad adresářové struktury:

Následující příklad ukazuje strukturu jedné naskenované dávky. Dávka obsahuje dvě sady dokumentů ( 12345678901234 a 12345678901235 ). Dávka je již připravena ke zpracování, protože obsahuje soubor complete.

.../ProduktovaRadaX/davka00001/12345678901234/0000001.jpg
.../ProduktovaRadaX/davka00001/12345678901234/0000002.jpg
.../ProduktovaRadaX/davka00001/12345678901234/0000003.jpg
.../ProduktovaRadaX/davka00001/12345678901234/docset.xml
.../ProduktovaRadaX/davka00001/12345678901235/0000001.jpg
.../ProduktovaRadaX/davka00001/12345678901235/0000002.jpg
.../ProduktovaRadaX/davka00001/12345678901235/0000003.jpg
.../ProduktovaRadaX/davka00001/12345678901235/0000004.jpg
.../ProduktovaRadaX/davka00001/12345678901235/docset.xml
.../ProduktovaRadaX/davka00001/description.xml
.../ProduktovaRadaX/davka00001/complete

Formát souborů

docset.xml

V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů docset.xml Pokud kódová stránka není uvedena, standardně se rozumí kódování utf-8.

Příklad:

<?xml version="1.0"?>
<DocumentSet>
 <Document>
  <Attributes>
   <Attribute name="Document.type" value="ZP006" /> 
   <Attribute name="CJ" value="12345678901234" /> 
  </Attributes>
  <Files>
   <File name="00000001.jpg" mimeType="IMAGE/JPEG"/>
  </Files>
 </Document>
</DocumentSet>

<DocumentSet> může obsahovat libovolné množství <Document>
<Document> popisuje jeden dokument, obsahuje <Attributes> a <Files>
<Attributes> popisuje atributy dokumentu, obsahuje libovolné množství <Attribute>
<Files> popisuje jednu stránku, obsahuje libovolné množství <File>
<Attribute> obsahuje popis jednoho atributu dokumentu

Atribut

Význam

name

název atributu

value

hodnota atributu
<File> obsahuje popis jedné stránky

Atribut

Význam

name

název souboru s příslušnou stránkou

mimeType

mime typ stránky ( MIME/JPEG, MIME/TIFF)

Rozšířený formátu docset.xml je dostupný zde: [WWW] http://frnk.lightcomp.cz/lcdevel/SpecifikaceTahitiDamisUlozeniDat, část Popis spisu

Předávané atributy

Pro následné zpracování je nutné správné pojmenování atributů. V následující tabulce jsou popsány některé názvy atributů a jejich význam.

Atribut	Význam
Document.type	dokumentový typ
Golem.Area	produktová oblast
Scan.BatchId	identifikátor dávky - jednoznačný
Scan.Prepare	přípravář spisu
Scan.Operate	uživatel provádějící skenování
Scan.Date	datum skenování - dd.mm.yyyy
Scan.Time	čas skenování(vytvoření dávky) - hh:mm
Damis.Priority	priorita zobrazeni ve stromu, číslo z intervalu 0..100, 100 je největší priorita, defaultní hodnota 0 (pokud atribut není použit)
Damis.InputFilter	použití vstupních filtrů a filtrů při otevření souboru, hodnotou jsou flagy prevedene na decimální číslo. Flag na pozici nula určuje použití vstupního filtru 0-fitr se nepoužije, 1-filtr se použije, defaultní hodnota 0. Flag na pozici jedna určuje použití filtru při otevření souboru 0-fitr se nepoužije, 1-filtr se použije, defaultní hodnota 0. Př. 0 - nepoužije se ani vstupní filtr ani filtr při otevření souboru, 3 - použije se vstupní filtr i filtr při otevření souboru.
Damis.CheckPages	1 - nutí uživatele zobrazit všechny stránky v rámci dokumentu, 0 - uživatel nemusí zobrazit každou stránku (defaultní hodnota 0)
Damis.AllowExport	umožnění exportu souborů (0 - zakázáno, 1 - povoleno)
Damis.AllowDelete	umožnění mazání dokumentů z Damisu (1 - povoleno, jinak zakázáno)
Atributy dokumentu viz cmserver2.xml

Povinné atributy:

číslo jednací - název atributu je určen definicí v cmserver2.xml
atributy skenovací linky označené jako Scan.

description.xml

Soubor obsahuje globální atributy popisující celou dávku, např. příslušnost dávky do krabice (údaj pro spisovou službu) a také obsah všech jednotlivých docset.xml uložených v dávce.