Differences between revisions 19 and 21 (spanning 2 versions)

Abstrakt

Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře.

Číslo jednací

Jednoznačným identifikátorem entity ( sady stránek ) přes všechny zpracovávané dávky je číslo jednací. Číslo jednací je 14-ti místný čiselný identifikátor.

Adresářová struktura

Základni rozděleni skenovaných souborů bude do adresařové struktury o třech úrovních.

 PRODUKTOVA_RADA
  DAVKA1 
    SADA_STRANEK1
    SADA_STRANEK2
    ...
  DAVKA2
    SADA_STRANEK1
    SADA_STRANEK2
    ...

PRODUKTOVA_RADA - adresář , reprezentující logické rozdělení skenování podle produktových řad ( smlouvy,škody určitého typu ).

DAVKA - jedna naskenovaná dávka

adresář obsahuje soubor description.xml , jeho formát definuje POSAM. V tomto souboru jsou uloženy atributy vzniklé při skenování, popisující tento proces, vytěžené atributy apod.
úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování) od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat

SADA_STRANEK - sada stranek se stejným číslem jednacím * název adresáře se sadou dokumentů formát: číslo jednací * adresář obsahuje: jednotlivé naskenované stránky a soubor docset.xml

Příklad adresářové struktury:

Následující příklad ukazuje strukturu jedné naskenované dávky. Dávka obsahuje dvě sady dokumentů ( 12345678901234 a 12345678901235 ). Dávka je již připravena ke zpracování, protože obsahuje soubor complete.

.../ProduktovaRadaX/davka00001/12345678901234/0000001.jpg
.../ProduktovaRadaX/davka00001/12345678901234/0000002.jpg
.../ProduktovaRadaX/davka00001/12345678901234/0000003.jpg
.../ProduktovaRadaX/davka00001/12345678901234/docset.xml
.../ProduktovaRadaX/davka00001/12345678901235/0000001.jpg
.../ProduktovaRadaX/davka00001/12345678901235/0000002.jpg
.../ProduktovaRadaX/davka00001/12345678901235/0000003.jpg
.../ProduktovaRadaX/davka00001/12345678901235/0000004.jpg
.../ProduktovaRadaX/davka00001/12345678901235/doxset.xml
.../ProduktovaRadaX/davka00001/description.xml
.../ProduktovaRadaX/davka00001/complete

V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů docset.xml Pokud kódová stránka není uvedena, standardně se rozumí kódování utf-8.

Příklad:

<?xml version="1.0"?>
<DocumentSet>
 <Document>
  <Attributes>
   <Attribute name="Document.type" value="ZP006" /> 
   <Attribute name="CJ" value="12345678901234" /> 
  </Attributes>
  <Files>
   <File name="00000001.jpg" mimeType="IMAGE/JPEG"/>
  </Files>
 </Document>
</DocumentSet>

<DocumentSet> může obsahovat libovolné množství <Document>
<Document> popisuje jeden dokument, obsahuje <Attributes> a <Files>
<Attributes> popisuje atributy dokumentu, obsahuje libovolné množství <Attribute>
<Files> popisuje jednu stránku, obsahuje libovolné množství <File>
<Attribute> obsahuje popis jednoho atributu dokumentu

Atribut

Význam

name

název atributu

value

hodnota atributu
<File> obsahuje popis jedné stránky

Atribut

Význam

name

název souboru s příslušnou stránkou

mimeType

mime typ stránky ( MIME/JPEG, MIME/TIFF)

Předávané atributy

Pro následné zpracování je nutné správné pojmenování atributů. V následující tabulce jsou popsány některé názvy atributů a jejich význam.

Atribut	Význam
Document.type	dokumentový typ
Posam......	další atributy vzniklé při skenování
Další atributy viz cmserver/2.xml

Poznámky

Všechny názvy souborů jsou case sensitive

Diskuze, dotazy atd.

Je dostačující dělení na dvě úrovně? Nemělo by existovat ještě další dělení např. podle datumu skenování?
Jakým způsobem se budou řešit “mrtvé adresáře” ( starší adresář, který neobsahuje soubor complete ) ?

-  ⇤ ← Revision 19 as of 2005-08-18 10:01:05 → 
  Size: 4146
  Editor: 10
  Comment:
+   ← Revision 21 as of 2005-08-18 10:05:26 → ⇥
  Size: 4386
  Editor: 10
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 30:
-SADA_STRANEK - sada stranek se stejným číslem jednacím
 název adresáře se sadou dokumentů 
 formát: 8 číslic (např. 00000001) 
   adresář obsahuje:
  jednotlivé naskenované stránky a soubor docset.xml
+SADA_STRANEK - sada stranek se stejným číslem jednacím 
* název adresáře se sadou dokumentů formát: číslo jednací 
* adresář obsahuje: jednotlivé naskenované stránky a soubor docset.xml
-Line 37:
+Line 34:
-Příklad adresářové struktury:
 Následující příklad ukazuje strukturu jedné naskenované dávky.
 Dávka obsahuje dvě sady dokumentů ( 00000001 a 00000002 ).
 Dávka je již připravena ke zpracování, protože obsahuje soubor complete.
+== Příklad adresářové struktury: ==
Následující příklad ukazuje strukturu jedné naskenované dávky. Dávka obsahuje dvě sady dokumentů ( 12345678901234 a 12345678901235 ). Dávka je již připravena ke zpracování, protože obsahuje soubor complete.
-Line 44:
+Line 38:
-.../ProduktovaRadaX/davka00001/00000001/0000001.jpg
.../ProduktovaRadaX/davka00001/00000001/0000002.jpg
.../ProduktovaRadaX/davka00001/00000001/0000003.jpg
.../ProduktovaRadaX/davka00001/00000001/docset.xml
.../ProduktovaRadaX/davka00001/00000002/0000001.jpg
.../ProduktovaRadaX/davka00001/00000002/0000002.jpg
.../ProduktovaRadaX/davka00001/00000002/0000003.jpg
.../ProduktovaRadaX/davka00001/00000002/0000004.jpg
.../ProduktovaRadaX/davka00001/00000002/doxset.xml
+.../ProduktovaRadaX/davka00001/12345678901234/0000001.jpg
.../ProduktovaRadaX/davka00001/12345678901234/0000002.jpg
.../ProduktovaRadaX/davka00001/12345678901234/0000003.jpg
.../ProduktovaRadaX/davka00001/12345678901234/docset.xml
.../ProduktovaRadaX/davka00001/12345678901235/0000001.jpg
.../ProduktovaRadaX/davka00001/12345678901235/0000002.jpg
.../ProduktovaRadaX/davka00001/12345678901235/0000003.jpg
.../ProduktovaRadaX/davka00001/12345678901235/0000004.jpg
.../ProduktovaRadaX/davka00001/12345678901235/doxset.xml
.../ProduktovaRadaX/davka00001/description.xml
-Line 56:
+Line 51:
+V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů docset.xml Pokud kódová stránka není uvedena, standardně se rozumí kódování utf-8.
-Line 57:
+Line 53:
-V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů
docset.xml
+Příklad:
-Line 66:
+Line 61:
+   <Attribute name="CJ" value="12345678901234" />
-Line 78:
+Line 74:

Wiki

Page

User