Differences between revisions 17 and 19 (spanning 2 versions)

Abstrakt

Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře.

Číslo jednací

Jednoznačným identifikátorem entity ( sady stránek ) přes všechny zpracovávané dávky je číslo jednací. Číslo jednací je 14-ti místný čiselný identifikátor.

Adresářová struktura

Základni rozděleni skenovaných souborů bude do adresařové struktury o třech úrovních.

 PRODUKTOVA_RADA
  DAVKA1 
    SADA_STRANEK1
    SADA_STRANEK2
    ...
  DAVKA2
    SADA_STRANEK1
    SADA_STRANEK2
    ...

PRODUKTOVA_RADA - adresář , reprezentující logické rozdělení skenování podle produktových řad ( smlouvy,škody určitého typu ).

DAVKA - jedna naskenovaná dávka

adresář obsahuje soubor description.xml , jeho formát definuje POSAM. V tomto souboru jsou uloženy atributy vzniklé při skenování, popisující tento proces, vytěžené atributy apod.
úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování) od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat

SADA_STRANEK - sada stranek se stejným číslem jednacím

název adresáře se sadou dokumentů formát: 8 číslic (např. 00000001) adresář obsahuje:
- jednotlivé naskenované stránky a soubor docset.xml

Příklad adresářové struktury:

Následující příklad ukazuje strukturu jedné naskenované dávky. Dávka obsahuje dvě sady dokumentů ( 00000001 a 00000002 ). Dávka je již připravena ke zpracování, protože obsahuje soubor complete.

.../ProduktovaRadaX/davka00001/00000001/0000001.jpg
.../ProduktovaRadaX/davka00001/00000001/0000002.jpg
.../ProduktovaRadaX/davka00001/00000001/0000003.jpg
.../ProduktovaRadaX/davka00001/00000001/docset.xml
.../ProduktovaRadaX/davka00001/00000002/0000001.jpg
.../ProduktovaRadaX/davka00001/00000002/0000002.jpg
.../ProduktovaRadaX/davka00001/00000002/0000003.jpg
.../ProduktovaRadaX/davka00001/00000002/0000004.jpg
.../ProduktovaRadaX/davka00001/00000002/doxset.xml
.../ProduktovaRadaX/davka00001/complete

V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů docset.xml

<?xml version="1.0"?>
<DocumentSet>
 <Document>
  <Attributes>
   <Attribute name="Document.type" value="ZP006" /> 
  </Attributes>
  <Files>
   <File name="00000001.jpg" mimeType="IMAGE/JPEG"/>
  </Files>
 </Document>
</DocumentSet>

<DocumentSet> může obsahovat libovolné množství <Document>
<Document> popisuje jeden dokument, obsahuje <Attributes> a <Files>
<Attributes> popisuje atributy dokumentu, obsahuje libovolné množství <Attribute>
<Files> popisuje jednu stránku, obsahuje libovolné množství <File>
<Attribute> obsahuje popis jednoho atributu dokumentu

Atribut

Význam

name

název atributu

value

hodnota atributu
<File> obsahuje popis jedné stránky

Atribut

Význam

name

název souboru s příslušnou stránkou

mimeType

mime typ stránky ( MIME/JPEG, MIME/TIFF)

Předávané atributy

Pro následné zpracování je nutné správné pojmenování atributů. V následující tabulce jsou popsány některé názvy atributů a jejich význam.

Atribut	Význam
Document.type	dokumentový typ
Posam......	další atributy vzniklé při skenování
Další atributy viz cmserver/2.xml

Poznámky

Všechny názvy souborů jsou case sensitive

Diskuze, dotazy atd.

Je dostačující dělení na dvě úrovně? Nemělo by existovat ještě další dělení např. podle datumu skenování?
Jakým způsobem se budou řešit “mrtvé adresáře” ( starší adresář, který neobsahuje soubor complete ) ?

-  ⇤ ← Revision 17 as of 2005-06-15 11:54:17 → 
  Size: 3799
  Editor: 10
  Comment:
+   ← Revision 19 as of 2005-08-18 10:01:05 → ⇥
  Size: 4146
  Editor: 10
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 3:
-Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře podle produktové oblasti.
+Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře.

= Číslo jednací =
Jednoznačným identifikátorem entity ( sady stránek ) přes všechny zpracovávané dávky je číslo jednací. Číslo jednací je 14-ti místný čiselný identifikátor.
-Line 7:
+Line 10:
-Základni rozděleni skenovaných souborů bude do adresařové struktury o dvou úrovních. 
V první úrovni budou ooděleny jednotlivé naskenované dávky. 
Ve druhé úrovni budou jednotlivé stránky logicky sdruženy podle cisel jednacich.
+Základni rozděleni skenovaných souborů bude do adresařové struktury o třech  úrovních.
-Line 23:
+Line 24:
-PRODUKTOVA_RADA - logické rozdělení skenování podle produktových řad.
+PRODUKTOVA_RADA - adresář , reprezentující logické rozdělení skenování podle produktových řad ( smlouvy,škody určitého typu ).
-Line 25:
+Line 26:
-DAVKA - jedna naskenovaná dávka

 úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování)   od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat
+DAVKA - jedna naskenovaná dávka 
 * adresář obsahuje soubor description.xml , jeho formát definuje POSAM. V tomto souboru jsou uloženy atributy vzniklé při skenování, popisující tento proces, vytěžené atributy apod.
 * úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování) od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat
 Line 93:
-|||| Další atributy viz cmserver.xml||
+|| Posam...... || další atributy vzniklé při skenování ||
|||| Další atributy viz cmserver/2.xml||

Wiki

Page

User