Differences between revisions 15 and 17 (spanning 2 versions)
Revision 15 as of 2005-06-14 14:24:49
Size: 3682
Editor: 10
Comment:
Revision 17 as of 2005-06-15 11:54:17
Size: 3799
Editor: 10
Comment:
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
= Popis formátu uložení naskenovaných dat =

Dále je popsán návrh formátu uložení naskenovaných dat. Data jsou skenována vysokorychlostním skenerem a jsou k nim
získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře.
= Abstrakt =
Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu.
Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře podle produktové oblasti.
Line 13: Line 12:
 DAVKA1
  SADA_STRANEK1
  SADA_STRANEK2
  ...
 DAVKA2
  SADA_STRANEK1
  SADA_STRANEK2
  ...
 PRODUKTOVA_RADA
 
DAVKA1
   SADA_STRANEK1
    SADA_STRANEK2
    ...
  DAVKA2
   SADA_STRANEK1
    SADA_STRANEK2
    ...
Line 23: Line 23:
PRODUKTOVA_RADA - logické rozdělení skenování podle produktových řad.
Line 24: Line 26:
 obsahuje soubor s informacemi o naskenované dávce ( např. vhodné pro spisovou službu )
 formát souboru si určí POSAM
 název "description.xml"
Line 30: Line 29:

 někdo bude muset řešit mrtvé adresáře ( starší adresář, který neobsahuje soubor complete )
Line 47: Line 44:
.../SkenovaciAdresar/davka00001/00000001/0000001.jpg
.../SkenovaciAdresar/davka00001/00000001/0000002.jpg
.../SkenovaciAdresar/davka00001/00000001/0000003.jpg
.../SkenovaciAdresar/davka00001/00000001/docset.xml
.../SkenovaciAdresar/davka00001/00000002/0000001.jpg
.../SkenovaciAdresar/davka00001/00000002/0000002.jpg
.../SkenovaciAdresar/davka00001/00000002/0000003.jpg
.../SkenovaciAdresar/davka00001/00000002/0000004.jpg
.../SkenovaciAdresar/davka00001/00000002/doxset.xml
.../SkenovaciAdresar/davka00001/complete
.../SkenovaciAdresar/davka00001/description.xml
.../ProduktovaRadaX/davka00001/00000001/0000001.jpg
.../ProduktovaRadaX/davka00001/00000001/0000002.jpg
.../ProduktovaRadaX/davka00001/00000001/0000003.jpg
.../ProduktovaRadaX/davka00001/00000001/docset.xml
.../ProduktovaRadaX/davka00001/00000002/0000001.jpg
.../ProduktovaRadaX/davka00001/00000002/0000002.jpg
.../ProduktovaRadaX/davka00001/00000002/0000003.jpg
.../ProduktovaRadaX/davka00001/00000002/0000004.jpg
.../ProduktovaRadaX/davka00001/00000002/doxset.xml
.../ProduktovaRadaX/davka00001/complete
Line 102: Line 98:


= Diskuze, dotazy atd. =
 * Je dostačující dělení na dvě úrovně? Nemělo by existovat ještě další dělení např. podle datumu skenování?
 * Jakým způsobem se budou řešit “mrtvé adresáře” ( starší adresář, který neobsahuje soubor complete ) ?

Abstrakt

Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře podle produktové oblasti.

Adresářová struktura

Základni rozděleni skenovaných souborů bude do adresařové struktury o dvou úrovních. V první úrovni budou ooděleny jednotlivé naskenované dávky. Ve druhé úrovni budou jednotlivé stránky logicky sdruženy podle cisel jednacich.

 PRODUKTOVA_RADA
  DAVKA1 
    SADA_STRANEK1
    SADA_STRANEK2
    ...
  DAVKA2
    SADA_STRANEK1
    SADA_STRANEK2
    ...

PRODUKTOVA_RADA - logické rozdělení skenování podle produktových řad.

DAVKA - jedna naskenovaná dávka

  • úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování) od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat

SADA_STRANEK - sada stranek se stejným číslem jednacím

  • název adresáře se sadou dokumentů formát: 8 číslic (např. 00000001) adresář obsahuje:
    • jednotlivé naskenované stránky a soubor docset.xml

Příklad adresářové struktury:

  • Následující příklad ukazuje strukturu jedné naskenované dávky. Dávka obsahuje dvě sady dokumentů ( 00000001 a 00000002 ). Dávka je již připravena ke zpracování, protože obsahuje soubor complete.

.../ProduktovaRadaX/davka00001/00000001/0000001.jpg
.../ProduktovaRadaX/davka00001/00000001/0000002.jpg
.../ProduktovaRadaX/davka00001/00000001/0000003.jpg
.../ProduktovaRadaX/davka00001/00000001/docset.xml
.../ProduktovaRadaX/davka00001/00000002/0000001.jpg
.../ProduktovaRadaX/davka00001/00000002/0000002.jpg
.../ProduktovaRadaX/davka00001/00000002/0000003.jpg
.../ProduktovaRadaX/davka00001/00000002/0000004.jpg
.../ProduktovaRadaX/davka00001/00000002/doxset.xml
.../ProduktovaRadaX/davka00001/complete

V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů docset.xml

<?xml version="1.0"?>
<DocumentSet>
 <Document>
  <Attributes>
   <Attribute name="Document.type" value="ZP006" /> 
  </Attributes>
  <Files>
   <File name="00000001.jpg" mimeType="IMAGE/JPEG"/>
  </Files>
 </Document>
</DocumentSet>
  • <DocumentSet> může obsahovat libovolné množství <Document>

  • <Document> popisuje jeden dokument, obsahuje <Attributes> a <Files>

  • <Attributes> popisuje atributy dokumentu, obsahuje libovolné množství <Attribute>

  • <Files> popisuje jednu stránku, obsahuje libovolné množství <File>

  • <Attribute> obsahuje popis jednoho atributu dokumentu

    Atribut

    Význam

    name

    název atributu

    value

    hodnota atributu

  • <File> obsahuje popis jedné stránky

    Atribut

    Význam

    name

    název souboru s příslušnou stránkou

    mimeType

    mime typ stránky ( MIME/JPEG, MIME/TIFF)

Předávané atributy

Pro následné zpracování je nutné správné pojmenování atributů. V následující tabulce jsou popsány některé názvy atributů a jejich význam.

Atribut

Význam

Document.type

dokumentový typ

Další atributy viz cmserver.xml

Poznámky

  • Všechny názvy souborů jsou case sensitive

Diskuze, dotazy atd.

  • Je dostačující dělení na dvě úrovně? Nemělo by existovat ještě další dělení např. podle datumu skenování?
  • Jakým způsobem se budou řešit “mrtvé adresáře” ( starší adresář, který neobsahuje soubor complete ) ?

SpecifikaceRozhraniDistrSken (last edited 2013-10-11 14:05:29 by pyta)