Size: 3682
Comment:
|
Size: 3799
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 1: | Line 1: |
= Popis formátu uložení naskenovaných dat = Dále je popsán návrh formátu uložení naskenovaných dat. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře. |
= Abstrakt = Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře podle produktové oblasti. |
Line 13: | Line 12: |
DAVKA1 SADA_STRANEK1 SADA_STRANEK2 ... DAVKA2 SADA_STRANEK1 SADA_STRANEK2 ... |
PRODUKTOVA_RADA DAVKA1 SADA_STRANEK1 SADA_STRANEK2 ... DAVKA2 SADA_STRANEK1 SADA_STRANEK2 ... |
Line 23: | Line 23: |
PRODUKTOVA_RADA - logické rozdělení skenování podle produktových řad. |
|
Line 24: | Line 26: |
obsahuje soubor s informacemi o naskenované dávce ( např. vhodné pro spisovou službu ) formát souboru si určí POSAM název "description.xml" |
|
Line 30: | Line 29: |
někdo bude muset řešit mrtvé adresáře ( starší adresář, který neobsahuje soubor complete ) |
|
Line 47: | Line 44: |
.../SkenovaciAdresar/davka00001/00000001/0000001.jpg .../SkenovaciAdresar/davka00001/00000001/0000002.jpg .../SkenovaciAdresar/davka00001/00000001/0000003.jpg .../SkenovaciAdresar/davka00001/00000001/docset.xml .../SkenovaciAdresar/davka00001/00000002/0000001.jpg .../SkenovaciAdresar/davka00001/00000002/0000002.jpg .../SkenovaciAdresar/davka00001/00000002/0000003.jpg .../SkenovaciAdresar/davka00001/00000002/0000004.jpg .../SkenovaciAdresar/davka00001/00000002/doxset.xml .../SkenovaciAdresar/davka00001/complete .../SkenovaciAdresar/davka00001/description.xml |
.../ProduktovaRadaX/davka00001/00000001/0000001.jpg .../ProduktovaRadaX/davka00001/00000001/0000002.jpg .../ProduktovaRadaX/davka00001/00000001/0000003.jpg .../ProduktovaRadaX/davka00001/00000001/docset.xml .../ProduktovaRadaX/davka00001/00000002/0000001.jpg .../ProduktovaRadaX/davka00001/00000002/0000002.jpg .../ProduktovaRadaX/davka00001/00000002/0000003.jpg .../ProduktovaRadaX/davka00001/00000002/0000004.jpg .../ProduktovaRadaX/davka00001/00000002/doxset.xml .../ProduktovaRadaX/davka00001/complete |
Line 102: | Line 98: |
= Diskuze, dotazy atd. = * Je dostačující dělení na dvě úrovně? Nemělo by existovat ještě další dělení např. podle datumu skenování? * Jakým způsobem se budou řešit “mrtvé adresáře” ( starší adresář, který neobsahuje soubor complete ) ? |
Abstrakt
Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře podle produktové oblasti.
Adresářová struktura
Základni rozděleni skenovaných souborů bude do adresařové struktury o dvou úrovních. V první úrovni budou ooděleny jednotlivé naskenované dávky. Ve druhé úrovni budou jednotlivé stránky logicky sdruženy podle cisel jednacich.
PRODUKTOVA_RADA DAVKA1 SADA_STRANEK1 SADA_STRANEK2 ... DAVKA2 SADA_STRANEK1 SADA_STRANEK2 ...
PRODUKTOVA_RADA - logické rozdělení skenování podle produktových řad.
DAVKA - jedna naskenovaná dávka
- úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování) od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat
SADA_STRANEK - sada stranek se stejným číslem jednacím
- název adresáře se sadou dokumentů formát: 8 číslic (např. 00000001) adresář obsahuje:
- jednotlivé naskenované stránky a soubor docset.xml
Příklad adresářové struktury:
- Následující příklad ukazuje strukturu jedné naskenované dávky. Dávka obsahuje dvě sady dokumentů ( 00000001 a 00000002 ). Dávka je již připravena ke zpracování, protože obsahuje soubor complete.
.../ProduktovaRadaX/davka00001/00000001/0000001.jpg .../ProduktovaRadaX/davka00001/00000001/0000002.jpg .../ProduktovaRadaX/davka00001/00000001/0000003.jpg .../ProduktovaRadaX/davka00001/00000001/docset.xml .../ProduktovaRadaX/davka00001/00000002/0000001.jpg .../ProduktovaRadaX/davka00001/00000002/0000002.jpg .../ProduktovaRadaX/davka00001/00000002/0000003.jpg .../ProduktovaRadaX/davka00001/00000002/0000004.jpg .../ProduktovaRadaX/davka00001/00000002/doxset.xml .../ProduktovaRadaX/davka00001/complete
V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů docset.xml
<?xml version="1.0"?> <DocumentSet> <Document> <Attributes> <Attribute name="Document.type" value="ZP006" /> </Attributes> <Files> <File name="00000001.jpg" mimeType="IMAGE/JPEG"/> </Files> </Document> </DocumentSet>
<DocumentSet> může obsahovat libovolné množství <Document>
<Document> popisuje jeden dokument, obsahuje <Attributes> a <Files>
<Attributes> popisuje atributy dokumentu, obsahuje libovolné množství <Attribute>
<Files> popisuje jednu stránku, obsahuje libovolné množství <File>
<Attribute> obsahuje popis jednoho atributu dokumentu
Atribut
Význam
name
název atributu
value
hodnota atributu
<File> obsahuje popis jedné stránky
Atribut
Význam
name
název souboru s příslušnou stránkou
mimeType
mime typ stránky ( MIME/JPEG, MIME/TIFF)
Předávané atributy
Pro následné zpracování je nutné správné pojmenování atributů. V následující tabulce jsou popsány některé názvy atributů a jejich význam.
Atribut |
Význam |
Document.type |
dokumentový typ |
Další atributy viz cmserver.xml |
Poznámky
- Všechny názvy souborů jsou case sensitive
Diskuze, dotazy atd.
- Je dostačující dělení na dvě úrovně? Nemělo by existovat ještě další dělení např. podle datumu skenování?
- Jakým způsobem se budou řešit “mrtvé adresáře” ( starší adresář, který neobsahuje soubor complete ) ?