Size: 39
Comment:
|
Size: 5400
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 1: | Line 1: |
Describe NavrhRozhraniDistrSken here. | #acl TahitiAdminGroup:read,write All:read #pragma title Serverové rozhraní Damis = Abstrakt = Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře. = Číslo jednací = Jednoznačným identifikátorem entity ( sady stránek ) přes všechny zpracovávané dávky je číslo jednací. Číslo jednací je 14-ti místný čiselný identifikátor. = Adresářová struktura = Základni rozděleni skenovaných souborů bude do adresařové struktury o třech úrovních. {{{ PRODUKTOVA_RADA DAVKA1 SADA_STRANEK1 SADA_STRANEK2 ... DAVKA2 SADA_STRANEK1 SADA_STRANEK2 ... }}} PRODUKTOVA_RADA - adresář , reprezentující logické rozdělení skenování podle produktových řad ( smlouvy,škody určitého typu ). DAVKA - jedna naskenovaná dávka * adresář obsahuje soubor description.xml , jeho formát definuje POSAM. V tomto souboru jsou uloženy atributy vzniklé při skenování, popisující tento proces, vytěžené atributy apod. * úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování) od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat SADA_STRANEK - sada stranek se stejným číslem jednacím * název adresáře se sadou dokumentů formát: číslo jednací * adresář obsahuje: jednotlivé naskenované stránky a soubor docset.xml == Příklad adresářové struktury: == Následující příklad ukazuje strukturu jedné naskenované dávky. Dávka obsahuje dvě sady dokumentů ( 12345678901234 a 12345678901235 ). Dávka je již připravena ke zpracování, protože obsahuje soubor complete. {{{ .../ProduktovaRadaX/davka00001/12345678901234/0000001.jpg .../ProduktovaRadaX/davka00001/12345678901234/0000002.jpg .../ProduktovaRadaX/davka00001/12345678901234/0000003.jpg .../ProduktovaRadaX/davka00001/12345678901234/docset.xml .../ProduktovaRadaX/davka00001/12345678901235/0000001.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000002.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000003.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000004.jpg .../ProduktovaRadaX/davka00001/12345678901235/doxset.xml .../ProduktovaRadaX/davka00001/description.xml .../ProduktovaRadaX/davka00001/complete }}} = Formát souborů = == docset.xml == V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů docset.xml Pokud kódová stránka není uvedena, standardně se rozumí kódování utf-8. Příklad: {{{ <?xml version="1.0"?> <DocumentSet> <Document> <Attributes> <Attribute name="Document.type" value="ZP006" /> <Attribute name="CJ" value="12345678901234" /> </Attributes> <Files> <File name="00000001.jpg" mimeType="IMAGE/JPEG"/> </Files> </Document> </DocumentSet> }}} * <Document``Set> může obsahovat libovolné množství <Document> * <Document> popisuje jeden dokument, obsahuje <Attributes> a <Files> * <Attributes> popisuje atributy dokumentu, obsahuje libovolné množství <Attribute> * <Files> popisuje jednu stránku, obsahuje libovolné množství <File> * <Attribute> obsahuje popis jednoho atributu dokumentu || Atribut || Význam || || name || název atributu || || value || hodnota atributu || * <File> obsahuje popis jedné stránky || Atribut || Význam || || name || název souboru s příslušnou stránkou || || mimeType || mime typ stránky ( MIME/JPEG, MIME/TIFF) || Rozšířený formátu docset.xml je dostupný zde: [WWW] http://frnk.lightcomp.cz/lcdevel/SpecifikaceTahitiDamisUlozeniDat, část Popis spisu === Předávané atributy === Pro následné zpracování je nutné správné pojmenování atributů. V následující tabulce jsou popsány některé názvy atributů a jejich význam. || Atribut || Význam || || Document.type || dokumentový typ || || Scan. ..... || další atributy vzniklé při skenování || |||| Atributy dokumentu viz cmserver2.xml || == description.xml == Soubor obsahuje globální atributy popisující celou dávku, např. příslušnost dávky do krabice (údaj pro spisovou službu) a také obsah všech jednotlivých docset.xml uložených v dávce. Příklad: {{{ <?xml version="1.0"?> <Batch> <Attributes> <Attribute name="BoxId" value="345-2"/> <Attribute name="Posam.person" value="Jan Wagner"/> </Attributes> <DocumentSets> <!-- jednotlivé dávky --> <DocumentSet>........</DocumentSet> ... ... </DocumentSets> <Batch> }}} * <Batch> naskenovaná dávka - obsahuje povinně tagy <Attributes> a <DocumentSets> * <Attributes> popisuje atributy dávky, obsahuje libovolné množství <Attribute> * <Attribute> obsahuje popis jednoho atributu dokumentu || Atribut || Význam || || name || název atributu || || value || hodnota atributu || * <Document``Sets> může obsahovat libovolné množství <Document``Set>, popis sady dokumentů je shodný jako formát souboru docset.xml = Poznámky = * Všechny názvy souborů jsou case sensitive |
Abstrakt
Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře.
Číslo jednací
Jednoznačným identifikátorem entity ( sady stránek ) přes všechny zpracovávané dávky je číslo jednací. Číslo jednací je 14-ti místný čiselný identifikátor.
Adresářová struktura
Základni rozděleni skenovaných souborů bude do adresařové struktury o třech úrovních.
PRODUKTOVA_RADA DAVKA1 SADA_STRANEK1 SADA_STRANEK2 ... DAVKA2 SADA_STRANEK1 SADA_STRANEK2 ...
PRODUKTOVA_RADA - adresář , reprezentující logické rozdělení skenování podle produktových řad ( smlouvy,škody určitého typu ).
DAVKA - jedna naskenovaná dávka
- adresář obsahuje soubor description.xml , jeho formát definuje POSAM. V tomto souboru jsou uloženy atributy vzniklé při skenování, popisující tento proces, vytěžené atributy apod.
- úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování) od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat
SADA_STRANEK - sada stranek se stejným číslem jednacím * název adresáře se sadou dokumentů formát: číslo jednací * adresář obsahuje: jednotlivé naskenované stránky a soubor docset.xml
Příklad adresářové struktury:
Následující příklad ukazuje strukturu jedné naskenované dávky. Dávka obsahuje dvě sady dokumentů ( 12345678901234 a 12345678901235 ). Dávka je již připravena ke zpracování, protože obsahuje soubor complete.
.../ProduktovaRadaX/davka00001/12345678901234/0000001.jpg .../ProduktovaRadaX/davka00001/12345678901234/0000002.jpg .../ProduktovaRadaX/davka00001/12345678901234/0000003.jpg .../ProduktovaRadaX/davka00001/12345678901234/docset.xml .../ProduktovaRadaX/davka00001/12345678901235/0000001.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000002.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000003.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000004.jpg .../ProduktovaRadaX/davka00001/12345678901235/doxset.xml .../ProduktovaRadaX/davka00001/description.xml .../ProduktovaRadaX/davka00001/complete
Formát souborů
docset.xml
V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů docset.xml Pokud kódová stránka není uvedena, standardně se rozumí kódování utf-8.
Příklad:
<?xml version="1.0"?> <DocumentSet> <Document> <Attributes> <Attribute name="Document.type" value="ZP006" /> <Attribute name="CJ" value="12345678901234" /> </Attributes> <Files> <File name="00000001.jpg" mimeType="IMAGE/JPEG"/> </Files> </Document> </DocumentSet>
<DocumentSet> může obsahovat libovolné množství <Document>
<Document> popisuje jeden dokument, obsahuje <Attributes> a <Files>
<Attributes> popisuje atributy dokumentu, obsahuje libovolné množství <Attribute>
<Files> popisuje jednu stránku, obsahuje libovolné množství <File>
<Attribute> obsahuje popis jednoho atributu dokumentu
Atribut
Význam
name
název atributu
value
hodnota atributu
<File> obsahuje popis jedné stránky
Atribut
Význam
name
název souboru s příslušnou stránkou
mimeType
mime typ stránky ( MIME/JPEG, MIME/TIFF)
Rozšířený formátu docset.xml je dostupný zde: [WWW] http://frnk.lightcomp.cz/lcdevel/SpecifikaceTahitiDamisUlozeniDat, část Popis spisu
Předávané atributy
Pro následné zpracování je nutné správné pojmenování atributů. V následující tabulce jsou popsány některé názvy atributů a jejich význam.
Atribut
Význam
Document.type
dokumentový typ
Scan. .....
další atributy vzniklé při skenování
Atributy dokumentu viz cmserver2.xml
description.xml
Soubor obsahuje globální atributy popisující celou dávku, např. příslušnost dávky do krabice (údaj pro spisovou službu) a také obsah všech jednotlivých docset.xml uložených v dávce.
Příklad:
<?xml version="1.0"?> <Batch> <Attributes> <Attribute name="BoxId" value="345-2"/> <Attribute name="Posam.person" value="Jan Wagner"/> </Attributes> <DocumentSets> <!-- jednotlivé dávky --> <DocumentSet>........</DocumentSet> ... ... </DocumentSets> <Batch>
<Batch> naskenovaná dávka - obsahuje povinně tagy <Attributes> a <DocumentSets>
<Attributes> popisuje atributy dávky, obsahuje libovolné množství <Attribute>
<Attribute> obsahuje popis jednoho atributu dokumentu
Atribut
Význam
name
název atributu
value
hodnota atributu
<DocumentSets> může obsahovat libovolné množství <DocumentSet>, popis sady dokumentů je shodný jako formát souboru docset.xml
Poznámky
- Všechny názvy souborů jsou case sensitive