Size: 39
Comment:
|
Size: 5809
Comment:
|
Deletions are marked like this. | Additions are marked like this. |
Line 1: | Line 1: |
Describe NavrhRozhraniDistrSken here. | #acl TahitiAdminGroup:read,write All:read #pragma title Serverové rozhraní Damis = Abstrakt = Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře. = Číslo jednací = Jednoznačným identifikátorem entity ( sady stránek ) přes všechny zpracovávané dávky je číslo jednací. Číslo jednací je 14-ti místný čiselný identifikátor. = Adresářová struktura = Základni rozděleni skenovaných souborů bude do adresařové struktury o třech úrovních. {{{ PRODUKTOVA_RADA DAVKA1 SADA_STRANEK1 SADA_STRANEK2 ... DAVKA2 SADA_STRANEK1 SADA_STRANEK2 ... }}} PRODUKTOVA_RADA - adresář , reprezentující logické rozdělení skenování podle produktových řad ( smlouvy,škody určitého typu ). DAVKA - jedna naskenovaná dávka * adresář obsahuje soubor description.xml , jeho formát definuje POSAM. V tomto souboru jsou uloženy atributy vzniklé při skenování, popisující tento proces, vytěžené atributy apod. * úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování) od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat SADA_STRANEK - sada stranek se stejným číslem jednacím * název adresáře se sadou dokumentů formát: číslo jednací * adresář obsahuje: jednotlivé naskenované stránky a soubor docset.xml == Příklad adresářové struktury: == Následující příklad ukazuje strukturu jedné naskenované dávky. Dávka obsahuje dvě sady dokumentů ( 12345678901234 a 12345678901235 ). Dávka je již připravena ke zpracování, protože obsahuje soubor complete. {{{ .../ProduktovaRadaX/davka00001/12345678901234/0000001.jpg .../ProduktovaRadaX/davka00001/12345678901234/0000002.jpg .../ProduktovaRadaX/davka00001/12345678901234/0000003.jpg .../ProduktovaRadaX/davka00001/12345678901234/docset.xml .../ProduktovaRadaX/davka00001/12345678901235/0000001.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000002.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000003.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000004.jpg .../ProduktovaRadaX/davka00001/12345678901235/doxset.xml .../ProduktovaRadaX/davka00001/description.xml .../ProduktovaRadaX/davka00001/complete }}} = Formát souborů = == docset.xml == V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů docset.xml Pokud kódová stránka není uvedena, standardně se rozumí kódování utf-8. Příklad: {{{ <?xml version="1.0"?> <DocumentSet> <Document> <Attributes> <Attribute name="Document.type" value="ZP006" /> <Attribute name="CJ" value="12345678901234" /> </Attributes> <Files> <File name="00000001.jpg" mimeType="IMAGE/JPEG"/> </Files> </Document> </DocumentSet> }}} * <Document``Set> může obsahovat libovolné množství <Document> * <Document> popisuje jeden dokument, obsahuje <Attributes> a <Files> * <Attributes> popisuje atributy dokumentu, obsahuje libovolné množství <Attribute> * <Files> popisuje jednu stránku, obsahuje libovolné množství <File> * <Attribute> obsahuje popis jednoho atributu dokumentu || Atribut || Význam || || name || název atributu || || value || hodnota atributu || * <File> obsahuje popis jedné stránky || Atribut || Význam || || name || název souboru s příslušnou stránkou || || mimeType || mime typ stránky ( MIME/JPEG, MIME/TIFF) || Rozšířený formátu docset.xml je dostupný zde: [WWW] http://frnk.lightcomp.cz/lcdevel/SpecifikaceTahitiDamisUlozeniDat, část Popis spisu === Předávané atributy === Pro následné zpracování je nutné správné pojmenování atributů. V následující tabulce jsou popsány některé názvy atributů a jejich význam. || Atribut || Význam || || Document.type || dokumentový typ || || Golem.Area || produktová oblast || || Scan.BatchId || identifikátor dávky - jednoznačný || || Scan.Prepare || přípravář spisu || || Scan.Operate || uživatel provádějící skenování || || Scan.Date || datum skenování - dd.mm.yyyy || || Scan.Time || čas skenování(vytvoření dávky) - hh:mm || |||| Atributy dokumentu viz cmserver2.xml || Povinné atributy: * číslo jednací - název atributu je určen definicí v cmserver2.xml * atributy skenovací linky označené jako Scan. == description.xml == Soubor obsahuje globální atributy popisující celou dávku, např. příslušnost dávky do krabice (údaj pro spisovou službu) a také obsah všech jednotlivých docset.xml uložených v dávce. Příklad: {{{ <?xml version="1.0"?> <Batch> <Attributes> <Attribute name="BoxId" value="345-2"/> <Attribute name="Scan.person" value="Jan Wagner"/> </Attributes> <DocumentSets> <!-- jednotlivé dávky --> <DocumentSet>........</DocumentSet> ... ... </DocumentSets> <Batch> }}} * <Batch> naskenovaná dávka - obsahuje povinně tagy <Attributes> a <DocumentSets> * <Attributes> popisuje atributy dávky, obsahuje libovolné množství <Attribute> * <Attribute> obsahuje popis jednoho atributu dokumentu || Atribut || Význam || || name || název atributu || || value || hodnota atributu || * <Document``Sets> může obsahovat libovolné množství <Document``Set>, popis sady dokumentů je shodný jako formát souboru docset.xml = Poznámky = * Všechny názvy souborů jsou case sensitive |
Abstrakt
Dokument je návrhem formátu předávání dat po jejich naskenování do identifikačního a archivačního procesu. Data jsou skenována vysokorychlostním skenerem a jsou k nim získány základní údaje - dokumentový typ a číslo jednací. Dále jsou uložena na disk do sdíleného adresáře.
Číslo jednací
Jednoznačným identifikátorem entity ( sady stránek ) přes všechny zpracovávané dávky je číslo jednací. Číslo jednací je 14-ti místný čiselný identifikátor.
Adresářová struktura
Základni rozděleni skenovaných souborů bude do adresařové struktury o třech úrovních.
PRODUKTOVA_RADA DAVKA1 SADA_STRANEK1 SADA_STRANEK2 ... DAVKA2 SADA_STRANEK1 SADA_STRANEK2 ...
PRODUKTOVA_RADA - adresář , reprezentující logické rozdělení skenování podle produktových řad ( smlouvy,škody určitého typu ).
DAVKA - jedna naskenovaná dávka
- adresář obsahuje soubor description.xml , jeho formát definuje POSAM. V tomto souboru jsou uloženy atributy vzniklé při skenování, popisující tento proces, vytěžené atributy apod.
- úplnost dávky je určena existencí souboru "complete" ( soubor zapíše POSAM po jejich zpracování) od tohoto okamžiku máme nad adresářem plnou kontrolu kontrolu a můžeme ho v libovolný okamžik smazat
SADA_STRANEK - sada stranek se stejným číslem jednacím * název adresáře se sadou dokumentů formát: číslo jednací * adresář obsahuje: jednotlivé naskenované stránky a soubor docset.xml
Příklad adresářové struktury:
Následující příklad ukazuje strukturu jedné naskenované dávky. Dávka obsahuje dvě sady dokumentů ( 12345678901234 a 12345678901235 ). Dávka je již připravena ke zpracování, protože obsahuje soubor complete.
.../ProduktovaRadaX/davka00001/12345678901234/0000001.jpg .../ProduktovaRadaX/davka00001/12345678901234/0000002.jpg .../ProduktovaRadaX/davka00001/12345678901234/0000003.jpg .../ProduktovaRadaX/davka00001/12345678901234/docset.xml .../ProduktovaRadaX/davka00001/12345678901235/0000001.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000002.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000003.jpg .../ProduktovaRadaX/davka00001/12345678901235/0000004.jpg .../ProduktovaRadaX/davka00001/12345678901235/doxset.xml .../ProduktovaRadaX/davka00001/description.xml .../ProduktovaRadaX/davka00001/complete
Formát souborů
docset.xml
V souboru docset.xml je popis přiřazení stránek jednotlivým dokumentům a atributy dokumentů docset.xml Pokud kódová stránka není uvedena, standardně se rozumí kódování utf-8.
Příklad:
<?xml version="1.0"?> <DocumentSet> <Document> <Attributes> <Attribute name="Document.type" value="ZP006" /> <Attribute name="CJ" value="12345678901234" /> </Attributes> <Files> <File name="00000001.jpg" mimeType="IMAGE/JPEG"/> </Files> </Document> </DocumentSet>
<DocumentSet> může obsahovat libovolné množství <Document>
<Document> popisuje jeden dokument, obsahuje <Attributes> a <Files>
<Attributes> popisuje atributy dokumentu, obsahuje libovolné množství <Attribute>
<Files> popisuje jednu stránku, obsahuje libovolné množství <File>
<Attribute> obsahuje popis jednoho atributu dokumentu
Atribut
Význam
name
název atributu
value
hodnota atributu
<File> obsahuje popis jedné stránky
Atribut
Význam
name
název souboru s příslušnou stránkou
mimeType
mime typ stránky ( MIME/JPEG, MIME/TIFF)
Rozšířený formátu docset.xml je dostupný zde: [WWW] http://frnk.lightcomp.cz/lcdevel/SpecifikaceTahitiDamisUlozeniDat, část Popis spisu
Předávané atributy
Pro následné zpracování je nutné správné pojmenování atributů. V následující tabulce jsou popsány některé názvy atributů a jejich význam.
Atribut
Význam
Document.type
dokumentový typ
Golem.Area
produktová oblast
Scan.BatchId
identifikátor dávky - jednoznačný
Scan.Prepare
přípravář spisu
Scan.Operate
uživatel provádějící skenování
Scan.Date
datum skenování - dd.mm.yyyy
Scan.Time
čas skenování(vytvoření dávky) - hh:mm
Atributy dokumentu viz cmserver2.xml
Povinné atributy:
- číslo jednací - název atributu je určen definicí v cmserver2.xml
- atributy skenovací linky označené jako Scan.
description.xml
Soubor obsahuje globální atributy popisující celou dávku, např. příslušnost dávky do krabice (údaj pro spisovou službu) a také obsah všech jednotlivých docset.xml uložených v dávce.
Příklad:
<?xml version="1.0"?> <Batch> <Attributes> <Attribute name="BoxId" value="345-2"/> <Attribute name="Scan.person" value="Jan Wagner"/> </Attributes> <DocumentSets> <!-- jednotlivé dávky --> <DocumentSet>........</DocumentSet> ... ... </DocumentSets> <Batch>
<Batch> naskenovaná dávka - obsahuje povinně tagy <Attributes> a <DocumentSets>
<Attributes> popisuje atributy dávky, obsahuje libovolné množství <Attribute>
<Attribute> obsahuje popis jednoho atributu dokumentu
Atribut
Význam
name
název atributu
value
hodnota atributu
<DocumentSets> může obsahovat libovolné množství <DocumentSet>, popis sady dokumentů je shodný jako formát souboru docset.xml
Poznámky
- Všechny názvy souborů jsou case sensitive