Nové standardy digitalizace (od roku 2012)
V rámci projektu NDK přistoupí řešící instituce (NK a MZK) ke kompletní změně nastavení digitalizačního workflow a používaných formátů metadat a obrazových dat. Stávající proprietární DTD pro periodika a monografie se přestane používat a dojde k nahrazení za standardizované formáty využívané v ostatních knihovnách při podobných projektech digitalizace a dlouhodobé ochrany digitálních dat. Zároveň dojde ke zveřejnění nové verze systému pro digitální knihovnu Kramerius (verze 4), která bude pracovat se stejnými standardy jako projekt NDK.
Výstupy pracoviště digitalizace
Výstupem pracoviště digitalizace by měl být kompletně zpracovaný digitální dokument obsahující všechny typy metadat a požadovaných digitálních souborů:
- popisná metadata
- administrativní metadata
- technická metadata
- strukturální metadata
- archivní obrazové soubory
- uživatelské obrazové soubory
- ALTO XML + z něj odvozené TXT OCR
Bibliografická data zvolených dokumentů budou exportována ze systému ALEPH pomocí souboru XML do systému RegistrDigitalizace.CZ ve formátu, jenž bude odpovídat struktuře MARC-XML. Pomocí konvertoru se vytvoří základní popisná metadata (DMD – descriptive metadata) ve formátu MODS-XML. Tento proces bude probíhat automaticky.
Dalším krokem bude zpracování obrazových souborů i metadat v softwaru pro workflow. Zde se provede úprava obrazových souborů (ořez a narovnání, potlačení pozadí a průtisků), s využitím OCR a co nejvíce automatizovaných postupů se vytvoří struktura dokumentu a proběhne konverze do uživatelských formátů, generování administrativních metadat (AMD) a propojení všech částí digitálního dokumentu. Komplexní digitalizovaný dokument včetně uživatelských kopií pak bude exportován do LTP systému, uživatelské kopie pak v určité fázi Ingestu v LTP systému poputují do digitální knihovny Kramerius (případně WebArchiv nebo jiné).
Základní fyzickou jednotkou bude soubor obsahující jednu stranu dokumentu. Zhotovené digitální dokumenty budou předávány k validaci a archivaci LTP systému v definované datové struktuře SIP (Submission Information Package podle konceptu OAIS). SIP bude ve formátu METS. Předpokládáme více variant SIP pro různé typy dokumentů.
Formáty a standardy
Pozn. všechna metadata musí být v kodování UTF-8.
Digitalizační linka by měla být schopna vytvářet soubory ve více typech formátů, např.:
metadata
| typ metadat | standard (metadatový formát) |
| popisná metadata | MODS, Dublin Core |
| administrativní metadata | PREMIS, MIX |
| technická metadata | PREMIS, MIX |
| strukturální metadata | METS |
| OCR soubory | ALTO XML, z něj odvozené TXT |
obrazové soubory (platí pro novodobé dokumenty)
| typ souboru | použitý formát |
| archivní obrazové soubory | JPEG2000 lossless, TIFF (pro sken a úpravy), JPG, PDF |
| uživatelské obrazové soubory | JPEG2000 lossy, JPG, PDF |
METS - bude využit jako formát, do kterého se „zabalí“ další metadatové formáty; počítáme s využitím verze 1.9
MODS - formát popisných bibliografických metadat, vycházející z MARC21 (knihovnický formát na popis klasických dokumentů v knihovnách); počítáme s využitím verze 3.4
PREMIS - speciální metadatový formát na zápis ochranných metadat, určených k tomu, aby LTP systém mohl s uloženými daty dále pracovat a dlouhodobě je chránit. Počítáme s využitím poslední verze 2.0 a částí Premis:object; Premis:events; Premis:agent
MIX - speciální metadatový formát pro technická metadata o digitálním obrazu; počítáme s využitím poslední verze 2.0
ALTO XML - metadatový formát pro vyjádření OCR – rozpoznávání textu. Díky tomuto formátu lze prohledávat text v obrazových dokumentech a zobrazovat ho uživateli. Počítáme s využitím verze 2.0.
TXT OCR - textový soubor s OCR odvozený z ALTO XML
Je nutné si uvědomit, že typů dokumentů, které budou v systému uchovávány, bude více a ne pro všechny je vhodný jeden typ popisných metadat (jednotlivé obrazy, entity složené z více obrazů, audio, video apod.).
Ochranná metadata a PREMIS a METS
Termín ochranná metadata zahrnuje několik kategorií obyčejně užívaných k rozlišení typů metadat. Jsou to:
- administrativní (včetně práv a povolení, historie provedených akcí apod.)
- technická
- strukturální
PREMIS je metadatový formát pro dlouhodobou archivaci založený na modelu OAIS a jako takový je široce využívaný v komunitě zabývající se dlouhodobou ochranou digitálních dat. Soupisem elementů formátu a jejich využití je PREMIS Data dictionary. Formát, díky svému datovému modelu, dokáže tak říkajíc naplnit části METSu určené pro administrativní metadata. Jde o část METS nazvanou amdSec (tj. administrativní metadata).
Samotná implementace PREMISu do METSu bude následující, běžně využívaná v mnoha knihovnách a zároveň přímo doporučená radou pro formát PREMIS.
| METS část amdSec | využité části formátu PREMIS |
| techMD - technická metadata | PREMISobject + případné další (MIX) |
| rightsMD | |
| - administrativní práva | PREMISrights |
| - legislativní práva | METSrights + PREMISagent |
| sourceMD - popis původce údajů | nepoužije se |
| digiprovMD - metadata o událostech | PREMISevents + PREMISagent + MIX |
Definice metadatových formátů pro digitalizaci
plně vychází ze specifikace metadat projektu NDK
PERIODIKA
- specifikace monografií vychází ze specifikace pro periodika
- odlišná je struktura popisných metadat, logická strukturální mapa
- verze 0.3 (k připomínkování) PDF [1,5MB] zveřejněno 25.11.2011
Základní specifikace JP2 pro projekt NDK
V rámci digitalizace v projektu NDK (a následně i ve VISK7) počítáme s použítím formátu JPEG2000 pro archivní kopii i pro kopie pro zpřístupnění. Nastavení komprese uživatelských kopií je optimalizováno vzhledem k image serveru (IIP image), který se plánuje pro Kramerius 4. Archivní kopie budou ukládany v bezeztrátové reverzibilní kompresi. Specifikace vychází z potřeb našich aplikací a z porovnání doporučení pro kódování JPEG2000 v jiných zahraničních knihovnách. Úplná specifikace bude zveřejněna v tendru na systémového integrátora projektu NDK.
Pro dokumenty (knihy, periodika) počítáme se skenováním v rozlišení minimálně 300 PPI. Barevná hloubka pro tyto dokumenty bude z důvodu urychlení produkce fixně nastavena na 24bitů RGB. Dokumenty, kde není barva významová, bude možné v budoucnu snížit bitovou hloubku na 8bitů, tedy na odstíny šedi.
MC = master copy = archivní kopie
PMC = production master copy = kopie, ze které se vytváří v image serveru jpg pro uživatele
| Parameter | MC | PMC | PMC |
| Used for | Books, periodicals, maps, manuscripts | Books, periodicals | Maps, manuscripts |
| Conversion software used | Kakadu | Kakadu | Kakadu |
| File format | Part 1 (.jp2) | Part 1 (.jp2) | Part 1 (.jp2) |
| Lossy or lossless | Lossless | Lossy | Lossy |
| Typical compression rate | 2:1 to 3:1 | 20:1 to 30:1 | 8:1 to 10:1 |
| Tiling | 4096x4096 (not tested) | 1024x1024 | 1024x1024 |
| Progression order | RPCL | RPCL | RPCL |
| Number of decomposition levels | 5 or 6 | 5 | 5 or 6 |
| Number of quality layers | 1 | 12 | 12 |
| Code block size (xcb = ycb) | 6 | 6 | 6 |
| Transformation | 5-3 reversible filter | 9-7 irreversible filter | 9-7 irreversible filter |
| Precinct size | 256x256 | 256x256 | 256x256 |
| Regions of Interest | No | No | No |
| Code block size | 64x64 | 64x64 | 64x64 |
| TLM markers | Yes | Yes | Yes |
