Nové standardy digitalizace (od roku 2011)
V rámci projektu NDK přistoupí řešící instituce (NK a MZK) ke kompletní změně nastavení digitalizačního workflow a používaných formátů metadat a obrazových dat. Stávající proprietární DTD pro periodika a monografie se přestane používat a dojde k nahrazení za standardizované formáty využívané v ostatních knihovnách při podobných projektech digitalizace a dlouhodobé ochrany digitálních dat. Zároveň dojde ke zveřejnění nové verze systému pro digitální knihovnu Kramerius (verze 4), která bude pracovat se stejnými standardy jako projekt NDK.
Výstupy pracoviště digitalizace
Výstupem pracoviště digitalizace by měl být kompletně zpracovaný digitální dokument obsahující všechny typy metadat a požadovaných digitálních souborů:
- popisná metadata
- administrativní metadata
- technická metadata
- strukturální metadata
- archivní obrazové soubory
- uživatelské obrazové soubory
- textové soubory OCR + případné další verze uživatelských souborů (pdf apod.)
Bibliografická data zvolených dokumentů budou exportována ze systému ALEPH pomocí souboru XML do systému RegistrDigitalizace.CZ ve formátu, jenž bude odpovídat struktuře MARC-XML. Pomocí konvertoru se vytvoří základní popisná metadata (DMD – descriptive metadata) ve formátu MODS-XML. Tento proces bude probíhat automaticky.
Dalším krokem bude zpracování obrazových souborů i metadat v softwaru pro workflow. Zde se provede úprava obrazových souborů (ořez a narovnání, potlačení pozadí a průtisků), s využitím OCR a co nejvíce automatizovaných postupů se vytvoří struktura dokumentu a proběhne konverze do uživatelských formátů, generování administrativních metadat (AMD) a propojení všech částí digitálního dokumentu. Komplexní digitalizovaný dokument včetně uživatelských kopií pak bude exportován do LTP systému, uživatelské kopie pak v určité fázi Ingestu v LTP systému poputují do digitální knihovny Kramerius (případně WebArchiv nebo jiné).
Základní fyzickou jednotkou bude soubor obsahující jednu stranu dokumentu. Zhotovené digitální dokumenty budou předávány k validaci a archivaci LTP systému v definované datové struktuře SIP (Submission Information Package podle konceptu OAIS). SIP bude ve formátu METS. Předpokládáme více variant SIP pro různé typy dokumentů.
Formáty a standardy
Digitalizační linka by měla být schopna vytvářet soubory ve více typech formátů, např.:
metadata
| typ metadat | standard (metadatový formát) |
| popisná metadata | MODS, MARCXML, Dublin Core |
| administrativní metadata | PREMIS, MIX |
| technická metadata | PREMIS, MIX |
| strukturální metadata | METS |
| OCR soubory | METS ALTO, ALTO XML, TXT, PDF |
obrazové soubory (platí pro novodobé dokumenty)
| typ souboru | použitý formát |
| archivní obrazové soubory | JPEG2000 lossless, TIFF (pro sken a úpravy), JPG, PDF |
| uživatelské obrazové soubory | JPEG2000 lossy, JPG, PDF |
METS - bude využit jako formát, do kterého se „zabalí“ další metadatové formáty
MODS - formát popisných bibliografických metadat, vycházející z MARC21 (knihovnický formát na popis klasických dokumentů v knihovnách)
MARCXML - MARC21 zapsaný pomocí XML
PREMIS - speciální metadatový formát na zápis ochranných metadat, určených k tomu, aby LTP systém mohl s uloženými daty dále pracovat a dlouhodobě je chránit
MIX - speciální metadatový formát pro technická metadata o digitálním obrazu
METS ALTO případně ALTO XML - metadatový formát pro vyjádření OCR – rozpoznávání textu. Díky tomuto formátu lze prohledávat text v obrazových dokumentech a zobrazovat ho uživateli.
Je nutné si uvědomit, že typů dokumentů, které budou v systému uchovávány, bude více a ne pro všechny je vhodný jeden typ popisných metadat (jednotlivé obrazy, entity složené z více
obrazů, audio, video apod.).
Ochranná metadata a PREMIS a METS
Termín ochranná metadata zahrnuje několik kategorií obyčejně užívaných k rozlišení typů metadat. Jsou to:
- – administrativní (včetně práv a povolení, historie provedených akcí apod.)
- – technická
- – strukturální
PREMIS je metadatový formát pro dlouhodobou archivaci založený na modelu OAIS a jako takový je široce využívaný v komunitě zabývající se dlouhodobou ochranou digitálních dat. Soupisem elementů formátu a jejich využití je PREMIS Data dictionary. Formát, díky svému datovému modelu, dokáže tak říkajíc naplnit části METSu určené pro administrativní metadata. Jde o část METS nazvanou amdSec (tj. administrativní metadata).
Samotná implementace PREMISu do METSu bude následující, běžně využívaná v mnoha knihovnách a zároveň přímo doporučená radou pro formát PREMIS.
| METS část amdSec | využité části formátu PREMIS |
| techMD - technická metadata | PREMISobject + případné další (MIX) |
| rightsMD | |
| - administrativní práva | PREMISrights |
| - legislativní práva | METSrights + PREMISagent |
| sourceMD - popis původce údajů | nepoužije se |
| digiprovMD - metadata o událostech | PREMISevents + PREMISagent + MIX |
