Personal tools
You are here: Home Digitalizace v NDK Nové standardy digitalizace (od roku 2012)
Search in NDL

Navigation
« February 2012 »
Mo Tu We Th Fr Sa Su
12345
6789101112
13141516171819
20212223242526
272829
Links
iop_only_logo

 

eu_logo

   

MKCR_logo

 

NK logo

 

logo_mzk_nove

 
Document Actions

Nové standardy digitalizace (od roku 2012)

by Jan Hutař last modified 2011-11-25 20:43

V rámci projektu NDK přistoupí řešící instituce (NK a MZK) ke kompletní změně nastavení digitalizačního workflow a používaných formátů metadat a obrazových dat. Stávající proprietární DTD pro periodika a monografie se přestane používat a dojde k nahrazení za standardizované formáty využívané v ostatních knihovnách při podobných projektech digitalizace a dlouhodobé ochrany digitálních dat. Zároveň dojde ke zveřejnění nové verze systému pro digitální knihovnu Kramerius (verze 4), která bude pracovat se stejnými standardy jako projekt NDK.

Výstupy pracoviště digitalizace

Výstupem pracoviště digitalizace by měl být kompletně zpracovaný digitální dokument obsahující všechny typy metadat a požadovaných digitálních souborů:

  • popisná metadata
  • administrativní metadata
  • technická metadata
  • strukturální metadata
  • archivní obrazové soubory
  • uživatelské obrazové soubory
  • ALTO XML + z něj odvozené TXT OCR  

Bibliografická data zvolených dokumentů budou exportována ze systému ALEPH pomocí souboru XML do systému RegistrDigitalizace.CZ ve formátu, jenž bude odpovídat struktuře MARC-XML. Pomocí konvertoru se vytvoří základní popisná metadata (DMD – descriptive metadata) ve formátu MODS-XML. Tento proces bude probíhat automaticky. 

Dalším krokem bude zpracování obrazových souborů i metadat v softwaru pro workflow. Zde se provede úprava obrazových souborů (ořez a narovnání, potlačení pozadí a průtisků), s využitím OCR a co nejvíce automatizovaných postupů se vytvoří struktura dokumentu a proběhne konverze do uživatelských formátů, generování administrativních metadat (AMD) a propojení všech částí digitálního dokumentu. Komplexní digitalizovaný dokument včetně uživatelských kopií pak bude exportován do LTP systému, uživatelské kopie pak v určité fázi Ingestu v LTP systému poputují do digitální knihovny Kramerius (případně WebArchiv nebo jiné). 

Základní fyzickou jednotkou bude soubor obsahující jednu stranu dokumentu. Zhotovené digitální dokumenty budou předávány k validaci a archivaci LTP systému v definované datové struktuře SIP (Submission Information Package podle konceptu OAIS). SIP bude ve formátu METS. Předpokládáme více variant SIP pro různé typy dokumentů.

 

Formáty a standardy

Pozn. všechna metadata musí být v kodování UTF-8.

Digitalizační linka by měla být schopna vytvářet soubory ve více typech formátů,  např.:

metadata

typ metadat standard (metadatový formát)
popisná metadata MODS, Dublin Core
administrativní metadata PREMIS, MIX
technická metadata PREMIS, MIX
strukturální metadata METS
OCR soubory ALTO XML, z něj odvozené TXT


obrazové soubory (platí pro novodobé dokumenty)

typ souboru použitý formát 
archivní obrazové soubory JPEG2000 lossless, TIFF (pro sken a úpravy), JPG, PDF 
uživatelské obrazové soubory  JPEG2000 lossy, JPG, PDF 

 

METS - bude využit jako formát, do kterého se „zabalí“ další metadatové formáty; počítáme s využitím verze 1.9

MODS - formát popisných bibliografických metadat, vycházející z MARC21 (knihovnický formát na popis klasických dokumentů v knihovnách); počítáme s využitím verze 3.4

PREMIS - speciální metadatový formát na zápis ochranných metadat, určených k tomu, aby LTP systém mohl s uloženými daty dále pracovat a dlouhodobě je chránit. Počítáme s využitím poslední verze 2.0 a částí Premis:object; Premis:events; Premis:agent 

MIX - speciální metadatový formát pro technická metadata o digitálním obrazu; počítáme s využitím poslední verze 2.0

ALTO XML - metadatový formát pro vyjádření OCR – rozpoznávání textu. Díky tomuto formátu lze prohledávat text v obrazových dokumentech a zobrazovat ho uživateli. Počítáme s využitím verze 2.0.

TXT OCR - textový soubor s OCR odvozený z ALTO XML

Je nutné si uvědomit, že typů dokumentů, které budou v systému uchovávány, bude více a ne pro všechny je vhodný jeden typ popisných metadat (jednotlivé obrazy, entity složené z více obrazů, audio, video apod.).

 

Ochranná metadata a PREMIS a METS

Termín ochranná metadata zahrnuje několik kategorií obyčejně užívaných k rozlišení typů metadat. Jsou to:

  • administrativní (včetně práv a povolení, historie provedených akcí apod.)
  • technická
  • strukturální

 PREMIS je metadatový formát pro dlouhodobou archivaci založený na modelu OAIS a jako takový je široce využívaný v komunitě zabývající se dlouhodobou ochranou digitálních dat. Soupisem elementů formátu a jejich využití je PREMIS Data dictionary. Formát, díky svému datovému modelu, dokáže tak říkajíc naplnit části METSu určené pro administrativní metadata. Jde o část METS nazvanou amdSec (tj. administrativní metadata).

Samotná implementace PREMISu do METSu bude následující, běžně využívaná v mnoha knihovnách a zároveň přímo doporučená radou pro formát PREMIS.

METS část amdSec využité části formátu PREMIS 
techMD - technická metadata PREMISobject + případné další (MIX) 
rightsMD   
- administrativní práva  PREMISrights 
- legislativní práva  METSrights + PREMISagent 
sourceMD - popis původce údajů nepoužije se
digiprovMD - metadata o událostech PREMISevents + PREMISagent + MIX 

 

Definice metadatových formátů pro digitalizaci

plně vychází ze specifikace metadat projektu NDK

PERIODIKA

 

    • verze 0.1 (k připomínkování) PDF [2MB] zveřejněno 22.7.2011
    • verze 1.0 PDF [1,9MB] zveřejněno 8.9.2011
    • verze 1.1 (zveřejněno 12.10.2011)
      • finální verze PDF [2,3MB]
      • verze s revizemi (viditelné změny oproti verzi 1.0) PDF [2,4MB]
    • verze 1.2 (zveřejněna 19.10.2011, drobná oprava 25.11.2011)
      • finální verze PDF [0,9kB]

MONOGRAFIE

 

    • specifikace monografií vychází ze specifikace pro periodika
      • odlišná je struktura popisných metadat, logická strukturální mapa
    • verze 0.3 (k připomínkování) PDF [1,5MB] zveřejněno 25.11.2011

Základní specifikace JP2 pro projekt NDK

V rámci digitalizace v projektu NDK (a následně i ve VISK7) počítáme s použítím formátu JPEG2000 pro archivní kopii i pro kopie pro zpřístupnění. Nastavení komprese uživatelských kopií je optimalizováno vzhledem k image serveru (IIP image), který se plánuje pro Kramerius 4. Archivní kopie budou ukládany v bezeztrátové reverzibilní kompresi. Specifikace vychází z potřeb našich aplikací a z porovnání doporučení pro kódování JPEG2000 v jiných zahraničních knihovnách. Úplná specifikace bude zveřejněna v tendru na systémového integrátora projektu NDK.

Pro dokumenty (knihy, periodika) počítáme se skenováním v rozlišení minimálně 300 PPI. Barevná hloubka pro tyto dokumenty bude z důvodu urychlení produkce fixně nastavena na 24bitů RGB.  Dokumenty, kde není barva významová, bude možné v budoucnu snížit bitovou hloubku  na 8bitů, tedy na odstíny šedi.

MC = master copy = archivní kopie

PMC = production master copy = kopie, ze které se vytváří v image serveru jpg pro uživatele

 

Parameter MC PMC PMC
Used for Books, periodicals, maps, manuscripts Books, periodicals Maps, manuscripts
Conversion software used Kakadu Kakadu Kakadu
File format Part 1 (.jp2) Part 1 (.jp2) Part 1 (.jp2)
Lossy or lossless Lossless Lossy Lossy
Typical compression rate 2:1 to 3:1 20:1 to 30:1 8:1 to 10:1
Tiling 4096x4096 (not tested) 1024x1024 1024x1024
Progression order RPCL RPCL RPCL
Number of decomposition levels 5 or 6 5 5 or 6
Number of quality layers 1 12 12
Code block size (xcb = ycb) 6 6 6
Transformation 5-3 reversible filter 9-7 irreversible filter 9-7 irreversible filter
Precinct size 256x256 256x256 256x256
Regions of Interest No No No
Code block size 64x64 64x64 64x64
TLM markers Yes Yes Yes




This site conforms to the following standards: