Personal tools
You are here: Home Digitalizace v NK
Navigation
« March 2010 »
Mo Tu We Th Fr Sa Su
1234567
891011121314
15161718192021
22232425262728
293031
 
Document Actions

Digtalizace v NK ČR

by Jan Hutař last modified 2009-03-11 08:56

Digitalizace a digitální zpřístupnění dokumentů

(text připraven podle materiálů NK ČR)

NK ČR provozuje dvě pracoviště digitalizace. Prvním je pracoviště přímé digitalizace rukopisů a vzácných dokumentů, které vzniklo na základě aktivit soustředěných kolem programu Paměť světa, a které NK ČR provozuje ve spolupráci s firmou Albertina icome Praha.

Druhým pracovištěm je pracoviště digitalizace mikrofilmů, které bylo vybudováno díky realizaci projektu ”Digitalizace mikromédií” v letech 1997 až 1999. Pracoviště zajišťuje přípravu dokumentů pro mikrofilmování a digitalizaci včetně tvorby metadat, skenování mikrofilmů, spojování indexních údajů s obrazovými soubory a zpřístupňování dokumentů prostřednictvím internetu, lokální sítě NK ČR a CD-R médií.

Skenování mikrofilmů a úpravy obrazových dat

Pro skenování mikrofilmů NK ČR používá skenery SunRise a Wick and Wilson, které umožňují skenovat svitkové mikrofilmy 35 a 16mm a mikrofiše. Výstupem jsou obrazové soubory v 16 bitové šedé škále, ve formátech TIFF, JPEG a GIF. Kromě uvedených skenerů disponuje NK ČR také hybridní kamerou, která umožňuje vytvářet v jednom procesu mikrofilm i digitální záznam. Obrazové soubory vyžadují následné úpravy, zejména pootočení a ořez, převzorkování ve formátu JPEG, konverzi do formátu DjVu. U vybraných titulů jsou obrazové soubory zpracovávány technologií OCR pro získání textového formátu. Textový formát však neslouží pro zpřístupnění uživatelům, ale pouze pro vyhledávání pomocí nástroje CONVERA Retrieval Ware. Obrazový formát považujeme za základní, protože zachovává původní grafickou podobu dokumentu a zabezpečuje vyšší úroveň autenticity. Pro úpravy obrazových dat používá NK ČR systém Sírius.

Financování digitalizace

VISK, Norské fondy.

Objem dat

V digitální knihovně NK ČR Kramerius je v současné době 6 milionů stran digitalizovaných dokumentů. Z toho je asi 1 milion stran monografií.

Schema současného workflow

V současné době jsou data vznikající v projektu Kramerius  v rámci programu VISK dodávána ve dvou složkách, v archivní kopii a v kopií pro systém Kramerius. Archivní složka obsahuje obrazové soubory v jpg, metadata k obrazovým dokumentům v textovém souboru, textový soubor s OCR, dále soubor obsahující popis struktury dokumentu s názvem odvozeným od čísla zakázky, kontrolní součet MD5, strukturální a administrativní metadata. Složka pro kramerius obsahuje obrazové soubory v djvu se stejnými pojmenováními, textové soubory administrativními metadaty, textové soubory s OCR, textové soubory obsahujíc administrativní metadata k textovým souborům, soubor obsahující strukturu dokumentu a strukturální a administrativní metadata.

Kromě toho do úložitě v současné době vstupují také data z Projektu Manuscriptorium a Webarchiv.


Projekt IOP

Cílem projektu je vybudování dvou digitálizačních pracovišť v NK ČR a v MZK v Brně a systém pro douhodou archivaci digitálních dokumentů. Projekt by měl umožnit digitalizaci bohemikálních dokumentů z 19. a 20. století (celkem asi 300 milionů stran) během asi 20 let, během vlastní doby trvání projektu (2010-14) by mělo být digitalizováno asi 80 milionů stran. K digitalizaci by měla být využita nejnovější technologie robotického skenování (některé z přístrojů 4DigitalBooks, Treventus, Kirtas, Qidenus)

Prezentace k tématu z konference Knihovny současnosti 2008, Seč, PhDr. Jiří Polišenský, NK ČR

Typy operací plánovaného robotnického pracoviště:

Pracoviště výběru dokumentů Pracoviště přípravy Pracoviště skenování Pracoviště zpracování dat
  • vyjmutí svazků z regálu a provedení výpůjčky
  • kontrola čárového kódu
  • kontrola fyzického stavu knihy
  • transport dokumentů na místo přípravy
  • provedení výpůjčky
  • převzetí digitalizovaných knih
  • kontrola konzistence odkazů ze systému Aleph do Krameria
  • vrácení knih do skladu
  • vytváření sbírky pomocí čárových kódů v systému ALEPH
  • export záznamů ze systému ALEPH do systému RELIEF kontrola duplicit
  • kontrola konzistence dat (porovnání údajů na záznamu a titulním listu)
  • vyřazení duplicit a nestandardních dokumentů (zjevně poškozených, neúplných, s nekonzistencemi dat či identifikačních údajů)
  • konverze bibliografického záznamu do popisných metadat dle DTD
  • rozhodnutí o způsobu zpracování (Periodical, Monograph, Monograph Unit)
  • rozhodnutí o zpracování „component parts“
  • zjištění typu písma pro OCR (fraktura x antikva)
  • zjištění a označení obsahu
  • zjištění možností zpřístupnění pomocí souborů autorit a stanovení roku zveřejnění
  • vytvoření denní skenovací dávky v systému Reliéf (identifikace denní dávky, identifikace dokumentu - čárový kód, identifikace zakázky, popisná metadata)
  • vrácení vyřazených svazků
  • předání dokumentů k dalšímu zpracování (vytvoření záznamu, vytvoření jednotek, oprava nesprávných údajů)
  • transport připravených dokumentů na místo skenování
  • převzetí digitalizovaných dokumentů z pracoviště zpracování dat
  • kontrola fyzického stavu knihy
  • export dat ze systému KRAMERIUS do systému RELIEF
  • kontrola údajů v systému RELIEF
  • import dat do NKC – SKC
  • předání digitalizovaných knih na pracoviště výběru dokumentů
  • přejímka denní dávky knih včetně indexní složky (book folder)
  • vytvoření skenovací složky (scann folder)
  • skenování
  • kompletace skenů (scanns assembling)
  • kontrola úplnosti (integrity inspection)
  • předání indexní složky, skenovací složky a knih k dalšímu zpracování
  • převzetí denních dávek knih, indexních složek a skenovacích složek
  • stránkování dokumentu (dokument pagination) – vytvoření struktury dokumentu
  • úpravy obrazových souborů: ořez a narovnání, potlačení pozadí a průtisků (image treatment)
  • převzorkování a konverze obrazových souborů (jpg a DjVu)
  • kontrola kvality obrazových souborů (image quality inspection)
  • Kontrola a opravy struktury dokumentu, vytvoření opravné složky (correction folder)
  • zpracování OCR a vytvoření OCR složky (OCR folder)
  • vytvoření technických a administrativních metadat
  • vytvoření komplexního dokumentu (digital document aggregation): SIP
  • import digitálních dokumentů na úložiště (archiv + Kramerius)
  • vrácení knih

This site conforms to the following standards: