Osobní nástroje
Nacházíte se zde: Úvod Webarchiv
Navigace
« září 2010 »
Po Út St Čt So Ne
12345
6789101112
13141516171819
20212223242526
27282930
Odkazy

 IOP_EU_logo

 

MVCR_logo

 

MKCR_logo

 

NK logo

 

logo_mzk_nove

 
Akce dokumentů

Archivace webu v rámci projektu NDK

Autor: Jan Hutař Poslední změna: Středa 23.06.2010 11:18

Kromě digitalizace analogových dokumentů je významnou prioritou projektu NDK i kvalitní podchycení, dlouhodobá ochrana a zpřístupnění nejefemérnějších dokumentů (český web). Jde o dokumenty publikované primárně a pouze v digitální podobě. V průběhu trvání projektu bude podchyceno cca 4 000 000 000 souborů, které tvoří webové stránky.

Objem zpracování
WebArchiv data budou uložena ve formátu ARCs nebo WARCs souborů o velikosti přibližně 100MB. Ingest ARC/WARC souborů, které vzejdou z činnosti WebArchivu, nebude probíhat kontinuálně. Počítá se se dvěma sklizněmi českého webu ročně, tj. vždy po ukončení sklizně se budou data ukládat do LTP systému a do subsystému zpřístupnění. Budou se ukládat ARC/WARC soubory o velikosti 100 MB, tj. při 100 % variantě 173TB za projekt = 1 730 000 souborů = 1 572 souborů denně (5 let, pracovní dny 220 v roce) = 0,15 TB denně. Ukládání však nebude probíhat denně, nýbrž dávkově.

Podrobněji o technologii archivace webu používané v projektu NK a MZK a právních podmínkách zpřístupnění obsahu webarchivu se lze dočíst na portálu http://webarchiv.cz/ 

webarchiv_logo


Tento portál vyhovuje následujícím standardům: