Veebiarhiiv

Eesti veebiarhiiv on Rahvusraamatukogu hallatav andmekogu, mille eesmärk on säilitada Eesti kultuuripärandisse kuuluvaid veebis avaldatud inforessursse. Selleks kogutakse lähtuvalt Säilituseksemplari seadusele Eesti maatunnusega tippdomeenil .ee või muul tippdomeenil avaldatud Eesti veebisaite.

Riigiasutuste veebilehed ja saidid, mille avaldamiseks on autoriõiguse omaja luba, on vabalt kättesaadavad aadressil http://veebiarhiiv.digar.ee/. 2021 saab kogu arhiivi kasutada raamatukogus kohapeal.

Veebiarhiivi maht on 31.12.2019 seisuga ligi 125 tuhat veebisaidi nimetust kogumahus 60 TB (tihendamata kujul). Eesti Rahvusraamatukogu on Rahvusvahelise Veebiarhiveerimise Konsortsiumi liige.

 

Tehniline info

Veebilehti salvestatakse peamiselt veebirobotiga Heritrix. Programm salvestab veebisaidi koos selle esitamiseks vajalike elementidega WARC failivormingusse. Salvestatav sait piiritletakse enamasti domeeniga, millel see asub (näiteks www.nlib.ee) ning seetõttu võib arhiiviversioonis puududa sisu teistelt domeenidelt, näiteks pildigalerii mõnes fotojagamise keskkonnas.

Arhiveeritud veebisaite saab sirvida veebilehitsejas Wayback’i tarkvara abil, mis teeb kasutajakogemuse samaväärseks Internetis surfamisega. Siiski võib arhiiviversiooni funktsionaalsuses esineda puudujääke. Näiteks jääb salvestamisrobotile kättesaamatuks sisu, milleni jõudmiseks peab sooritama otsingu. Samuti on probleemsed skriptirikkad saidid ning voogmeedia abil edastatav heli või video.

Kasutaja saab veebiarhiivi avalikus liideses (veebiarhiiv.digar.ee) otsida URL aadressi, veebisaidi pealkirja ja kirjelduse alusel (nn sõnaotsing). Täistekstotsingu võimalus puudub. Lisaks saab sirvida veebisaite teemade kaupa ning eraldi konkreetse temaatika või sündmusega seotud veebilehtede kollektsioone (nt Riigikogu valimised, Väliseesti veebilehed jm).

Vabalt kättesaadavate arhiveeritud veebilehtede versioonide vaatamiseks kliki veebisaidi pealkirjale. Seejärel avaneb aken, kus näeb kuupäevi, mil saiti on salvestatud. Kuupäevale klikkides avaneb arhiiviverisoon.

Soovitan saiti

Ootame teavitusi uutest Eesti veebilehtedest. Soovituse saatmiseks täida vorm siin. Samuti ootame infot sulgemisel või oluliselt uuenevatest veebilehtedest.

Veebisaidi omanikule

Vastavalt 2017 jõustunud Säilituseksemplari seadusele võib kogutud veebisisu Internetis vabalt kättesaadavaks teha ainult autoriõiguse omaja nõusolekul.

Nõusoleku andmiseks tuleb täita ja saata avaldus (digitaalselt) allkirjastatuna e-posti aadressil: veebiarhiiv@nlib.ee või tavapostiga (Eesti Rahvusraamatukogu, Tõnismägi 2, 15189 Tallinn).

Kuidas teha arhiivisõbralikku lehte? 

Järgnevalt anname näpunäiteid selles osas, kuidas ehitada veebilehekülge nii, et ta oleks arhiivis korrektselt nähtav.

META andmed, pealkiri

Igal veebilehel on olemas pealkiri, kirjeldus, lehe autor ning võtmesõnad. Need andmed on tegelikult arhiivi salvestamisel äärmiselt olulised. Mida detailsem on informatsioon, seda täpsemini on võimalik seda veebilehekülge meie arhiivis kirjeldada. Seega veebilehe loomisel pöörake kindlasti nendele andmetele tõsist tähelepanu.

Sessioonid

Sessioonide kasutamisel tuleks kindlasti arvestada sellega, et arhiveerimisel külastab veebilehekülge robot, mis orienteerub ainult linkide alusel. Ta ei suuda teha erinevaid inimestele omaseid otsuseid ning nendest lähtuda. Mida rohkem on veebilehekülg seotud sessioonide kasutamisega, seda suurem on tõenäosus, et selle kuvamine hiljem ei pruugi anda õiget tulemust. Arhiivist veebilehte vaadates ei looda sessioone ning neid ei säilitata.

Lingid

Linkide lisamisel leheküljele lähtuda teadmisest, et eelistatud on relatiivsed lingid, võimalusel vältida absoluutseid linke. Veebilehekülgede sisule viitavad lingid EI TOHI olla seotud HASH algoritmiga seotud süsteemiga.
Näiteks: http://www.teieserver.ee/t=asfsafg987gas098gsa987yasgas897897asg. Antud lingi puhul on arhiveerimise ajal võimatu selgeks teha, kus parasjagu robot tegeleb ning kui ta toimetab sisuga, mida arhiivi vaja ei ole, siis ei saa seda kuidagi piirata. Algoritmi koostatud aadress on pidevalt erinev ning see ei oma ühist tunnust, mille alusel süsteemis filtreid moodustada. Selliste veebilehekülgede arhiveerimine lihtsalt peatatakse või võetakse kogu materjal olenemata sellest, kas seda soovitakse arhiivis näidata või mitte.

Absoluutsete linkide soovitus kehtib samas serveris asuvatele materjalidele, mille poole ei pea täisaadressiga pöörduma.

Videod, muusika jms

Kui lisate oma veebilehele olulise video, muusikateose või muu meedia, siis tuleb arvestada sellega, et arhiivis näiteks YouTube’i video kuvamine ei ole alati toimiv. Sama lugu on kõikide kolmandate osapoolte koostatud meediat esitavate tarkvaradega. Need kas toimivad või mitte. Kui soovitakse, et materjal kindlasti jõuaks arhiivi, tuleks lehele lisada otsene link meediafailile, mida on võimalik alla laadida. Sellisel juhul salvestab ka meie robot selle endale andmebaasi ning olgugi, et veebilehel olev mängija seda ei suuda esitada, saab hiljem lehte sirviv kasutaja vastava faili alla laadida ja seda vaadata oma arvutis.

Välised skriptid

Kui vähegi võimalik, siis hoiustada skriptide faile oma serveris. Näiteks jQuery või mõne muu sarnase süsteemi faile. Kuna meie arhiivi robotit ei lubata ühe lehe pärast liiga laiahaardelisele materjaliotsingule ülemaailmsetes serverites, siis ei pruugi ta kätte saada ka mujal serverites kasutatavaid lisafaile.

Kalendrid lehel

Kui plaanite kasutada oma leheküljel kalendrit sündmustest teavitamiseks, siis soovitav oleks säilitada aadressiribal parameetritena kindlad mustrid, mille alusel on võimalik seadistada vajalikud piirangud.

Näiteks : index.php?cal=1&d=22&m=01&y=2012

Kui kalendri parameetrid pole tuvastatavad, ei saa robotile ette anda piiranguid ning ta võib leheküljele jääda igaveseks (kui just süsteem ise säilitab konkreetsed kuupäevade vahemikud).