Veebiarhiiv

Vastavalt säilituseksemplari seadusele Eesti Rahvusraamatukogu kogub ja säilitab Eesti veebisaite, mis on kättesaadavaks tehtud:
1) domeenil .ee või muul Eestiga geograafiliselt seotud tippdomeenil;
2) muul tippdomeenil ja on oluline Eesti kultuurile;
3) Eesti Vabariigi kodaniku, Eesti Vabariigis registreeritud juriidilise isiku või Eestis viibiva füüsilise isiku poolt ja on oluline Eesti kultuurile.

Erandina ei arhiveerita andmekogusid, mille säilitamine on ette nähtud teiste õigusaktidega (näiteks riigiasutuste avalikud dokumendiregistrid); võrguväljaande reaalajas voogedastusi ning võrguväljaandeid, mille säilitamiseks vajaminev andmemaht on esitatud sisu kohta ebamõistlikult suur. Lisaks sellele ei salvestata ainult reklaami või muud müügialast informatsiooni sisaldavaid võrguväljaandeid; hasart- või muid mängukeskkondi; internetis üldsusele kättesaadavaks tehtud informatsiooni korrastavaid võrguväljaandeid ning originaalse sisuta võrguväljaandeid.

Salvestatud veebilehed on nähtavad ainult raamatukogus kohapeal. Vabalt kättesaadavad on ainult riigiasutuste veebilehed ja saidid, millele on saadud autoriõiguse omaja vastav nõusolek.

Eesti veebiarhiivi arendamises osaleb Eesti teadus- ja mäluasutuste spetsialistide nõukoda, mille eesmärk on nõustada rahvusraamatukogu arhiveeritava materjali valikul ning kättesaadavaks tegemisel ning ühtlasi esindada praeguste ja tulevaste uurijate huve.

Eesti Rahvusraamatukogu on 2012. aastast Rahvusvahelise Veebiarhiveerimise konsortsiumi (International Internet Preservation Consortium) liige.

Veebiarhiivi avalik kasutajaliides asub aadressil http://veebiarhiiv.digar.ee.

 

Tehniline info

Veebilehtede salvestamiseks kasutatakse arhiveerimisrobotit Heritrix, mis laeb veebist alla veebisaidi koos kõigi kuvamiseks vajalike elementidega ning salvestab need WARC vormingusse. Spetsiaalse tarkvara abil on võimalik hiljem kuvada arhiivis olevat veebisaiti kogu oma funktsionaalsuses.

Arhiveerimisrobotile jääb kättesaamatuks sisu, milleni jõudmiseks peab sooritama otsingu. Samuti on probleemsed skriptirikkad saidid ning voogmeedia abil edastatav heli või video.

Arhiveeritav sait piiritletakse enamasti domeeniga, millel see asub (näiteks nlib.ee) ning seetõttu võib saidi arhiiviversioonis puududa sisu, mis asub teistel domeenidel, näiteks fotogalerii mõnes fotojagamise keskkonnas.

Saitide terviklikkuse huvides ei järgi arhiveerimisrobot robots.txt määranguid, mis on eelkõige loodud reguleerima otsingumootorite robotite tegevust.

Veebiarhiivis oli seisuga 31.12.2017 üle 72 tuhande veebisaidi kogumahus ligi 25 TB (kogutud ajavahemikus 2010-2017).

Soovitan saiti

Uusi veebilehti tekib juurde lausa igapäevaselt, mistõttu vajame sinu abi nende kindlakstegemisel. Samuti ootame infot sulgemisel või oluliselt uuenevatest (nt. sisuhaldustarkvara vahetumine) veebilehtedest, et need veel enne sulgemist/muutumist salvestada.

Selleks palun täida vorm.

Küsimuste korral kirjuta meile aadressil veebiarhiiv@nlib.ee.

Veebisaidi omanikule

Vastavalt 1. jaanuarist 2017 jõustunud Säilituseksemplari seadusele võib kogutud veebisisu vabalt Internetis kättesaadavaks teha ainult veebisaidi autoriõiguste omaja nõusolekul.

Nõusoleku andmiseks täida allolev avaldus ja saada digitaalselt allkirjastatuna e-posti aadressil: veebiarhiiv@nlib.ee.

Üldsusele kättesaadavaks tegemise loa vorm asub siin.

Soovitused veebimeistrile

Kuidas teha arhiivisõbralikku lehte?

Järgnevalt anname näpunäiteid selles osas, kuidas ehitada veebilehekülge nii, et ta oleks arhiivis korrektselt nähtav.

META andmed, pealkiri

Igal veebilehel on olemas pealkiri, kirjeldus, lehe autor ning võtmesõnad. Need andmed on tegelikult arhiivi salvestamisel äärmiselt olulised. Mida detailsem on informatsioon, seda täpsemini on võimalik seda veebilehekülge meie arhiivis kirjeldada. Seega veebilehe loomisel pöörake kindlasti nendele andmetele tõsist tähelepanu.

Sessioonid

Sessioonide kasutamisel tuleks kindlasti arvestada sellega, et arhiveerimisel külastab Teie veebilehekülge robot, mis orienteerub ainult linkide alusel. Ta ei suuda teha erinevaid inimestele omaseid otsuseid ning nendest lähtuda. Mida rohkem on veebilehekülg seotud sessioonide kasutamisega, seda suurem on tõenäolsus, et tema kuvamine hiljem ei pruugi anda õiget tulemust. Arhiivist veebilehte vaadates ei looda sessioone ning neid ei säilitata.

Lingid

Linkide lisamisel leheküljele lähtuda teadmisest, et eelistatud kujul on relatiivsed lingid, võimalusel vältida absoluutseid linke. Eriti tasuks pöörata tähelepanu nendele linkidele, mis viitavad otse konkreetsele materjalile. (dokumendid, pildid vms.) Näiteks paljud veebilehe autorid koostavad veebilehekülje sisu oma kohalikus arvutis ning loovad seal linke ka vajalikele dokumentidele. Hiljem veebiserverisse tõstes jäetakse aga nende lingid kontrollimata ning avalikus veebis jääb dokument kättesaamatuks, sest absoluutne aadress viitab kasutaja enda kohalikul kettal olevale aadressile, mitte serverisse.

Veebilehekülgede sisule viitavad lingid EI TOHI olla seotud HASH algoritmiga seotud süsteemiga.
Näiteks http://www.teieserver.ee/t=asfsafg987gas098gsa987yasgas897897asg

Antud lingi puhul on arhiveerimise ajal võimatu selgeks teha, kus parasjagu robot tegeleb ning kui ta toimetab sisuga, mida arhiivi vaja ei ole, siis ei saa seda kuidagi ka piirata. Algoritmi poolt koostatud aadress on pidevalt erinev ning see ei oma ühist tunnust, mille alusel süsteemis filtreid moodustada. Selliste veebilehekülgede arhiveerimine lihtsalt peatatakse või võetakse kogu materjal olenemata sellest, kas seda soovitakse arhiivis kuvada või mitte.

Absoluutsete linkide soovitus kehtib samal serveril asuvate materjalide osas, mille poole ei pea täisaadressiga pöörduma.

Videod, muusika vms.

Kui lisate oma veebilehele olulise video, muusikateose või muu meedia, siis tuleb arvestada sellega, et arhiivis näiteks YouTube video kuvamine ei ole alati toimiv. Sama lugu on kõikide kolmandate osapoolte poolt koostatud meediat esitavate tarkvaradega. Need kas toimivad või mitte. Kui soovitakse, et materjal kindlasti jõuaks arhiivi, tuleks lehele lisada otsene link meediafailile, mida on võimalik alla laadida. Sellisel juhul salvestab ka meie robot selle endale andmebaasi ning olgugi, et veebilehel olev mängija seda ei suuda esitada, saab hiljem lehte sirviv kasutaja vastava faili alla laadida ja seda vaadata oma arvutis.

Välised scriptid

Kui vähegi võimalik, siis hoiustada scriptide faile oma serveris. Näiteks jQuery või mõne muu sarnase süsteemi faile. Kuna meie arhiivi robotit ei lubata ühe lehe pärast liiga laiahaardelisele materjaliotsingule ülemaailmsetes serverites, siis ei pruugi ta kätte saada ka mujal serverites kasutatavaid lisafaile.

Kalendrid lehel

Kui plaanite kasutada oma leheküljel kalendrit sündmustest teavitamiseks, siis soovitav oleks säilitada aadressiribal parameetritena kindlad mustrid, mille alusel on võimalik seadistada vajalikud piirangud.

Näiteks : index.php?cal=1&d=22&m=01&y=2012

Kui aga kalendri parameetrid pole tuvastatavad, pole meil võimalik robotile ette anda piiranguid ning ta võib Teie leheküljele jääda igaveseks (kui just süsteem ise säilitab konkreetsed kuupäevade vahemikud)

About Estonian Web Archive

According to Legal Deposit Copy Act National Library of Estonia collects, preserves and gives access to Estonian websites: 1) made available in the the top level domain (TLD) .ee or another TLD geographically linked to Estonia; 2) in another top level domain and is essential to the Estonian culture; 3) by a citizen of the Republic of Estonia, a legal person registered in the Republic of Estonia or a natural person staying in Estonia and is essential to the Estonian culture.

Categories of web publications containing negligible information for the Estonian culture and therefore are not collected:

  • websites containing only commercial content

  • gambling and other gaming sites

  • sites with an aim to organize Internet information (e.g. web directories)

  • sites that contain information from other sources and are not original in content.

The Act does not apply to databases whose preservation is provided for by other legislation; real-time streaming of web publication; web publication requiring an unreasonable large amount of data for preservation regarding its content.

Archived websites are available onsite. Public access is only to governmental sites and to sites with copyright holders permission.

Since 2010 the Estonian Web Archive Advisory Board with representitives from memory and research institutions provides advice on choosing the material and making it accessible; the broad-based working group also represents the interests of current and future researchers.

National Library of Estonia is a member of the International Internet Preservation Consortium (since 2012).

Web archive consists over 72 000 websites with total size of 25 TB collected between 2010-2017.

Public interface of Estonian Web Archive: http://veebiarhiiv.digar.ee/.