Webbarkivering

Att bevara webbplatser

Sydarkivera samlar årligen i samtliga kommunmedlemmars externa webbplatser. Insamling av webbsidor för bevarande sker dels eftersom webbsidor är allmän handling och dels för att visa hur kommunikation sett ut mellan kommun och invånare. Även för att allmänhet och forskare kan ha intresse av att se hur kommunernas webbsidor sett ut under olika tidsperioder.

I första hand bevaras kommunwebbplatser, men även andra webbsidor som har bevarandevärde. I de fall det finns övriga sidor som kommunerna önskar bevara gör Sydarkivera i dialog med aktuell kommun en bedömning om bevarandevärde finns. Om så är fallet samlas även sådana webbsidor in. Under 2018 planeras en inventering av vilka webbplatser, förutom kommunernas externa webbplatser, som finns hos förbundsmedlemmarna.

Om tekniken

Insamling av webbplatser görs med hjälp av crawlingteknik. Sydarkivera använder väl beprövade verktyg för detta ändamål, bland andra Heritrix som är framtaget av Internet Archive. Crawlingverktyg samlar in webbplatser genom att följa länkstrukturen på ett sätt som liknar en mänsklig användares sätt att klicka sig runt på en webbplats. I loggar kan webbcrawlern synas som en ”flitig” användare som besökt samtliga sidor på en specifik webbplats. Insamlingen går oftast klar på ett par timmar eller ett dygn. Resultatet blir en klickbar kopia av hur en viss webbplats såg ut vid tidpunkten för insamlingen. Det insamlade materialet packas i formatet WARC (internationell standard ISO 28500:2009, standarden ersätts av ISO 28500:2017) tillsammans med förklarande information (metadata). För att kunna titta på innehållet används verktyget Open Wayback som Internet Archive också står bakom. Via Wayback Machine är det möjligt att söka fram insamlade sidor, se datum för insamlingar och klicka runt bland det insamlade materialet.

Oftast blir resultatet av insamlingarna tillfredsställande men om något går fel kan Sydarkivera behöva göra om insamlingar igen, efter att inställningarna har konfigurerats. Vi tillämpar även dubbel bevarandestrategi genom att använda ytterligare ett verktyg för insamlingar som kallas HTTrack. Det är också en webbcrawler som fungerar på liknande sätt som Heritrix men det insamlade materialet packas istället lokalt i mappar som ett litet bibliotek med den insamlade webbplatsens innehåll. HTTrack skapar också en index-fil som gör det möjligt att surfa på de webbsidor som samlats in.

I det stora hela påverkas inte användarstatistiken nämnvärt. Det är möjligen om statistik för just den aktuella insamlingsdagen tas fram. Sydarkivera meddelar respektive kommun innan insamling påbörjas.

Veckorutin för insamling och kontroll

Sydarkivera samlar in samtliga kommunmedlemmars externa webbsidor en gång per år. Under 2018 kommer vi även att göra vissa testinsamlingar av andra för kommunerna relevanta webbsidor med bevarandevärde. Inför insamling kommer Sydarkivera att meddela att arbetet är på väg att påbörjas. En överenskommelse samt information om hur insamling går till skickas ut till respektive kommun innan arbetet påbörjas. Efter insamlingen kontrolleras och analyseras materialet och sedan får varje medlemskommun titta på resultatet och godkänna insamlingen. Det insamlade materialet kommer sedan att, som det ser ut i dagsläget, att tillgängliggöras via kommunarkiven i respektive kommun.

Dokument

Om tjänsten

Ansvarig för tjänsten: Annie Olandersson Stille
Typ av tjänst: Bastjänst (ingår i medlemsavgiften)