Strukturering og dokumentasjon

UiTs Prinsipper og retningslinjer for forvaltning av forskningsdata ved UiT pålegger alle ansatte og studenter å dokumentere sine data etter beste praksis og med tanke på fremtidig gjenbruk:

«Forskningsdata skal utstyres med dokumentasjon i form av metadata, metodebeskrivelser og varige identifikatorer som gjør andre forskere i stand til å søke etter og ta i bruk dataene. Metadata skal følge internasjonale standarder/de facto-standarder der dette finnes og gi en beskrivelse av datainnholdet med tanke på fremtidig bruk.»

Det er viktig at alt arbeid med forskningsdata dokumenteres grundig ved hjelp av rikelig med metadata og en beskrivende ReadMe-fil. Det er god praksis å begynne dokumentasjonen tidlig og fortsette å legge til informasjon i løpet av prosjektet. Prosedyrer for dokumenteringen bør etableres allerede i planleggingsfasen. Dersom strukturering og dokumentasjon er noe du utsetter til senere, er det fare for at viktig informasjon blir borte eller blir direkte feil. Det kan spare deg mye tid og unødvendig dobbeltarbeid om du planlegger arbeidet nøye.

Metadata er strukturert og standardisert informasjon om dataene dine. Økt fokus og krav om metadata skyldes at de er essensielle for å gjøre forskningsdata FAIR. Maskinlesbare metadata-skjema muliggjør indeksering og søk, og sørger for kontekstuell informasjon som er viktig for å forstå og gjenbruke dataene på tvers av teknologiske plattformer, institusjoner og landegrenser. Kvaliteten og omfanget på metadataene avgjør graden av FAIR. Det er derfor viktig at dataene dokumenteres ved hjelp av vel-utfylte metadataskjema.

Mange dataarkiv, organisasjoner og tidsskrifter stiller egne krav til metadata. Sjekk dette på et tidlig tidspunkt så du vet hvilke metadata du bør samle for ditt prosjekt.

Det er utviklet mange ulike standarder for metadata-dokumentasjon, både generiske og fagspesifikke. Følg de vitenskapelige konvensjonene som er utviklet for ditt fag, og når det er mulig bør du benytte standardiserte termer, taxonomier/ontologier og vokabular. Eksempler på generiske metadata-standarder er Dublin Core, Darwin Core (biologi), og Data Documentation Initiative. Oversikter over ulike standarder finnes hos Research Data Alliance, FAIRSharing.org og Digital Curation Centre.

For enkelte metadata-standarder er det utviklet verktøy som kan forenkle dokumenteringen. Men for de fleste tilfeller vil det være mest hensiktsmessig å samle informasjonen i en ReadMe-fil som lagres sammen med dataene (se nedenfor). Dette vil også være beste måten å dokumentere forskningen om det ikke finnes noen metadata-standard for ditt fagfelt.

ReadMe-filer er rene tekstfiler som er utbredt brukt for å beskrive programvarepakker. Når man jobber med data kan det være nyttig å lage en ReadMe-fil som følger datasettet og fungerer som en guide for å forstå dataene. ReadMe-fila skal sørge for at dataene kan forstås av deg selv på et senere tidspunkt, eller av andre når datasettet deles og publiseres.

Det anbefales at man oppretter ReadMe-fila på et tidlig tidspunkt og legger den i hovedmappa for datasettet. Her kan fila oppdateres hver gang man har utført en operasjon på dataene.

ReadMe fila skal beskrive hvordan datasettet er opprettet, hvor fullstendig det er, og hva slags hvilkår det eventuelt er på gjenbruk. Mye av innholdet i en ReadMe-fil vil overlappe med generell metadata-info, men ReadMe-fila skal i tillegg inneholde detaljert metodebeskrivelse, samt oversikt over filene og forklaring på filenes innhold. Vær spesifikk og tydelig i beskrivelsene. Definer uttrykk og akronymer, og bruk etablerte fagtermer. Dette er essensielt for å gjøre datasettet FAIR og gjenbrukbart. En bonuseffekt ved å føre en god metodebeskrivelse i ReadMe fila, er at teksten kan gjenbrukes i artikkelpublikasjoner.

En ReadMe-fil må minimum inneholde dette:

Generell bakgrunnsinformasjon (tittel, DOI, kontaktinfo, dato, sted, eierskap, finansiør).
Metodebeskrivelser (protokoller, instrumenter, programvare).
Filoversikt.
Filspesifikk informasjon med oversikt over variabler og enheter.
Referanse og vilkår for gjenbruk.

Du finner maler og eksempler på ReadMe-filer i brukerguiden for UiT sitt forskningsdataarkiv, DataverseNO.

Eksempler på annen relevant dokumentasjon som bør følge datasettet:

Beskrivelser, instruksjoner og protokoller for innsamling, prosessering og analysesteg.
Konfigurasjonsfiler og loggfiler fra kalibrering, prosessering og analyse.
Ordbøker og kode-skjema.
Variabellister.
Informasjonsskriv og samtykkeskjema.
NSD-meldeskjema og etiske godkjenninger.
Spørreskjema og intervjuguide.
Tillatelser og lisenser fra eventuelle rettighetsinnehavere.

Systematisering og navngiving av filer og mapper
Det er viktig at du og dine kollegaer på et tidlig tidspunkt enes om hvordan forskningsdataene skal organiseres og at dette følges av alle involverte parter. Lag en plan for hvordan dataene skal systematiseres i filer og mapper, og hvordan disse skal navngis. Gode og konsise fil- og mappenavn vil være essensielt.

Generelle tips for organisering av filene:

Hierarkisk mappestruktur kan være nyttige for å holde orden og strukturere dataene.
Organiser mappene i relevante kategorier.
Bruk konsistent navnestruktur på alle mappene. La navnestruktur på mappene gjenspeile innholdet i mappene.
La mappestrukturen gjenspeiles i filnavnene. Da blir lettere å beholde orden når du senere skal arkivere dataene.

Bruk en navnsetting som er meningsbærende i prosjektet. Det skal være mulig å forstå innholdet i en fil uten å åpne den.

Noen grunnleggende råd for valg av navn på filer og mapper:

Bruk konsistente filnavn.
Bruk beskrivende, men korte filnavn (< 25 tegn).
Unngå mellomrom. I stedet kan du bruke understrek (f.eks. first_study), bindestrek (f.eks. first-study) eller kamelstil (FirstStudy).
Unngå spesielle tegn som \ / ? : * ” > < | : # % ” { } | ^ [ ] ` ~ æÆ øØ åÅ äÄ öÖ.
Bruk internasjonal datoformat: ÅÅÅÅ-MM-DD (t.d. 2021-06-01).
Bruk flere siffer dersom filene nummereres (f.eks 001 i stedet for 1). Da unngår man rot ved sortering.

Noen elementer som kan inkluderes i filnavn er f.eks:

Dato/ tidsintervall/sted.
Navn på studie/prosjekt.
Versjonsnummer.
Fil-innhold.
Navn/initialer på forskeren.

Unngå:

Ikke-beskrivende, generiske mappenavn som f.eks «Aktuelt».
Personnavn på mapper innad i et prosjekt, mappenavn skal gjenspeile innholdet.
Overlappende kategorier eller flere lignede mapper plassert på ulike steder.
Flere kopier av samme fil i forskjellige mapper. Ved behov kan man lage snarveier til en fil.

Fil- og mappenavn styrer gjerne hvordan filene sorteres. Dermed kan ønsket sortering være avgjørende for valg av navnesyntaks.

Husk å dokumentere struktur og navnesyntaks i en ReadMe-fil (se ovenfor) som plasseres på øverste nivå i mappehierarkiet.

Dersom du ønsker å lære mer om strukturering og dokumentering av forskningsdata arrangeres det hvert semester et webinar om temaet. På kurssiden vil du også finne powerpointpresentasjon med mer informasjon.

Dersom du trenger råd og veiledning relatert til metadata og dokumentasjon kan du kontakte forskningsstøtte-teamet på researchdata@hjelp.uit.no.

Sist endret: 14.12.2023, endret av: Noortje Haugstvedt

Forskningsdataportalen

Strukturering og dokumentasjon