Sist endret: 30.10.2020

Metadata

Metadata er informasjon som beskriver og gir mening til data og er viktige hjelpemidler for å kunne finne, vurdere, forstå og bruke et datasett.

Kort forklart er metadata «data om data», det vil si informasjon som beskriver data og gir dem mening. Uten gode metadata vil det ofte være vanskelig eller umulig å forstå informasjonen i datasettet og hvordan dataene kan brukes. Metadata er også avgjørende for at dataene skal være søkbare og gjenfinnbare.

I tillegg til at metadata er viktig for å øke datasettets verdi og gjenbrukbarhet for andre, er det også viktig internt i et prosjekt for å ha oversikt og kontroll over datahåndtering og analyse. Metadata skal også kunne publiseres selv om selve datasettet ikke kan publiseres. 

Typiske metadata er informasjon om hvem som har produsert eller er ansvarlig for dataene, hvilket fagfelt det er snakk om, hva slags type data det gjelder og hvilke formater de er i. Metadataene kan også inkludere informasjon om utstyret eller programvaren som er brukt. 

Det er viktig å tenke langsiktig, slik at det er mulig å bruke og nyttiggjøre seg metadataene i fremtiden, når det kanskje ikke lenger er mulig å få tak i riktig utstyr eller versjon av programvaren. Derfor bør metadata også inneholde opprettelsesdato, og eventuelt redigeringsdato for datasettet.

Ulike typer metadata

Det skilles ofte mellom ulike typer metadata.

  • Beskrivende - for eksempel navn på forfatter(e) / forsker(e), tittel på dokumentet osv.
  • Administrative - for eksempel opprettelsesdato, versjonering, lisenser
  • Strukturelle - for eksempel forholdet mellom filer, betydningen av variabler
  • Tekniske - for eksempel informasjon om format og eventuell programvare eller maskinvare

Dette er ikke en utfyllende liste, men kan være et utgangspunkt for å tenke over hvilke metadata som bør være med for det aktuelle datasettet.

I tillegg kan metadata beskrive ulike nivå. Metadata på prosjektnivå kan beskrive den overordnede konteksten hvor data ble samlet inn, inkludert hvilke forskere som deltok og hvordan prosjektet ble finfaisert. Metadata om datasettet er mer konkret og detaljert, og kan for eksempel inkludere opplysninger om måleinstrumenter som ble brukt og beskrivelse av de ulike variablene. Oregon State Unviersity har utfyllende informasjon og eksempler på metadata på ulike nivå.

På lik linje med data, bør metadataene være interoperable (ifølge FAIR-prinsippene), noe som innebærer at de skal være maskinlesbare og bruke konsistente vokabularer, de skal være standardiserte, og de skal beskrive datakvaliteten.

Readme-fil

En viktig måte å tilgjengeliggjøre metadata på, er en Readme-fil som inneholder informasjon om datasettet. Dette gjør det mulig for andre å tolke og bruke dataene riktig. Filen bør inneholde informasjon om hvilke filer som finnes i datasettet og andre viktige metadata, eventuelt en Readme-fil for hver datafil i datasettet, samt lisensieringsinformasjon. Readme-filen bør være i ren tekst.

Man bør også tenke på hvordan man navngir filene og lagrer dem, for at det skal være lett å finne dem igjen. Det er viktig å ha en standardkonvensjon for navngivelse og internasjonale datoangivelser. Se også informasjonsartikkelen om organisering av data.

Metadatastandarder

Det finnes en rekke forskjellige metadatastandarder. Noen er generiske og kan brukes for alle fagfelt, andre er tilpasset spesifikke fag og disipliner. 

Dublin Core er en generisk metadatastandard som består av en liste over elementer for å beskrive et datasett eller et annet digitalt objekt. Mange åpne dataarkiv bruker Dublin Core som generisk metadatastandard. Det finnes også en egen variant av Dublin Core for biodiversitetsdata, Darwin Core. Innenfor samfunnsvitenskap brukes gjerne DDI (Document Documentation Initiative). 

RDA (The Research Data Alliance) har en katalog over metadatastandarder: Directory of metadata standards.