Gå til hovedindhold

Vejen til FAIRificering

I et nyt studie præsenterer adjunkt Agneta Ghose fra AAU et workflow for FAIRificering af forskningsdata, som kan tjene til bred inspiration for danske forskere, som ønsker at styrke deres forskning gennem bedre data management praksis.
Af
26/03/2024 10:03
Billede
Agneta Chose
Foto: Agneta Ghose

"De retningslinjer og anbefalinger, jeg anfører i artiklen, bygger i høj grad på andre forskeres erfaringer og praksisser, som jeg har forsøgt at tilpasse til LCA-området. På den måde er artiklen et godt eksempel på, hvordan vi som forskere kan- og bør lade os inspirere af gode data management løsninger, på tværs af forskningsområder." Agneta Ghose, Adjunkt, Aalborg Universitet.

Vores modeller er kun så gode, som de data der ligger bag

Agneta Ghose forsker i Life Cycle Assessment (LCA); et værktøj der anvendes til at beregne miljøpåvirkningerne af produkter og processer fra vugge til grav. Ifølge Ghose får LCA stadig mere opmærksomhed i takt med, at forbrugere og virksomheder får fokus på miljøpåvirkningen af forskellige produkter, og det stiller høje krav til håndtering af de data, forskningen bygger på:

"Med det store fokus på vores resultater, er det vigtigt at skabe klarhed over de data, som vores modelleringssystemer hviler på, for i sidste ende afhænger kvaliteten af vores modeller af de data, der ligger bag", Agneta Ghose.

Som forsker anvender hun megen af sin tid med at lokalisere og få adgang til datasæt, og på at ombryde dem til brugbare formater. Hun oplever jævnligt udfordringer relateret til mangelfuld datastyring - f.eks. manglende metadata. Den slags udfordringer er ifølge hende almindeligt forekommende og forsinker og besværliggør forskningsprocessen, og da hun på en workshop om datastyring for første gang hører om FAIR principperne, bliver hendes interesse strakt vakt.

Make Data great again: Om FAIR data principperne

Efter workshoppen begynder hun at undersøge, hvordan datastyring finder sted inden for LCA-domænet og andre forskningsfelter, og i januar 2024 udgav hun artiklen: Can LCA be FAIR? Assessing the status quo and opportunities for FAIR data sharing, International Journey of Life Cycle Assessment, januar 2024

"Jeg var interesseret i at undersøge, hvordan vi som praktikere deler vores data, og hvilke standarder, der guider os. Hvad er infrastrukturen, vi har, der støtter os i at dele data? Og på baggrund af dette: hvilke muligheder der er for at vedtage bedre datahåndteringsprincipper for vores forskning", Agneta Ghose.

I artiklen kortlægger hun, hvordan - og i hvilken udstrækning LCA-data i dag deles og tilgængeliggøres for andre forskere og interessenter i overensstemmelse med FAIR-principperne. Derudover analyserer hun de retningslinjer og den infrastruktur, der er tilgængelig for at støtte datadeling inden for LCA-forskningen og præsenterer en række anbefalinger for bedre data management praksis.

FAIR principperne, som blev introduceret i 2016, fokuserer på at gøre data findbare, tilgængelige, interoperable og genanvendelige på tværs af forskellige videnskabelige domæner. Implementeringen af FAIR-principperne er blevet støttet af initiativer som European Open Science Cloud (EOSC) og lignende internationale projekter, der sigter mod at fremme deling af data på tværs af discipliner og geografiske grænser. På opdrag fra Uddannelses- og Forskningsstyrelsen har DeiC udarbejdet en National strategi for data management baseret på FAIR-principper (2021), som siden 2021 har dannet grundlag for implementering af FAIR data i Danmark.

Findability: Data skal være let at finde både for mennesker og maskiner. Dette opnås gennem brug af unikke og vedvarende identifikatorer (PID’er), klare metadata og en passende placering i søgbare registre eller databaser.

Accessibility: Data skal være let tilgængelige for brugere, uanset om de er offentlige eller begrænsede. Dette indebærer, at data er åbne, eller at der er klare og rimelige betingelser for adgang, såsom licensaftaler eller tilladelser.

Interoperability: Data skal kunne kombineres og integreres med andre data, uanset oprindelsesstedet eller formatet. Dette kræver ensartede dataformater, standardiserede terminologier og protokoller samt klare relationer mellem dataelementer.

Reusability: Data skal være let at genbruge til forskellige formål, herunder reproduktion af forskningsresultater, integration i nye undersøgelser eller anvendelse i forskellige kontekster. Dette kræver, at data er velstrukturerede, dokumenterede og fri for unødvendige begrænsninger eller hindringer.

For at opnå dette mål er der behov for understøttelse igennem et såkaldt FAIR-økosystem, der omfatter en række elementer, såsom data management plans (DMPs), data repositories, teknologisk støtte, data politikker og standarder og data producers/users.

Ghose fremhæver særligt Data Management planer som et vigtigt element. Snarere end blot at være en registrering af dataopbevaring og backup-oplysninger skal DMPs være levende dokumenter, der indeholder oplysninger om alle data og relaterede resultater i et forskningsprojekt. De skal opdateres regelmæssigt og opfylde FAIR-principperne ved at være åbne og tilgængelige, indeholde essentiel metadata og opbevares i interoperable formater i betroede repositories.

Hvordan står det til? Et deep dive i LCA datadeling

For at vurdere den aktuelle praksis med data deling har Ghose undersøgt 25 peer-reviewed LCA-artikler, og undersøgelsen viser en række udfordringer i forhold til FAIR. Af de 25 publikationer indeholdt kun en enkelt en separat PID til datasættet, hvilket er afgørende for dets findbarhed. Derudover blev kun syv ud af de 25 studier udgivet med en åben adgangslicens, hvilket begrænser deres tilgængelighed for andre forskere. Studiet identificerer også en række udfordringer i forhold til interoperabilitet af dataformater. Kun tre studier delte LCI-data i et interoperabelt format, mens andre enten delte data i pdf- eller word-dokumenter. Resultaterne understreger behovet for klare retningslinjer for deling af LCA-data for at sikre deres FAIRness.

Desuden fremhæver undersøgelsen behovet for at udvikle standarder for LCA-data deling. Aktuelt er der ingen overordnede standarder, der angiver en procedure for deling af LCA-data. ISO-standarden tilbyder tekniske specifikationer til rapportering af LCI-data, men mangler principperne for FAIR data deling. Dataformater til LCA såsom EcoSpold2 og ILCD-formater bør udvide skabelonen for at sikre overholdelse af FAIR-principperne.

Workflow for Deling af LCA-data efter FAIR Principper: en trin for trin guide

På baggrund af studiets resultater anbefaler Ghose følgende workflow: 

Billede
FAIR workflow
Foto: https://link.springer.com/article/10.1007/s11367-024-02280-3

En oversigt over FAIR data-økosystemet. Can LCA be FAIR? Assessing the status quo and opportunities for FAIR data sharing, Ghose,  DATA AVAILABILITY, DATA QUALITY, Open access, Volume 29, (2024)

  1. Indsamling af data: Saml data fra industrielle aktiviteter eller eksisterende LCA-studier.
  2. Mærkning af data: Tilføj relevante etiketter til data og definer relationer mellem dem ved brug af domænespecifikke termer.
  3. Brug af maskinlæselige formater: Del data i almindelige LCA-formater som EcoSpold2 eller ILCD. Brug også JSON-LD-format for at muliggøre offentliggørelse af semantisk data.
  4. Metadata: Definér datasettet ved hjælp af GLAD's metadata-deskriptorer for at forbedre tilgængeligheden og opdagelsen af data.
  5. Licens: Tilføj en licens til datasættet for at sikre korrekt genbrug. Overvej forskellige licenser, men husk, at restriktive licenser kan forhindre genbrug.
  6. Offentliggørelse af data: Publicér de FAIR-tilpassede LCA-data i et pålidelig digital repository som Zenodo eller Figshare.
  7. Brug og anerkendelse af FAIR data: Opfordr til genbrug af FAIR-data og anerkend bidrag fra dem, der understøtter FAIR-data.

Ghose understreger, at workflowet i høj grad er inspireret af best practice fra andre forskningsområder, og at det derfor også kan anvendes af forskere uden for LCA-området.  

"Jeg er ikke Data Management ekspert, men en forsker som forsøger at finde bedre data management praksisser, som kan styrke mit forskningsfelt. Og de løsninger jeg lægger frem i artiklen, er ting jeg har lært fra andre artikler om FAIR data management og tilpasset til LCA, derfor mener jeg også, at andre forskere kan lade sig inspirere af dem. Datastyring er af afgørende betydning inden for alle forskningsdomæner. Og i takt med digitaliseringen af forskningsverdenen, bliver de udfordringer vi står overfor mere og mere ens. Derfor er der også grund til at kigge på løsninger og søge inspiration på tværs af forskningsområder og at have en bedre dialog."

Mod en FAIR fremtid 

Som underviser er Agneta Ghose selv meget opmærksom på at understrege vigtigheden af god data management praksis, når hun underviser unge forskere. Hun gør dog også opmærksom på, at hvor visse af løsningerne kan varetages af den enkelte forskere, kræver andre en større indsats i form af indføring af standarder og domænespecifikke repositorier. Hun opfordrer ligeledes til øget fokus på kompetence- og teknologiudvikling, samt strategisk finansiering og anerkendelse af best practice for at sikre vidensdeling og fremgang på området.

Mens etablering af standarder og forskningsspecifikke repositorier kan løftes inden for det enkelte forskningsdomæne, understreger Agneta Ghose DeiCs rolle i forhold til at tilvejebringe den nødvendige infrastruktur, f.eks. i forhold til data management planer. (Læs mere om DeiC DMP), samt i rollen som knowledge brokere:

"Jeg mener, at DeiC kan spille en vigtig rolle ved at bidrage med løsninger på det mere overordnede plan. Blandt andet ved at identificere eksempler på gode løsninger og gøre dem tilgængelige i form af workflows og guidelines til forskere på tværs af forskningsområder og ved at tilbyde støtte i forhold til, hvordan man bedst kan udnytte de ressourcer som er tilgængelige."