Datamanagement Blog

Abonnér på Datamanagement Blog feed Datamanagement Blog
Danish e-Infrastructure Coorperation
Opdateret: 10 timer 6 minutter siden

EOSC i med- og modvind: Observationer og refleksioner fra konferencen Digital Infrastructures for Research 2018

fre, 03/08/2019 - 12:21

 

Hvordan skal visionen om EOSC – European Open Science Cloud –  omsættes til virkelighed? Er fælles nødvendigvis fantastisk? Hvad er erfaringerne fra de eksisterende internationale forskningsinfrastrukturer? 

Rejserapport Bo Bai | chefkonsulent | AAU IT Services

Min baggrund er at jeg er datalog af uddannelse. Til daglig er jeg den ledende arkitekt for den digitale infrastruktur til forskning ved Aalborg Universitet. Jeg har beskæftiget mig med digital understøttelse af forskningen de sidste 15 år. Jeg deltog på DI4R 2018 konferencen som en repræsentant for det nationale data management forum. Dette er mine subjektive observationer fra konferencen og refleksioner herpå.

DI4R 2018 var organiseret af nogle af de helt store spillere på den europæiske infrastrukturscene: EOSC-hub, GÉANT, OpenAIRE and PRACE. Det gennemgående tema for konferencen var EOSC – visionen om om en fælles europæisk cloud infrastruktur for forskning. Gennem EOSC skal de digitale forskningsinfrastrukturer i EU landene kunne indgå i en sammenhængende cloud som kan betjene forskningen i hele EU.

Jeg opsøgte sessioner og debatter som fokuserede på omsætningen af EOSC visionen til praksis. Specifikt:

  • Den organisatoriske og tekniske arkitektur som skal drive den videre udviklingen af EOSC
  • Erfaringer fra forskere som er brugere af de eksisterende digitale infrastrukturfælleskaber
  • Erfaringer med at drive de internationale digitale infrastrukturer
  • Hvad der kræves for at supportere forskernes anvendelse af disse infrastrukturer
Den organisatoriske arkitektur for EOSC

Her var budskaberne ikke så klare. Jeg hørte på adskillige præsentationer og panel debatter uden at få et klart billede af hvordan EOSC er tænkt organiseret. Jeg kom derfra med en følelse af, at der er flere forskellige ideer om hvordan EOSC skal organiseres og financierens. Jeg mener ikke at jeg på denne baggrund kan konkludere hvordan EOSC vil ende med at være organiseret.

Forskernes erfaringer med anvendelse af de digitale infrastrukturer

Der var adskillige forskere som direkte rapporterede deres erfaringer med anvendelse af fælles forskningsinfrastrukturer. De fleste af guldkornene kom dog i spørgetiden efter præsentationerne af de enkelte infrastrukturer, hvor forskere i salen delte ud af deres erfaringer.

De infrastrukturer som forskerne fandt mest værdifulde, var de som havde specialiseret sig mod et bestemt fagområde. Disse fagspecifikke infrastrukturer er fulde digitale økosystemer i sig selv. Fokuseringen på et fagområde betyder, at de kan levere relevante, målrettede digitale analyseredskaber med faglig support. Ofte har de også de bedste arkiver, søgefunktioner og databiblioteker for området. De fagspecifikke digitale infrastrukturer fungerer naturligt som ”hub” for udviklingen af datastandarder og softwarebiblioteker indenfor deres fokusområde. Det var ofte infrastrukturer udviklet under ESFRI projekter, der blev nævnt som gode eksemler.

Der blev til gengæld stillet spørgsmål til hvor relevante de mere generiske infrastrukturprojekter under EOSC er for forskerne. Hvorfor skulle en forsker deponere eller søge efter data i et arkiv, der ikke er rettet mod hans fagområde og dets specielle dataformater?

Kritikken fra salen var meget tydelig under og efter præsentationen af status og leverancer fra EUDAT-projektet. Det blev fremført, at EOSC burde tage de bedste komponenter fra de eksisterende digitale infrastrukturer i stedet for at udvikle nye.

Erfaringer fra udbyderne af digitale infrastrukturer for forskning

Alle pegede på den store vækst i mængden af forskningsdata som en udfordring. Udvidelse af kapaciteten til at opbevare data er ikke vanskelig, det handler kun om penge. Problemet er, at datasæt bliver så store at det er meningsløst at sende kopier af dem rundt. Data bliver så tunge at de ikke kan flyttes.

Den oplagte løsning er at flytte analysen til dataene, i stedet for at flytte på dataene. Dette kan i praksis gøres ved at pakke analyseprogrammer i digitale ”containere”, som sendes hen hvor dataene gemmes. Udfordringerne er at få lavet fælles standarder for udformning af disse containere, og hvordan de gives adgang til data. EOSC er en oplagt driver for udvikling af fælles standarder for containere, samt etablering af de tilhørende infrastrukturer.

En anden udfordring er, at de fleste digitale infrastrukturer bliver grundlagt gennem projekter. Infrastrukturerne har stor risiko for at sygne hen når projektperioden er ovre. Succesful videreførelse kræver langsigtet planlægning med fokus på at forblive attraktiv, når projektfinansieringen stopper.

Disse parametre blev beskrevet som de væsentlige for en succesfuld videreførelse:

  • Hav en klar faglig profil – bedre snæver og stærk end bred og utydelig
  • Hav services af høj kvalitet som udbydes bredt allerede under projektperioden
  • Vær åben for samarbejder
  • Lyt til brugerne
  • Hold liv i
Manglen på anerkendelse

Den største udfordring for forskning på de digitale infrastrukturer er måske at fastholde udviklerne af den nye videnskabelige software, der flytter forskningsfronten.

Udviklingen af videnskabelig software af høj kvalitet kræver både dyb indsigt i fagområdet og gode programmeringsfærdigheder, og ofte er det forskeren selv eller en løst ansat assistent som udvikler software til et forskningsprojekt. Forskerne efterlyser konstant hjælp til softwareudvikling, og problemet med videreførelse efter endt projekt er stort. Men selv når de finder en kandidat med de rette færdigheder, er det typisk umuligt at holde på udviklere af videnskabelig software.

De primære forhindringer er:

  • Udviklere af videnskabelig software kan ikke få akademisk anerkendelse af deres bidrag til forskningen
  • Der er ingen karrierevej for udviklere af videnskabelig software på universiteterne
  • Det mangler faste stillinger til udviklingen af videnskabelig software
Min konklusion

Efter 3 dage på konferencen var jeg overbevist om at EOSC-visionen kan og vil blive realiseret. Men det er også tydeligt at det er meningsløst at tale om én fælles cloud for alle fagområder.

Udviklingen af digitale infrastrukturer skal være drevet af forskernes specifikke behov i de enkelte fagområder – som det gøres gennem ESFRI. EOSC kan blive den fælles ramme som samler serviceudbuddet fra diverse specialiserede digitale infrastrukturer og ERICs. Denne retning bekræftes også af infrastrukturer som PRACE og ELIXIR som medarrangører på konferencen.

Danmarks nationale bidrag til EOSC bør funderes i fagspecifikke infrastrukturer på områder, hvor danske forskningsmiljøer har kompetencen til og interessen i at drive udviklingen internationalt.

Open Science i et infrastruktur perspektiv

tor, 02/21/2019 - 13:20

Rapport fra en rundbordsdiskussion om infrastrukturer: ’The Research lifecycle and Open Scholarship’ afholdt af Jisc og Coalition for Networked Information (CNI). Et hyperkomplekst emne, hvor infrastrukturer kun er én lille brik i det store åbenhedspuslespil, og hvor ting ikke altid er som man tror.

Hvem skulle fx have troet at universitetet er den onde stedmoder, mens forlaget er den gode fe?

Rejserapport Karsten Kryger Hansen | specialkonsulent | Aalborg Universitetsbibliotek

Det har taget lidt tid at finde pen og blog frem – diskussionerne om det runde bord foregik i juli 2018, men heldigvis er Open Science jo et evigt aktuelt emne hvor konklusionerne ikke som sådan har en udløbsdato, so here we go.

Diskussionsemnet var yderligere uddybet til ”Practices, terms and conditions required for trusted, transparent and sustainable systems and infrastructure for research”. Om noget må det siges at være vidtløftigt at give hele svaret på i en fire timers session, men never-the-less var vi 40 personer fra hele verden, der bænket om rundbordene og inspireret af oplæg tog fat om problemfeltet fra så mange vinkler som muligt.

Nedenstående er en subjektiv opfattelse af hovedpointerne fra dagen, som forhåbentlig vækker genklang, men samtidig kan nuancere og perspektivere.

Selvfølgelig skal vi have open scholarship, men …

Lad os hoppe over argumentationen for Open Scholarship. Der behøves ikke mange slides med overskriften ”The scholarly record belongs to the scholarly community” til at fastslå at det opfattes som et væsentligt grundlag for god praksis der understøtter tillid. Men hvor der fra et åbenhedsperspektiv også er plads til forbedringer af vilkårene for åbenhed, i særdeleshed i en verden der stadig er drevet af måling på parametre der ikke fuldt ud anerkender den videnskabelige indsats; særligt i hvad der måles, og hvilken værdi det tillægges.

Det er samtidig en verden hvor forlagene stadig har en stor stjerne i mange forskningsmiljøer, og er drivende for mange ting. Eller som det blev udtrykt ”Academics see publishers as their fairy godmother and universities as their wicked stepmother”. Langt fra hvad man skulle tro prægede debatten om open scholarship, men måske værd at tage til efterretning.

Har forlagene grundlæggende en større forståelse for – eller giver udtryk heraf – for understøttelse af forskeren og vedkommendes proces? Sandhed eller ej, så kan det give anledning til refleksion.

Værdier i Open Scholarship

På tidspunktet for workshoppen stod ”Forum for responsible research metrics” (FRRM) klar med anbefalinger om at sikre metrikker der fokuseret på

  • robusthed i målingerne
  • ydmyghed i anerkendelse af såvel kvantitative som kvalitative kriterier,
  • transparens for de der måles,
  • imødekommenhed for diversiteten i de forskningsområder der måles, karriererveje mv.,
  • løbende at reflektere over hvilke effekter ændringer i indikatorer har på systemet

https://www.universitiesuk.ac.uk/policy-and-analysis/research-policy/open-science/Pages/forum-for-responsible-research-metrics.aspx

Open metrics kan og skal netop indtænkes fra et infrastrukturperspektiv, så der bygges systemer der sikrer transparens og åbenhed i evalueringskriterier. Og gerne strukturer som sikrer hurtigere validering og kreditering, end tilfældet er i dag, afrapportering til bevillingsgivere, og facilitering af hurtig og intens kommunikation omkring forskningsoutputs.

Tænk sammen og fragmenteret

To omdrejningspunkter i diskussionen berørte sammenhængskraften på universiteterne.

Den ene er metrikker og indikatorer der måler individer i en verden hvor forskere arbejder sammen, så man bliver samarbejdspartnere og konkurrenter på samme tid. Er der reelt set fortsat tale om et egosystem frem for et ecosystem, hvor det heller ikke bliver værdsat at man genbruger andres arbejde, kun at man producerer?

Her er det væsentligt at huske på, at produkterne fra forskningen bliver stadig mere fragmenterede i deres natur, når data deles på én platform, software på en anden og artikler på en tredje. Fra et infrastrukturperspektiv peger det på nogle af de samme kriterier som EOSC’en er bygget på, nemlig portabilitet og interoperabilitet mellem services – principper for engagement og tilstedeværelse på markedet af services, på engelsk; rules of engagement.

Det andet der blev fremhævet, var at forskeren har brug for sammenhæng i universiteternes støttefunktioner, f.eks. på tværs af bibliotek, it-afdeling og andre støttefunktioner. Universiteterne må til stadighed fokusere på at genopfinde – eller i hvert fald innovere på – metoder til at understøtte af forskerne, med fokus på at tilføje værdi, og frem for alt at sikre forskerne deres mest sparsomme ressource; forskningstid. Og huske at forskerens behov ikke ligger i de jobtitler der er på visitkortene på personalet i støttefunktionerne, men i de processer funktionerne understøtter, fx publicering af forskningsdata.

Samtidig er det bemærkelsesværdigt nok oftest nemmere at få penge til infrastrukturer, hvad enten det er hardware eller kommercielt software, end til hoveder der kan implementere open source-produkter. En kultur som ikke nødvendigvis er fremmende for udviklingen af sidstnævnte.

Netop open source-produkter kan fungere som byggeblokke af infrastruktur som forskningen selv kan bygge videre ovenpå, og fremme ikke bare udviklingen af selve produktet, men også udnyttelsen til nye metoder og processer. Universitetsledelserne og de der driver universitets-IT (hvad enten dette er biblioteker, IT-afdelinger eller andre) skal have understøttelse af open scholarship ind som et evalueringskriterier i valg af løsninger, med stor forståelse for de incitamentsstrukturer der driver forskere.

Og så skal det være nemt; barrieren for at benytte en service skal være lav, og vi skal begynde at tænke i pull frem for push. Rigtig mange mekanismer er i dag baseret på at vi skubber (eksempelvis upload) i stedet for automatisk at kunne trække forskningsobjekter mv. mellem systemer. Et eksempel på dette er den udbredte tendens til at tro at der er en velvilje til at flytte data mellem systemer, når disse i stedet burde være integreret, uden dog at kaste sig ud i vendor lock-in. Men man skal aldrig undervurdere et parameter som likeability i en service.

Sidst, men ikke mindst, så husk at mange nye infrastrukturer er bygget under radaren som proof of concept. Det er vigtigt at fastholde kulturer hvor der er plads til dette, for at sikre frirummet for innovation, og med plads til at fejle. Jeg savner et godt dansk ord for radicals, men i hvert fald er det netop disse personer som ofte re-tænker infrastrukturer, og dem skal der levnes plads til.

Glem ikke limen

Kig på en reol og fortæl mig hvad du ser? Foruden det som måtte stå i reolen, så ser de fleste hylder og ramme. De færreste ser lim, dyvler og skruer, som jo er nok så væsentlige for reolens evne til at hænge sammen. Derfor var en væsentlig pointe fra talerstolen – og fra den efterfølgende diskussion – at huske at værne om de basale infrastrukturer. Det gælder PID-services, men også strukturer der anses som elementære, f.eks. hele den tekniske struktur bag internettet, som er kendetegnet ved åbne protokoller.

Kampen om netneutralitet herskede netop i sommeren 2018 i USA, som et eksempel på at selv stærke, åbne og relativt frie infrastrukturer er under pres. Det er vigtigt at få disse infrastrukturer frem i lyset, og sikre at der er fokus på at sikre kontinuitet og bæredygtighed. Noget er ganske enkelt for stort til at fejle på nuværende tidspunkt, så noget skal være i kontrol af et bredt ikke-kommercielt community.

Det gælder også i vedligeholdelsen af den software der ligger bag udvalgte services, eksempelvis arXiv, herunder at nogle services kører på kodebaser der, på godt og ondt, har mange år på bagen. Sidst men ikke mindst, så skal vi fra et udviklingsperspektiv være bedre til at håndtere risici, og kunne fejle hurtigt og åbent.

Og så er der jo lige juraen.

På tidspunktet for denne begivenhed var copyright-direktivet igennem behandling, og truede (sådan lidt hurtigt udlagt) med at indføre eksempelvis krav om screening af indhold på portaler med upload-funktioner. Et krav som de store kommercielle spillere formodentlig ville kunne klare lettere end open source-baserede produkter, og som med et trylleslag kunne slå store dele af open science communitiet skak-mat med et juridisk pennestrøg. Men striden om ophavsretten fortsætter, herunder til stadighed at sikre såvel juridisk som infrastrukturmæssig understøttelse af, at universiteterne kan have ophavsrettigheden til de akademiske produkter.

Så strategisk som muligt, så pragmatisk som påkrævet

I spektret mellem politikker og infrastrukturer ligger incitamentsstrukturer, normer og brugervenlighed. Der er således brug for kontinuerlig dialog og vurdering mellem videnskabsfolk, de akademiske fællesskaber, biblioteker, universiteter og bevillingsgivere om hvordan vi ønsker systemet skal være, og hvordan infrastrukturerne skal understøtte visionerne.

Vi er ikke blevet – og bliver ikke – åbne med et magisk tryk på en knap. Rejsen fortsætter, og det er forventeligt at såvel ikke-kommercielle og kommercielle aktører fortsætter med at være på med på turen. Idealistiske synspunkter er gode, men svære at opnå uden strategier der kan omsætte det til realitet. Her er pragmatik nøgleordet, samtidig med at vi nøje må overveje effekterne af hvert enkelt tiltag.

When you measure, you change the things you measure.