3 indsigter om data governance fra ny ph.d.-afhandling – og den er jo stadig gal

Oktober 2020

I et par af mine klummer i foråret skrev jeg om behovet for mere datadreven ledelse, og også lidt om behovet for organisering, kompetencer og data governance, hvis vi skal have ”den rette værdi” ud af data. Min interesse heri, og behovet herfor, er bestemt ikke blevet mindre siden da. Dels som følge af de gode diskussioner jeg havde med de 19 deltagerne der i den forgange måned deltog på vores 2-dages kursus om netop datadreven ledelse, og flere af de forhold vi (beklageligvis) igen har været vidne til i forbindelse med håndtering af data i forhold til Covid-19.

Her tænker jeg blandt andet på de slettede mails (som jo også er data) i Statens Serum Institut. Den 30. september fortæller TV2 at ”alle mails, som ansatte i Sundhedsdatastyrelsen og Statens Serum Institut (SSI) har haft i deres mappe med sendte mails, og som er sendt før 22. juli, er blevet slettet” og videre at ”det forventes, at de fleste mails kan genskabes. Men det vil alligevel betyde, at Statens Serum Institut i nogle tilfælde ikke kan svare fyldestgørende på eksempelvis anmodninger om aktindsigt. Det gælder også sager relateret til coronavirus”. Det er efter min mening et stort problem at så vigtige data gå tabt – og tilliden til offentlige myndigheder falder, og kan potentielt blive et problem af demokratiske dimensioner.

DR fulgte op dagen efter, den 1. oktober, med en artikel med overskriften; Sådan gik det til, da Sundhedsdatastyrelsen slettede alle mails: Et enkelt flueben blev sat forkert” og de skriver videre ”at styrelsen i 14 dage havde overset ”en ukendt fejl, der kunne have reddet slettet data” Det var ifølge artiklen en it-medarbejder der lørdag den 22. august åbnede de centrale Outlook-indstillinger, der gælder for alle postkasser hos Sundhedsstyrelsen, Statens Serum Institut samt ministeriet, og fik ændret i mail-programmets grundlæggende gemme-indstillinger. Et stort data-sikkerhedsproblem.

Og den 4. oktober kunne jeg i Berlingske læse historien om data, der går tabt fra tusindvis af daglige tests. Det handler om de data fra de mange private udbydere, der giver testsvar langt hurtigere end det offentlige, men som staten ikke kan modtage data fra. Der betyder at tallet om coronasmittede, og de daglige opgørelser af antal testede i Danmark. som vi i de sidste uger har hørt igen og igen, og som der bliver truffet en lang række beslutninger på baggrund af, er forkerte. Dermed umuliggøres smitteopsporing og -overvågning. Igen et problem.

Tilbage i april skrev jeg en artikel i Mandag Morgen, men overskriften, ”Coronakrisen sætter spørgsmålstegn ved vores digitale førerposition”, og om at netop håndtering af data allerede dengang var et stort problem. Og det sidste halve år har beklageligvis kun bestyrket dette spørgsmål. Så hvad kan gøres? Og er der nogle råd der kan gives? Og kan der hentes noget viden fra ny forskning på data governance området? Hvordan kunne det organiseres bedre? Etc. Det er spørgsmål der i høj grad optager mig.

Interesse for hvordan organisationer skal organisere sig omkring arbejdet med data, og hvilken data governance, der bliver behov for, hvis vi skal sikre, at organisationer får ”den rette” værdi ud af data, er ikke ny. Den begyndte for mere end fem år siden, da jeg stadig var ansat som professor på Aalborg Universitet. Den blev for alvor vakt, da jeg i 2014 læste artiklen How smart connected products are transforming competition af Porter. En central pointe i hans artikel var, at når teknologi og sensorer flytter ind i fysiske produkter, som traktorer, vaskemaskiner og tennisketsjere, så genereres en masse data, som potentielt kan skabe stor værdi for virksomheden. Men ikke noget om hvordan det organisatorisk skulle lade sig gøre i organisationer. Så stor var glæden da artiklen fik en efterfølger i 2015 How smart connected products are transforming companies. Her skriver Porter, at virksomheder må og skal transformere centrale strukturer i deres organisation, for at kunne få værdi ud af de genererede data. Men desværre heller ikke noget om hvordan arbejdet med kan organiseres, andet end en enkelt bemærkning om at der bør oprettes en central funktion, med reference til CEO.

Så allerede dengang optog det mig, hvordan arbejdet med data skal og kan organiseres og hvordan data governance skulle praktiseres. Så da muligheden for at ansætte en ny ph.d.-studerende bød sig, tænkte jeg, der er brug for en ph.d.-afhandling om det. Og da jeg havde fornøjelse af have en dygtig studerende, Olivia Benfeldt, inviterede jeg hende til et møde på mit kontor, for at præsentere hende for ideen. Denne var hun heldigvis med på, og vi gik i gang. Jeg havde fornøjelse af at være Olivias vejleder i det første år, men måtte stoppe, da jeg i august 2017 sagde op på Universitetet. Men det betyder selvfølgelig ikke at jeg slap min interesse for Olivias forskning og arbejde. Nu har Olivia så afleveret sin ph.d.-afhandling, og jeg har sat hende stævne for at høre noget om hendes forskningsmæssige resultater. Der er særligt tre ting som jeg er optaget af: hvad har Olivia fundet ud af i sin forskning, kan hun give nogle gode råd og hvad ved vi fra forskningen på området.  

Jeg spurgte Olivia om; Hvad er de vigtigste forskningsmæssige resultater du har fundet i dit arbejde?

”Der er mange, haha! Men hvis jeg skal pege på én ting især, så er det, at data på ingen måde kan opfattes som en værdifuld ressource ’by default’ eller i sig selv. Alle data kan blive værdifulde, store som små, når de bringes i anvendelse i en helt konkret arbejdspraksis. Omvendt, så kan data, der tidligere eller bare i en anden kontekst sås som værdiløse eller uvæsentlige pludselig komme til at spille en enorm rolle, hvis behovet for dem i en konkret sammenhæng opstår.

Jeg ved du har været meget optaget af smittetal i forbindelse med Covid-19, og det er et virkelig godt eksempel på, hvordan der kan være stort udsving i værdien af de nøjagtig samme datasæt, alt efter hvilken kontekst, de indgår i. Hvis du bliver testet for Corona, enten hos din egen læge eller en privat testudbyder, så giver resultatet dig konkret værdi ved at fortælle om du er syg eller rask; om du kan gå på arbejde eller du skal meddele din omgangskreds, de skal testes. På nationalt plan aggregeres og bruges disse data til at overvåge smittespredningen i Danmark, hvor deres værdi er stor, men også meget mere tvetydig. Hvad betyder det, når tallet stiger eller falder? For nuværende sammenkøres resultater fra privatudbudte test ikke med offentlige og indgår dermed ikke i overvågningen, så selvom der i princippet er tale om de nøjagtig samme datatyper (testresultater), så er deres værdi og anvendelse vidt forskellige. Et andet eksempel er en simpel maskinlæringsrobot, der f.eks. slører navne, adresser og telefonnumre i dokumenter, når de vises til nogle, men lader dem være tilgængelige, når de tilgås af andre. Det kan skabe enormt stor værdi, både for dem om hvem data er registrerede, men også for den, der ikke skal gøre krumspring for at finde ikke-anonymiserede data. Konteksten er det nye sort, når det kommer til organisering af data.

Det medvirker også - som en anden ting - at data governance i organisationer bare er fyldt med modsatrettede interesserer, der gør det svært at lave overordnede retningslinjer. I det meste eksisterende forskning inddeles data governance i tre sekventielle aktiviteter: design, implementering og evaluering af principper, retningslinjer og regler - en helt klassisk ’plan-act-check’ tilgang. I virkeligheden, selv om det formelt ikke har et navn, findes der allerede et hav af både eksplicitte og implicitte data governance regler i en organisation. De kan opstå som en del af medarbejdernes egen arbejdspraksis, udvikles indirekte gennem virksomhedens IT-systemer eller nedarves fra faglige discipliner og de ændres hele tiden. I praksis er data governance ikke plan-act-check, men en hel masse strategiske, operationelle, digitale og sociale aktiviteter, der væves sammen, når data anvendes i konkret praksis og det er bare mere komplekst at styre, end at designe og implementere beslutningsstrukturer for datakvalitet og -adgang” 

Og videre; Hvis du Olivia skulle give tre gode råd til virksomheder, som ønsker at få større værdi ud af data, hvilke organisatoriske og data governance råd vil du give dem?

Som det første vil jeg (ydmygt) foreslå at holde lidt igen med de store forkromede data governance projekter, som ofte kan sluge rigtig mange ressourcer, men demonstrere meget lidt organisatorisk værdi up front. Et klassisk eksempel er ”Vi skal have overblik over ALT vores data før vi kan tænke governance” og det kan man hurtigt gå død i. En helt afgørende indsigt fra min egen forskning er, at uanset hvor handlingsorienteret en overordnet data governance politik er, så vil den altid skulle tilpasses og ’genforhandles’ rundt omkring i organisationen. Derfor vil det være oplagt i stedet at fokusere på hvordan mindre data governance tiltag med stor effekt kan forbedre eksisterende arbejdspraksis. Selvom det kan føles uambitiøst, når hypen ofte går på datastrategier, blockchain, AI, AR, VR osv., så vil lokale tiltag hurtigt demonstrere konkret værdi – og måske endda skabe begejstring – som er god grobund for fremtidige, mere gennemgribende tiltag.

Som det andet vil jeg foreslå at skabe nogle løse, overordnede strukturer for hele organisationen, og starte primært med at fokusere på at gøre medarbejdere i de nedre lag af organisationen i stand til selv at deltage i udforme data governance; det jeg i min forskning kalder nested selvorganisering. Uden det skal blive for teoretisk, så er pointen, at det i sidste ende er f.eks. produktudviklerne, skolelærerne eller skraldemændene, der har bedst kendskab til IT-systemerne, fagdomænet og arbejdsopgaverne og derfor bør være dem, der forholder sig til hvordan data bedst organiseres i deres del af organisationen. Derfor kan det også give rum til at fokusere på substansen, når komplekse data governance problemstillinger i første omgang løses i et begrænset omfang, f.eks. en enkelt arbejdsproces eller team, fremfor at skulle forsøge at favne hele organisationen fra start.

Som det sidste vil jeg anbefale, at man ser øget opmærksomhed på f.eks. dataetik og ansvarlighed som en mulighed for at skabe bedre løsninger med data, fremfor en hurdle, der skal overkommes. Udformningen af GDPR var et godt første skridt til at skabe opmærksomhed omkring indsamling og brug af data, men det kan ikke guide praksis. I stedet for at finde smuthuller, så man kan ’indsamle så mange data som muligt’, så bør nysgerrig inddragelse af kunder og oprigtig dialog ikke kun lede til bedre databaserede services, men også være en forudsætning for at anvende data på en transparent, bæredygtig og forsvarlig måde.

Og et sidste spørgsmål til Olivia, hvilken forskningsmæssige viden findes der på området?:

Den forskningsmæssige viden omkring organisering af data er forsvindende lille, men også i høj grad fragmenteret. Det var jo vores udfordring dengang. Den teknologiske udvikling skubber hele tiden grænserne for hvad der kan ’dataficeres’ og øget opmærksomhed på datarettigheder, -etik og privatliv, lægger pres på organisationer, der skal kunne dokumentere præcis hvilke data, de behandler, hvornår, hvordan og hvorfor. Ikke kun fordi GDPR juridisk forlanger det, men fordi vi, om hvem personlige data skabes, sælges, købes og bruges, forlanger, at det skal der bare være styr på. I praksis er organisering af data unægtelig sammenfiltret med forskellige arbejdsprocesser; det involverer både strategiske overvejelser og operationelle beslutninger, men det går også på tværs af social og digital praksis.

Hvis vi kigger ind i litteraturen, så fokuserer en del på implementering af enkeltstående data-centrerede teknologier, som big data analytics, AI, AR og lignende. I første omgang er der jo stor indsigt at hente her, fordi de teknologier har stort potentiale, hvis de indføres rigtigt i en organisation. Men hvordan data ledes og styres som en selvstændig ressource på tværs af organisationen, som vi kender det fra ledelse af IT, det er svært at få greb om, fra et forskningsmæssigt perspektiv. Der er behov for noget mere end en god implementeringsplan for AI, og det var jo her, vi i sin tid faldt over data governance begrebet, om end det også var ekstremt underbelyst forskningsmæssigt. Det meste forskning var meget database-ingeniør-agtig og fokuserede på emner, som datakvalitet, metadata, dataadgang, og datalivscyklus, men data governance er jo, som jeg også har udforsket i min ph.d., er meget mere end det.

Jeg vil helt sikkert kigge nærmere på Olivias ph.d. og hendes forskningsmæssige fund og resultater, og anvende disse i mit eget arbejde omkring datadreven ledelse, data-organiserering, og data governance. Og mon ikke vi alle kan have glæde af hendes arbejde, både i forhold til vores egen praksis men også i forbindelse med håndtering af data fra Covid-19 – jeg vil i hvert skele til det når jeg skal forberede mit indlæg på ATVs årsmøde den 17. november.

Klummen denne gang blev lidt lang – jeg har selv haft fornøjelse af at høre om Olivias resultater, og det håber jeg, at du som læser også fik. God efterårsferie til de af jer der holder det.