image

Maskinlæring i kreftforskning

Maskinlæring er blitt svært populært fordi tilgjengelige datamengder vokser raskt. Det er også store datamengder i Kreftregisterets forskningsprosjekter som gjør at vi nå tar i bruk maskinlæring i stadig flere prosjekter.

Sist oppdatert: 28.04.2021 

Kunstig intelligens og maskinlæring har gjort store fremskritt de siste årene. Store datamengder, kraftige regneressurser og utvikling av bedre algoritmer har bidratt til utviklingen.

Maskinlæring er en form for kunstig intelligens der maskinene lærer på egenhånd. Dette kan være både 'veiledet læring' – der maskinene får en fasit, eller 'ikke-veiledet læring' - der maskinene søker etter mønster. Disse metodene har flere bruksområder innen kreftforskningen, og i Kreftregisterets strategi er maskinlæring innen både epidemiologi og screening spesielt nevnt som sentrale satsingsområder. 

Klassifisering av kreftbiomarkører

Ved «veiledet læring» brukes algoritmer på datasett som består av både spørsmål og svar, der modellen lærer seg å forutse riktig svar, gjerne basert på store mengder data. En form for veileder læring er klassifikasjon, som er evnen til å kategorisere et resultat, for eksempel å klassifisere forskjellige kliniske grupper; friske personer, forstadier, eller kreft. I en studie er klassifikasjonen basert på transkripsjonsmønstre fra små-RNA-analyser, og i en annen er klassifikasjonen basert på tarmbakterieprofiler hos tarmscreeningdeltagere. De mønstrene som best skiller de kliniske gruppene, er potensielle biomarkører for tidlig deteksjon av kreft.

Det er viktig å skille ut reelle biomarkører fra tilfeldige mønstre, derfor deles datasettene opp i tilfeldige trenings- og testsett gjentatte ganger. Ved å repetere læringen, og deretter teste resultatet på gjenværende del av datasettet får vi robuste resultater som kan testes videre i andre studiepopulasjoner.

Vi har også benyttet så kalt ikke-veiledet læring (hvor maskinene skal se etter mønster i dataene uten noe eksakt og riktig svar), til å identifisere små RNA transkripsjonsmønstre i serum fra lunge, bryst og tarmkreftpasienter tiår før diagnose. Dette vise seg tydligst i lungekreft, og bekrefter tidligere studie som viser at slike mønstre i lungekreft er dynamisk i tiåret før diagnose.

Mammografiscreening

Også innen mammografiscreening er potensialet for maskinlæring stort.  Mammografiseksjonen ved Kreftregisteret er involvert i flere prosjekter for å fremskaffe kunnskap om fordeler og ulemper ved bruk av maskinlæring i Mammografiprogrammet, før disse metodene eventuelt kan bli godkjente for for bruk i fremtiden. 

Ulike bruksområder er aktuelle, for eksempel vet vi at noen forandringer på screeningbildene blir vurdert som normale av røntgenlegene, men dukker opp som brystkreft senere. Hvorvidt maskinlæring kan hjelpe oss til å bli enda bedre på å finne disse svulstene, er noe av det vi ønsker å finne ut. Og hvis man finner flere svulster, må vi også få kunnskap om hva slags svulster dette er.

Maskinlæring kan også bidra i radiografenes screeningarbeid, for eksempel i vurdering av radiograffaglig bildekvalitet. Vi må i tillegg ha kunnskap om etiske og juridiske aspekter knyttet til en eventuell implementering i Mammografiprogrammet.

Det norske Mammografiprogrammet har et stort og unikt datagrunnlag, med screeningbilder fra over fire millioner undersøkelser, og tilhørende informasjon om selve undersøkelsen og eventuelle brystkrefttilfeller. Vi er dermed i en veldig god posisjon til både å teste allerede utviklede systemer, og utvikle egne maskinlæringssystemer tilpasset norske kvinner.

Livmorhalsscreening

For å undersøke om man kan forbedre livmorhalskreftscreeningen, og gjøre den mer persontilpasset, brukes maskinlæring for å analysere store datamengder fra en rekke datakilder. Fra Kreftregisteret får man screeninghistorie, slik som svar fra tester og etterundersøkelser, data om behandlinger, HPV-vaksinasjonsstatus og kreftdiagnose. Fra spørreundersøkelser innhentes informasjon om røyking, alkohol, reproduksjonshistorie og seksual helse. I tillegg samles klinisk informasjon om hvilke HPV-typer som infiserer livmorhalsen.

Flere ulike maskinlæringsmetoder benyttes for å finne ut hvilken modell som best predikerer individuell risiko for livmorhalskreft. Utfra denne modellen ønsker man å fastsette mer individualiserte tidsintervaller for livmorhalsscreening. Målet med denne forskningen er altså å gå fra en standardisert kreftscreening som ser lik ut for alle, til en mer persontilpasset screening. Denne forskningen skjer gjennom et tett samarbeid mellom forskningsavdelingen, avdeling for registerinformatikk og Livmorhalsprogrammet.

Pågående prosjekter

JanusRNA - Identifisering av tidlige biomarkører for kreft

Studien bruker maskinlæring som et verktøy for klassifisering av små-ikke kodende RNA som potensielle tidlige biomarkører for en rekke kreftformer (lunge-, prostata, bryst, eggstokk, tykk - og endetarm, testikkel, galleblære, og livmorkreft). Studien er basert på sekvenseringsdata fra prediagnostiske prøver fra Janus Serumbank.

Tarmbakterier og livsstil ved tarmscreening (CRCbiome)

Studien undersøker om det er en sammenheng mellom tarmbakterier, livstil og tarmkreft. Maskinlæring skal benyttes blant annet til å klassifisere prøver fra friske personer, forstadier, eller kreft.

Persontilpasset screening mot livmorhalskreft

I dette prosjektet jobbes det med å skape mer fleksibel kreftforebygging ved å gå fra standardiserte anbefalinger, til anbefalinger basert på en personlig risikovurdering. Ved å kombinere kunnskap fra den medisinske og den datateknologiske verden utvikler vi en algoritme som ved hjelp av helsedata skreddersyr anbefalinger om livmorhalskreftscreening, basert på den enkeltes risikoprofil.

Maskinlæring i Mammografiprogrammet

Et forskningsprosjekt i samarbeid med Norsk Regnesentral, som benytter data fra Mammografiprogrammet for å utvikle et eget maskinlæringssystem.

Kan kunstig intelligens gi mer presis og effektiv screening for brystkreft?

Dette prosjektet skal undersøke om kunstig intelligens kan hjelpe røntgenlegene i Mammografiprogrammet til å bli enda mer presise og effektive i sin leting etter brystkreft hos kvinner.

BADDI-prosjektet

Dette forskningsprosjektet har til hensikt å etablere kunnskap om evnen maskinlæring har til å oppdage brystkreft på screening med tomosyntese og med standard mammografi, ved hjelp av data fra Tomosyntesestudiene i Bergen (To-Be).