Internship at AUH, DCPT

I løbet af en 6-måneders periode arbejdede jeg som praktikant på Dansk Center for Partikelterapi ved Aarhus Universitetshospital. Jeg udviklede maskinlæringsalgoritmer og modeller som en del af et større projekt, der fokuserede på brystkræftdetektion ved hjælp af YOLOv8.

Projektejer

DCPT, AUH

Developed

2024

Type

E-commerce

Rolle

Solo-dev

Problemformulering

Målet med projektet var at udvikle et værktøj til sortering og klassificering af billeder fra brystdatasets indsamlet fra flere hospitaler. De største udfordringer inkluderede:

Datavariabilitet mellem hospitaler (Aarhus, Aalborg, Odense), med inkonsistente filnavngivningskonventioner, tilgængelighed af metadata og billedkvalitet, som kunne få en til at ryste lidt på hovedet.
Stort datavolumen, behandling af over 35.000 billeder mens man opretholder reproducerbarhed og håndterbar hukommelsesbrug, uden at maskinen sprænges i luften.
Afveje klassifikationsnøjagtighed mod generalisering for at håndtere forskellige billedfordelinger, og der er ikke meget sjov i det, men nødvendigt var det.
Automatisere omdøbning og sortering ved brug af metadata (år, patient-ID) eller filnavne, når metadata var ufuldstændige eller manglende – for hvem har brug for forvirring i forvejen?
Projektet er en del af det større projekt BCCT (Breast Conservative Cosmetic Treatment).

Resultater

En trænet YOLOv8 klassifikator, der opnår >90% nøjagtighed på valideringsdata, med tydelig adskillelse af patientens håndpositioner.

Modulære Python scripts til at behandle alle datasæt, klassificere billeder og sortere dem i strukturerede mapper efter klasse.
Et omdøbningssystem, der inkorporerer patientens randomiseringsnumre og år fra enten filnavne eller en CSV metadatafil. Meget ryddeligt!
Bekræftet output på tværs af alle hospitaler, hvilket sikrer korrekt kategorisering og reproducerbarhed af resultater. Det hele i vater!
Klar dokumentation til at understøtte yderligere skalering eller tilpasning til andre datasæt.

92%

Image Classification accuracy

0.89

F-1 Score

proces

Requirements Analysis & Technical Research:
Jeg gennemgik workflows for medicinsk billeddiagnostik og kliniske krav til detektion af tarmkræft samt lokalisering af anatomiske referencepunkter.

Systemarkitektur og Modeldesign:
Baseret på opgaverne designede jeg dedikerede pipelines:

En billedklassifikationspipeline ved hjælp af Convolutional Neural Networks til kræftdetektion.
En landmark-detekteringspipeline til præcis lokalisering af sternal notch.
Modulerede komponenter til preprocessing, modeltræning og validering.

Dataklargøring og Modelimplementering:
Jeg udførte normalisering, augmentation og resizing for at forbedre generalisering. Ved brug af frameworks som TensorFlow og PyTorch udviklede og trænede vi CNN-arkitekturer og tunede hyperparametre iterativt for at optimere performance.

Integration og Test:
End-to-end-tests verificerede forudsigelser på forskellige billedsæt, herunder kliniske data indsamlet under praktikforløbet. Vi evaluerede modeller med precision, recall og F1-score og udførte fejlanalyse for at forfine pipelines.

Stack

Konklusion

Dette projekt resulterede i en pålidelig, automatiseret pipeline til billedklassificering og -organisering, som forenkler behandlingen af store datasæt fra flere kilder. Det etablerer et stærkt fundament for fremtidige forbedringer, såsom at tilføje yderligere posturklasser, forfine metadataudtræk eller skalere til endnu større datasæt.