AUTORE PRINCIPALE
Paolo Vannuzzi
AFFILIAZIONE
Noovle srl
VALUTA IL CHALLENGE
GRUPPO DI LAVORO
Mario Marchese – Company, Sicilia
Paolo Vannuzzi – Noovle srl, Toscana
Mauro Tommasi – Noovle srl, Lombardia
AREA TEMATICA
ICT ed informatica medica
ABSTRACT
La disponibilità dei dati clinici gestiti per conto del Sistema Sanitario Regionale ha garantito una grande mole di documenti lettere di dimissione ospedaliera (LDO) verbali di Pronto Soccorso (VPS) verbali di Sala Operatoria (VSO). Tali documenti in formato PDF non sono corredati da informazioni strutturate e non consentono facili analisi e classificazioni. L’obiettivo è quello di individuare all’interno dei documenti le parti rilevanti (diagnosi d’ingresso DI anamnesi AN diagnosi d’uscita DU) e classificare queste parti sulla base di categorie definite (ICD9CM Classificazione Internazionale Malattie) per le diverse patologie. La sperimentazione si concentrerà per verificare il metodo sulle LDO del reparto di Medicina Generale. La soluzione si divide in due task: Identificazione e classificazione delle parti salienti del documento: Il task interpreta automaticamente la differenti strutture identificando e codificando: (DI) (AN) (DU). Mediante una procedura di supervised learning ogni sezione è analizzata in una fase di processing del testo attraverso algoritmi di ML supportati da analisi parallela di motore semantico e ontologia medica specifica. Classificazione del testo: Il secondo task classifica i diversi documenti per diagnosi di malattia interventi e terapie. La classificazione è strutturata gerarchicamente su 3 livelli: (I ca 900 II ca 5.400 III ca 7.500 etichette). Il task è analogo al primo ma per la numerosità di classi adotta specifica procedura di supervised learning. L’addestramento prevede l’utilizzo di una base di dati di training di centinaia di esempi per classe. L’accuratezza di classificazione è legata alla qualità dei dati. La sperimentazione verifica i risultati ottenuti valutando la precisione e quindi l’efficacia degli steps di addestramento iterativo da una classificazione ad alto livello a successive specializzazioni del classificatore per una precisione più fine (dal I al III livello). Il dataset è composto dai documenti (PDF HTML etc) delle LDO (VPS VSO se disponibili) e dalle classificazioni attese mediante classificazione manuale di esperti medici. I risultati della ricerca potrà avere effetti sulla medicina predittiva/preventiva supportare analisi statistiche identificare gli eventi sentinella e trigger tools. La sicurezza dei dati clinico-sanitari è garantita dall’infrastruttura che distingue il fascicolo dai big data ove i dati sono anonimizzati (GDPR). I risultati si basano su oltre 70.000 LDO