Intelligenza artificiale: uno studio GIMEMA indaga l’impiego di pazienti sintetici nei trial clinici

Presentato durante l’ultima edizione del congresso SIE 2023, lo studio analizza un approccio che potrebbe apportare numerosi vantaggi agli studi clinici, dalla maggiore privacy nei confronti dei pazienti allo sviluppo di terapie efficaci in tempi rapidi.

È una delle protagoniste indiscusse dei nostri tempi: stiamo parlando dell’intelligenza artificiale. L’impiego di algoritmi sofisticati, reti neurali artificiali e un’enorme potenza di calcolo che permette operazioni anche molto complesse (come, per esempio, il riconoscimento del linguaggio naturale e di immagini, l’analisi di dati, l’apprendimento automatico e la risoluzione di problemi) è un argomento che sempre più spesso sale agli onori della cronaca. Negli ultimi decenni l’intelligenza artificiale ha compiuto grandi progressi, con applicazioni pratiche in molti campi, dall’informatica all’ingegneria, dalla ricerca scientifica alle infrastrutture della comunicazione. Un altro di questi ambiti è certamente la medicina, dove sta dimostrando un potenziale rivoluzionario, contribuendo a migliorarne numerosi aspetti, tra cui il design degli studi clinici.

Una delle più recenti innovazioni nel settore, infatti, è l’uso di dati digitali per creare coorti virtuali di pazienti in alternativa a quelle dei tradizionali studi clinici, che si basano sui dati reali dei partecipanti.

Si tratta di un nuovo approccio molto promettente, in quanto si prefigge di generare gruppi artificiali di pazienti che replicano con precisione le caratteristiche dei set di dati clinici reali, senza però – escludendo dati sensibili identificabili – presentare criticità in termini di privacy, oltre che risolvere problematiche tipiche degli studi di piccole dimensioni.

Tutto questo potrebbe rappresentare un’enorme spinta in avanti per quanto riguarda gli studi clinici. Per questo motivo, al fine di valutare la fattibilità e il potenziale di questo approccio innovativo, un gruppo di ricercatori GIMEMA, guidati da Alfonso Piciocchi, coordinatore scientifico della Fondazione GIMEMA, ha recentemente sviluppato una coorte virtuale basata su un set di dati dei pazienti arruolati nello studio GIMEMA AML1310, conclusosi nel 2015. Durante la cinquantesima edizione del congresso nazionale della Società Italiana di Ematologia (SIE), tenutosi a Roma dal 23 al 25 ottobre 2023, Piciocchi ha tenuto l’intervento “I clinical trials virtuali. Nuove tecnologie per accelerare lo sviluppo di trattamenti innovativi in ematologia” per spiegare come il GIMEMA sta applicando queste tecmologie.

Intelligenza artificiale, dati sintetici e sperimentazioni cliniche

Intelligenza artificiale è un termine generico, che al suo interno comprende una vasta gamma di tecnologie informatiche, tra cui, per esempio, le reti neurali artificiali (quegli algoritmi che processano dati in maniera simile a quanto fanno i neuroni nel sistema nervoso), l’apprendimento automatico o machine learning (l’uso di sistemi informatici che consentono a computer di modificarsi e migliorare la propria performance in maniera dinamica e autonoma, senza ricevere istruzioni al riguardo), il deep learning (un tipo di apprendimento automatico che impiega particolari tipi di reti neurali) e così via.

Secondo diversi esperti, il crescente utilizzo dell’intelligenza artificiale sta portando a un vero e proprio cambiamento di paradigma nella medicina, alimentato dalla crescente disponibilità di dati sanitari e dal rapido progresso delle tecniche di analisi dati.

“Nonostante possa sembrare una novità, l’intelligenza artificiale ha in realtà una storia che affonda le radici negli anni ‘50. In particolare, è stata ufficialmente coniata come disciplina nel 1956 grazie alla Conferenza di Dartmouth, che vedeva riuniti quelli che oggi consideriamo i padri dell’intelligenza artificiale”, racconta Piciocchi. In effetti, fin dalla metà del ventesimo secolo, la medicina è stata identificata come una delle aree di applicazione più promettenti per l’intelligenza artificiale. Per esempio, negli anni ’70, alcuni ricercatori hanno sviluppato sistemi di supporto decisionale clinico rule-based (ovvero sistemi informatici che applicano regole create dagli esseri umani per memorizzare, ordinare e manipolare i dati) che sono stati applicati con successo all’interpretazione di elettrocardiogrammi, alla diagnosi di malattie e all’assistenza medica, ma che, d’altro canto, richiedevano costi elevati, precise regole da rendere esplicite e costanti aggiornamenti da parte di esperti umani. Poi, qualcosa è cambiato.

“Negli ultimi decenni, l’intelligenza artificiale ha fatto grandi progressi grazie all’aumento della potenza di calcolo, all’accesso a grandi set di dati e allo sviluppo di algoritmi più sofisticati, portando ad applicazioni pratiche in molti settori, tra cui gli studi clinici”.

In effetti, l’applicazione pratica della medicina personalizzata, come sottolinea uno studio pubblicato su JCO Clinical Cancer Informatics, richiede una vasta quantità di dati reali, che includono informazioni cliniche, dati genetici, dettagli sui trattamenti e risultati dei pazienti. La raccolta di questi dati in popolazioni di pazienti molto ampie è una sfida complessa. Inoltre, i dati reali spesso presentano informazioni carenti o incomplete e, infine, ci sono molte questioni riguardanti la privacy del paziente, che potrebbero impedire l’uso dei dati al di fuori di contesti specifici e di cui occorre tener conto. Un approccio che può aggirare questi problemi è la creazione di dati sintetici.

“I dati sintetici – spiega il ricercatore – sono dati creati artificialmente attraverso algoritmi informatici, differenziandosi così dai dati reali, che si basano sulla raccolta di informazioni da eventi o fonti naturali. I dati sintetici non sono una ‘copia’ dei dati reali, bensì hanno l’obiettivo di riprodurre il più fedelmente possibile i dati che potremmo effettivamente osservare, senza però uguagliarli”.

Nel complesso i dati sintetici potrebbero superare molte delle sfide connesse ai dati reali, consentendo un accesso più veloce, economico e scalabile a informazioni che riflettono la fonte originale, al contempo preservandone la riservatezza. Gli studi clinici randomizzati – quelli in cui i partecipanti vengono assegnati in modo casuale al gruppo di trattamento, che riceve il nuovo trattamento o farmaco in fase sperimentale, o il gruppo di controllo, che può ricevere un trattamento standard o un placebo – sono considerati l’ideale nella ricerca clinica, ma quando essi non sono possibili, ha spiegato Piciocchi, esiste un piano alternativo interessante: utilizzare, per la costituzione del gruppo di controllo, coorti di pazienti sintetici in cosiddetti “trial virtuali“. Questo approccio mostra diversi vantaggi: protegge la privacy dei pazienti, aumenta la quantità di informazioni a disposizione per le analisi e, infine, potrebbe semplificare il reclutamento dei pazienti nei gruppi di trattamento attivo, ottimizzando l’uso delle risorse.

Lo studio GIMEMA

Per verificare se questo approccio funzionasse e quanto fosse adatto nella pianificazione di trial clinici, è stata creata una coorte virtuale di pazienti con i dati provenienti dallo studio GIMEMA AML1310, che ha valutato l’efficacia dell’approccio basato su chemioterapia intensiva e trapianto stratificato per rischio e malattia minima residua in una coorte di pazienti adulti con leucemia mieloide acuta. I ricercatori sono partiti dai 445 pazienti dello studio e hanno creato una coorte di 890 pazienti sintetici, generando variabili come età, sesso, mutazioni genetiche e risultati clinici. “La coorte di pazienti sintetici è stata generata grazie a uno strumento che sfrutta i modelli di machine learning per creare dati sintetici a partire da dati reali. Questi dati mantengono le caratteristiche di quelli originali, ma non contengono informazioni identificabili”.

Una volta generato il campione sintetico, i ricercatori hanno verificato la similarità con i dati originali. “Ciò che abbiamo ottenuto è che le caratteristiche cliniche-biologiche nelle due coorti non differiscono significativamente. Anche la percentuale di risposta, sia ematologica che molecolare, rispecchia quanto osservato nei pazienti reali”. Inoltre, per dimostrare che il campione sintetico fosse in grado di riprodurre anche l’andamento della sopravvivenza, i ricercatori hanno confrontato le curve dei pazienti reali con quelle relative alla coorte di pazienti sintetici. “Le curve sono quasi completamente sovrapposte, sia quando consideriamo l’andamento generale, sia quando consideriamo le stime stratificate per alcune caratteristiche, come l’età ed il sesso. Ottenere risultati sovrapponibili a quelli reali è un requisito fondamentale per utilizzare questi dati nel disegno di studi clinici virtuali”, aggiunge Piciocchi.

In sintesi, questo approccio presenta numerosi vantaggi nello sviluppo di studi clinici e potrebbe essere applicato anche a situazioni diverse dalla leucemia mieloide acuta. In particolare, un gruppo virtuale di pazienti così generato potrebbe essere utilizzato come gruppo di controllo per valutare nuovi trattamenti in studi virtuali randomizzati, ma anche in altri contesti, come l’analisi dei punteggi di propensione in studi osservazionali. Inoltre, le sperimentazioni randomizzate concepite in questo modo sarebbero di fondamentale importanza anche per i pazienti, in quanto consentirebbero loro di accedere a trattamenti sperimentali più efficaci senza rischi associati a terapie meno efficaci o più pericolose. Questa metodologia accelererebbe la partecipazione ai trial clinici e l’ottenimento dei risultati, contribuendo a sviluppare terapie più efficaci in tempi più rapidi e migliorando le prospettive di cura per i pazienti.

“Attualmente, queste tecniche svolgono un ruolo di supporto ai metodi tradizionali di valutazione delle evidenze scientifiche. Tuttavia, affinché possano essere utilizzate in modo più ampio in futuro, sarà necessaria una regolamentazione specifica del loro utilizzo da parte delle autorità di regolamentazione”, conclude Piciocchi, precisando che, comunque sia, al momento gli studi clinici randomizzati rimangono il gold standard per la valutazione dell’efficacia di farmaci, strategie terapeutiche e dispositivi.