L’intelligenza artificiale e il Big Data Analytics sono validi strumenti per monitorare e prevedere la diffusione dell’epidemia di COVID-19 che ha colpito il mondo e, in particolare l’Italia. Stiamo pagando un prezzo altissimo sia dal punto di vista morale, con le migliaia di morti a causa del virus, che dal punto di vista socio-economico a causa delle restrizioni a cui tutti i cittadini sono sottoposti per frenare la diffusione del contagio.
In questo scenario enti pubblici, aziende private e ricercatori indipendenti si stanno impegnando per dare il proprio contributo alla lotta contro il COVID-19. Le possibili linee di ricerca sono molteplici, tanto che la stessa Casa Bianca si è appellata al mondo intero con una Kaggle Challenge per cercare di ottenere dei risultati significativi.
Revelis ha deciso di accompagnare questo sforzo comunitario di lotta contro l’epidemia creando una task-force interna a questo fine. Informatici, Data Scientist e Ricercatori stanno lavorando a stretto contatto per ottenere dei risultati significativi attraverso tecniche di Big Data Analysis. In questo compito, siamo supportati da alcuni ricercatori dell’ICAR-CNR di Rende (CS).
Uno dei compiti della task-force è stato quello di raccogliere varie risorse per analizzare lo stato dell’arte, i dati disponibili e tutto ciò che potesse essere utile per effettuare uno studio di fattibilità di soluzioni di Intelligenza Artificiale contro il Covid-19.
Abbiamo deciso di condividere la lista delle risorse utili per permettere ad altre persone/aziende di poterne usufruire. Questa lista non è ovviamente esaustiva e per questo invitiamo chiunque voglia collaborare a contattarci per aggiungere altre risorse scrivendo al nostro indirizzo info@revelis.eu
Le risorse sono organizzate in cinque diverse categorie (“Dataset”, “Articoli Scientifici”, “Dashboard”, “Tutorial” e “Varie”), per consentire un’esplorazione più agevole delle fonti.
Dataset
Ogni buona soluzione di Intelligenza Artificiale parte da una base di dati che sia il più possibile grande e di qualità. I dati che troverete qui vanno da serie temporali, ad immagini, a testi.
Dati temporali dell’epidemia a livello mondiale
Attraverso il sito Humanitarian Data Exchange è possibile reperire i dati dei casi confermati, morti e guariti per tutto il mondo, partono dal 22/01/2020 e sono aggiornati giorno per giorno. I dati sono geograficamente molto granulari in quanto forniscono i dati per Nazione ed eventualmente per Provincia.
In questi giorni molti scienziati, come il Prof. Ioannidis dell’Università di Stanford, sostengono la necessità di disporre di dataset più accurati per realizzare analisi efficaci. Per questo motivo stiamo aggiungendo altre fonti di dati all’elenco per fornire un ampio spettro di scelte. E’ possibile acquisire serie storiche di dati anche da Johns Hopkins e dal Centro europeo per la prevenzione e il controllo delle malattie, dove è pdisponibile anche un breve tutorial per caricare i dati in un ambiente R e il pacchetto R nCov2019.
Dati temporali dell’epidemia in Italia
La Protezione Civile italiana rende disponibili i dati ufficiali del COVID-19 nel nostro paese. Oltre ai dati dei casi confermati, morti e guariti, sono presenti anche informazioni come il totale di ospedalizzati, in terapia intensiva ed altro.
Dati di immagini radiologiche
La diagnosi del COVID-19 tramite analisi di immagini radiografiche con l’uso del Deep Learning è un tema caldo per gli esperti del settore. Alibaba afferma di aver ottenuto circa il 96% di accuratezza su immagini toraciche da TAC. Tuttavia sono state proposte anche analisi di immagini a raggi-X. Di seguito una lista di siti da cui reperire questo tipo di dati:
- Immagini di Raggi-X di ~30k pazienti unici affetti da patologie polmonari
- Immagini di Raggi-X di polmoniti non-COVID su pazienti pediatrici
- Immagini di Raggi-X di polmoniti non-COVID
- Immagini di Raggi-X di pazienti COVID e normali
- Immagini di Raggi-X e TAC di pazienti COVID italiani
- Immagini di Raggi-X e TAC di pazienti COVID e altre polmoniti
Dati testuali
La Casa Bianca ha rilasciato un dataset contenente 29.000 articoli scientifici riguardanti il COVID-19. L’intento è di trovare risposte a diversi quesiti che vanno dal comprendere i fattori di rischio, la genetica del virus ed altro.
Dati demografici
I dati demografici sono talvolta usati per l’analisi di epidemie. Online è infatti possibile visionare i dati demografici italiani ad alta densità geografica.
Dati dei Social Network
Una fonte interessante di dati possono essere anche i Social Networks dove vengono condivise ogni giorno miriadi di notizie sia da utenti comuni che da istituzioni e testate giornalistiche. Attraverso il sito crowtangle è possibile monitorare l’attività di pagine Facebook pubbliche relativa al COVID-19 in Italia.
Dati di connessione aerea
Per analizzare la trasmissione del virus e la sua fuoriuscita dalla Cina sono state analizzate le rotte aeree mondiali. E’ possibile ottenere i collegamenti aerei mondiali con una stima dei viaggi mensili.
Dati di precedenti epidemie
Un filone di ricerca potrebbe essere quello di comprendere il COVID-19 analizzando i dati delle precedenti epidemie. Vengono riportati i link ai dati di:
Dati coreani
Il Ministero della salute coreano ha costruito una piattaforma web in cui è possibile usare i dati ufficiali provenienti dalla Corea del Sud. Non è possibile scaricare i dati localmente, ma è messa a disposizione una piattaforma di calcolo cloud su cui è possibile portare avanti le proprie analisi.
Dati di immagini ad ultrasuoni
Ricercatori italiani dell’Università di Torino stanno sviluppando un sistema di IA per la diagnosi automatica di polmonite da COVID-19 da immagini ad ultrasuoni. I dati sono disponibili previa richiesta.
Dati del governo britannico
Dal sito ufficiale del governo britannico è possibile reperire informazioni riguardo il numero di pazienti ospedalizzati, i nuovi casi giornalieri e le quantità cumulate di casi confermati e morti. I dati sono registrati a livello di province.
Dati del CDC (USA)
Il CDC ha lanciato un programma di sorveglianza pubblica sul Covid in USA. Settimanalmente vengono forniti dati sul numero di ospedalizzati, di visite in reparti di emergenza e altre informazioni. E’ possibile ottenere anche dei dati giornalieri riguardo morti e casi confermati a questo link.
Dati di Mobilità da Apple
Apple sta pubblicando dei report giornalieri sulle richieste di navigazione su Apple Maps per tutto il mondo. Possono essere considerati dei buoni surrogati per la mobilità delle persone. E’ possibile osservare le dashboards oppure scaricare i dati grezzi a questo link.
Dati da studi clinici
L’Operation Research and Analytics Lab del MIT ha lanciato un progetto relativo al Covid-19. Tra i loro contributi, va sottolineato una collezione di datasets da vari studi clinici.
Articoli Scientifici
Moltissimi articoli scientifici sono stati scritti nelle ultime settimane, ricercatori autorevoli si stanno spendendo per dare un contributo allo sviluppo scientifico contro il COVID-19 e i loro lavori possono costituire una guida importante. Di seguito alcuni lavori che ci sono sembrati notevoli di approfondimento.
Deep Learning per immagini TAC
Gli scienziati cinesi hanno utilizzato circa 5000 immagini TAC toraciche per predire con un’accuratezza molto alta la presenza di COVID-19 nei pazienti infetti. Il loro lavoro “Artificial Intelligence Distinguishes COVID-19 from Community Acquired Pneumonia on Chest CT” usa reti convoluzionali per estrarre caratteristiche peculiari dalle immagini per distinguere una polmonite COVID da una non COVID.
Modello autoregressivo poissoniano per forecasting
Predire l’andamento temporale dell’epidemia può essere un’informazione molto importante per i decision-makers. Un modello autoregressivo poissoniano, adattato dal mondo della finanza, è stato proposto da Arianna Agosto e Paolo Giudici per analizzare il trend epidemico.
Modello epidemico per l’analisi delle Non-Pharmaceutical Interventions (NPI)
Durante l’emergenza epidemica si sono rese necessarie delle azioni necessarie a rallentare il contagio come la chiusura delle scuole e la cessazione delle attività lavorative. In questo articolo, è stato fatto uso di modelli epidemici per studiare l’efficacia di queste misure.
Stima dei casi non riportati tramite Case-Fatality-Rate
Una discussione aperta è quella che riguarda l’effettiva affidabilità dei dati. L’irruenza dell’epidemia non permette di fare uno screening di tutta la popolazione ed in questo articolo è riportata una metodologia per stimare i casi non riportati.
Deep learning per individuazione di relazioni non lineari
I ricercatori stanno cercando di trovare soluzioni ad una varietà di problemi relativi a COVID-19. Gli algoritmi di deep learning sono in grado di catturare relazioni non lineari tra i dati ed è per questo che vengono utilizzati in molte applicazioni diverse. In questo articolo vengono descritte diverse tecniche di Deep Learning in base alla tipologia dei dati, oltre ad un insieme di metodi per migliorare le prestazioni quando si hanno pochi dati (metodi semi-supervisionati).
Panoramica degli studi più recenti sulle applicazioni di Intelligenza Artificiale contro il Covid-19
L’epidemia ha stimolato molte persone a lavorare per fornire nuove informazioni sul virus usando l’Intelligenza Artificiale. Questo documento mette in evidenza molti studi riguardanti applicazioni molecolari, mediche ed epidemiologiche fornendo anche suggerimenti per future ricerche sull’argomento.
Monitoraggio della crescita del contagio Covid
Il think-tank europeo CEPS sta producendo reports, regolarmente aggiornati, riguardanti il contagio da Covid19. Due dei contributori sono Arianna Agosto e Paolo Giudici, autori del modello che abbiamo usato come base per sviluppare il nostro.
Infetti e valutazioni delle NPI in 11 Stati Europei
In questo studio, ricercatori dell’Imperial College stimano il vero numero di infetti, il numero di riproduzione di base e l’impatto degli interventi non farmaceutici.
Dashboard
Le dashboard sono strumenti visuali che comunicano dati complessi in forma compatta, automatica e dinamica. Possono essere dunque utili per comprendere il fenomeno epidemico in maniera sintetica.
Dashboard della Protezione Civile Italiana
La Protezione Civile italiana ha messo a disposizione una dashboard sui dati italiani in merito al COVID-19.
Dashboard per modello epidemico real-time
Attraverso un’altra dashboard è possibile avere a disposizione un modello epidemico su cui è possibile modificare diversi parametri e osservare i risultati delle simulazioni.
Modello epidemico per gli Stati Uniti
Ricercatori della Northeastern University, University of Florida e altre istituzioni usano un modello epidemico spazio-temporale per stimare il numero di morti e infetti negli USA. E’ possibile osservare le loro predizioni a questo link, in una singola pagina sono contenute dashboards con le predizioni e analisi dello scenario in cui nessun intervento pubblico fosse stato attuato.
Report di mobilità di Google
Google ha deciso di rilasciare le proprie stima di mobilità nel mondo. E’ possibile trovare i dati riguardanti la mobilità nei parchi, nelle stazioni e altro. I dati sono a livello nazionale, ma possono interessare regioni e/o province per grandi aree.
Proiezioni epidemiche dal MIT
Ricercatori del MIT hanno usato un modello SEIR rimaneggiato per predire diverse grandezze come il numero di morti, di ospedalizzati o i casi confermati. Le proiezioni sono disponibili a livello di singolo Stato.
Tutorial
I tutorial mostrano applicazioni pratiche con alcuni cenni teorici per introdurre il lettore a determinati argomenti. Di seguito alcuni tutorial su tematiche di interesse:
Tutorial su Deep Learning applicato ad immagini a Raggi X
Attraverso questo tutorial mostra un sistema basato su Convolutional Neural Networks per diagnosticare casi di COVID-19 con l’uso di Python e TensorFlow.
Tutorial su modelli epidemiologici
Questo RMarkdown mostra come utilizzare modelli epidemiologici usando R. All’interno è presente un’analisi che confermerebbe le evidenze mostrate nel paper menzionato nella precedente sezione sulle NPI.
Modello SEIR usando R
In questo tutorial, è possibile trovare una guida su come utilizzare modelli SEIR che tengano in considerazione la dimensione spaziale usando una matrice di origine-destinazione. In questo caso l’analisi di concentra sull’area metropolitana di Tokyo.
Risorse
In questa sezione vengono riportate alcune risorse che non potevano essere ricondotte alle categorie precedenti.
Pacchetto R per dati temporali basati su conteggio
Il pacchetto tscount permette di fare delle analisi con modelli statistici per la previsione di dati temporali basati su conteggio. Questi modelli possono essere molto utili per la predizione del contagio.
Risorse basate su BERT
BERT è una rete neurale utilizzata in varie attività di elaborazione del linguaggio naturale. In questo repository Github è possibile trovare varie risorse come reti pre-addestrate e articoli scientifici inerenti le applicazioni di NLP supportate da BERT.
Articoli scientifici con codici sorgenti
In molti casi vi sono articoli scientifici interessanti che propongono anche il codice sorgente usato per le sperimentazioni. In questo sito Web è possibile trovare una raccolta.
Aggregatori di dati
Molte organizzazioni si stanno impegnando per creare degli spazi sul web dove condividere informazioni utili. Riportiamo di seguito alcuni canali utili:
- Open-Source-COVID-19
- Dimensions.ai dataset
- Towards Data Science
- https://github.com/soroushchehresa/awesome-coronavirus
Ultimo aggiornamento: 18/05/2021