RAG: cos’è e come ottimizzare gli LLM

Nell’articolo “Cosa sono i Large Language Model (LLM)” abbiamo introdotto i Large Language Models (LLM), spiegando il loro funzionamento e le principali applicazioni. Abbiamo anche discusso le tecniche di Prompt Engineering per ottimizzare le performance degli LLM.

In questo articolo, vogliamo spiegare cos’è la RAG e come usarla per ottimizzare gli LLM.

Retrieval-Augmented Generation (RAG)

Il metodo RAG (Retrieval-Augmented Generation) combina i dati presenti all’interno di un modello linguistico di grandi dimensioni con fonti di dati esterne selezionate, come repository specifici, raccolte di testi e documentazione esistente.

Queste risorse vengono segmentate, indicizzate in un database vettoriale e utilizzate come riferimento per fornire risposte più accurate.

RAG è estremamente utile perché permette al modello linguistico di utilizzare informazioni specifiche in tempo reale, attingendo a una o più fonti affidabili. Questo approccio offre un notevole risparmio, poiché garantisce un’esperienza ottimale senza la necessità di addestrare nuovamente i modelli o eseguire il fine tuning.

Inoltre, utilizza meno risorse perché, dopo aver inviato la query al modello linguistico, restituisce solo le informazioni più pertinenti, evitando documenti lunghi e poco mirati.

Funzionamento della Pipeline RAG

La pipeline di un sistema RAG si articola in diverse fasi, ognuna cruciale per l’efficacia del processo complessivo:

Ingestione dei Dati: I dati vengono raccolti da varie fonti come database, documenti o feed live. Questi dati vengono pre-processati e trasformati in formati compatibili con il sistema di embedding, che li converte in rappresentazioni vettoriali numeriche.
Generazione degli Embedding: I dati trasformati vengono convertiti in vettori ad alta dimensione, che rappresentano il testo in un formato numerico comprensibile per il sistema.
Memorizzazione negli Archivi Vettoriali: Gli embedding generati vengono memorizzati in database vettoriali specializzati, ottimizzati per gestire e recuperare rapidamente i dati vettoriali.
Ricerca e Recupero delle Informazioni: Quando un utente invia una query, il sistema RAG utilizza le rappresentazioni vettoriali per effettuare ricerche efficienti. Identifica le informazioni più pertinenti confrontando il vettore della query con quelli memorizzati nei database.
Generazione della Risposta: Utilizzando il prompt dell’utente e i dati recuperati, il modello di linguaggio genera una risposta completa. Questo processo combina le conoscenze interne del modello con le informazioni esterne recuperate, migliorando l’accuratezza e la rilevanza delle risposte.
Aggiornamento dei Dati Esterni: Per mantenere le informazioni aggiornate, il sistema aggiorna periodicamente i documenti e le loro rappresentazioni di embedding. Questo può essere fatto attraverso processi automatici in tempo reale o batch periodici.

La RAG e l’indicizzazione

Prima di poter utilizzare efficacemente un sistema RAG, è essenziale avere una solida indicizzazione dei dati. Questo processo implica l’organizzazione e l’archiviazione delle informazioni in un Vector DB. Questi database immagazzinano informazioni sotto forma di vettori numerici che rappresentano il significato semantico dei dati. L’indicizzazione permette un rapido recupero delle informazioni rilevanti, essenziale per la successiva fase di retrieval.

Vector DB: La Chiave della RAG

Un componente fondamentale della pipeline RAG è il Vector DB, un database specializzato progettato per gestire e ricercare informazioni semantiche in forma vettoriale. Questi database sono essenziali per il funzionamento della RAG per diversi motivi:

Rappresentazione Semantica: I Vector DB memorizzano le informazioni sotto forma di vettori numerici che rappresentano il significato semantico dei dati. Questo è in contrasto con i database tradizionali che memorizzano dati in formati strutturati o non strutturati senza catturare il significato intrinseco.
Ricerca Efficiente: Grazie alla rappresentazione vettoriale, i Vector DB permettono di eseguire ricerche basate sulla similarità. Quando una query viene trasformata in un vettore, il database può rapidamente confrontare questo vettore con i vettori memorizzati per trovare le corrispondenze più simili. Questo rende la ricerca estremamente efficiente e precisa.
Scalabilità: I Vector DB sono progettati per gestire grandi volumi di dati. Possono scalare per contenere milioni o miliardi di vettori, garantendo che le ricerche rimangano veloci anche quando la quantità di dati cresce.
Flessibilità: Questi database possono essere utilizzati per una vasta gamma di applicazioni, dalla ricerca di documenti alla raccomandazione di prodotti, grazie alla loro capacità di comprendere e confrontare il significato dei dati.

Query dell’Utente

La pipeline RAG inizia con l’input dell’utente. L’utente pone una domanda in linguaggio naturale, che il sistema deve interpretare e trasformare in una rappresentazione che possa essere elaborata dai modelli di intelligenza artificiale. Questa trasformazione avviene tramite vettorializzazione, un processo in cui la domanda viene convertita in un vettore numerico che cattura il significato semantico della query.

Ad esempio, se un utente chiede: “Quali sono i benefici della RAG?”, il sistema traduce questa domanda in un vettore che rappresenta le parole chiave e il contesto della query. Questo vettore è poi utilizzato per cercare corrispondenze nel database di conoscenza.

Retrieval

Una volta che la query dell’utente è stata vettorializzata, il passo successivo è il retrieval. In questa fase, il sistema confronta il vettore della query con i vettori presenti nel Vector DB. Utilizzando misure di similarità, il sistema identifica i chunk di dati (ad esempio, paragrafi o sezioni di documenti) che sono più rilevanti per la query.

Il retrieval è una fase critica perché determina la qualità delle informazioni che saranno utilizzate per generare la risposta. Se i chunk recuperati non sono pertinenti, la risposta finale potrebbe essere imprecisa o non utile. Pertanto, l’efficacia del retrieval dipende dall’accuratezza del motore di ricerca e dalla qualità dell’indicizzazione.

Augmentation

Nella fase di augmentation, i chunk di dati estratti durante il retrieval vengono combinati con la query originale dell’utente per creare un template di risposta. Questa fase può essere vista come una preparazione dei dati per il modello generativo.

Il template di risposta include i fatti salienti estratti dai documenti e li organizza in un formato che facilita la generazione della risposta finale. Questo processo di augmentation assicura che tutte le informazioni rilevanti siano considerate e che la risposta sia contestualmente accurata e completa.

Generation

L’ultima fase della pipeline RAG è la generazione della risposta. In questa fase, il modello generativo (tipicamente un LLM) prende il template di risposta e lo elabora per produrre una risposta coerente e naturale alla query dell’utente.

Il modello generativo utilizza i fatti e i contesti forniti durante la fase di augmentation per costruire una risposta che non solo risponde direttamente alla domanda dell’utente ma lo fa in un modo che è facile da comprendere. Questa risposta è formulata utilizzando avanzati algoritmi di generazione del linguaggio naturale, che permettono al sistema di produrre testi che sembrano scritti da un umano.

Leggi l’articolo “Trasformazione digitale: come affrontarla con Revelis”

Vantaggi della RAG

L’integrazione di dati esterni e verificabili attraverso l’architettura RAG offre molteplici vantaggi agli LLM, migliorando significativamente accuratezza, flessibilità, scalabilità, personalizzazione e controllo, senza la necessità di riaddestrare l’intero modello. I RAG migliorano l’accuratezza delle risposte riducendo il rischio di “allucinazioni”, cioè risposte errate ma convincenti, poiché forniscono all’LLM fonti citabili e verificabili dall’utente.

Questa integrazione dinamica consente ai modelli di rimanere aggiornati senza dover essere riaddestrati, rendendoli ideali per applicazioni su larga scala e in contesti in continua evoluzione.

In termini di convenienza, i RAG permettono di introdurre nuovi dati in un LLM esistente e di eliminare o aggiornare le fonti di informazioni semplicemente caricando nuovi documenti o file. Questo riduce notevolmente i costi e il tempo necessari per riaddestrare o fare il fine tuning degli LLM, migliorando al contempo l’efficienza, poiché le query fornite agli LLM sono ridotte alle informazioni più pertinenti.

I RAG offrono agli sviluppatori maggiore controllo, permettendo di personalizzare le fonti di informazioni e adattare le risposte alle esigenze specifiche degli utenti. Questo miglioramento dell’esperienza utente aumenta la fiducia nelle risposte fornite. Inoltre, l’architettura RAG facilita il feedback, la risoluzione dei problemi e la correzione delle applicazioni, garantendo un flusso continuo di informazioni aggiornate e specifiche per un determinato dominio.

Dal punto di vista della sovranità dei dati e della privacy, i RAG mitigano i rischi associati all’uso di informazioni riservate per il fine tuning degli LLM, mantenendo i dati sensibili on premise. Inoltre, possono limitare l’accesso alle informazioni sensibili in base a diversi livelli di autorizzazione, garantendo che solo utenti autorizzati possano accedere a determinati dati. Questo approccio rafforza ulteriormente la sicurezza e la privacy delle informazioni utilizzate.
Nel prossimo articolo, confronteremo la RAG – Retrieval-Augmented Generation con altri metodi di addestramento ed elaborazione dati, analizzando vantaggi e limitazioni di ciascun approccio per capire quando e perché scegliere RAG.

Autore: Francesco Scalzo