margheritAI:
Fine-Tuning Efficiente di LLM su Dati Sintetici Validati con Statistical Model Checking e Analisi Qualitativa dell'Interazione Uomo-Macchina
AbstractLa presente tesi propone un approccio efficiente e iterativo al fine-tuning di modelli di linguaggio di grandi dimensioni (LLM), con l’obiettivo di adattarli alla generazione di contenuti testuali con specifica connotazione emotiva. Il sistema sviluppato, denominato margheritAI, sfrutta dati sintetici generati tramite prompt engineering e sottoposti a un processo di validazione automatica basato su Statistical Model Checking (SMC). La verifica delle proprietà emozionali dei testi avviene attraverso un algoritmo sequenziale che utilizza i limiti di Okamoto e Massart, garantendo la coerenza tra l’etichetta emozionale e il contenuto generato. Il dataset validato viene poi impiegato per il fine-tuning del modello GPT-Neo 2.7B mediante tecniche di Parameter-Efficient Fine-Tuning (PEFT), in particolare l’approccio LoRA, ottimizzando solo una frazione dei parametri e riducendo così il costo computazionale. Il modello risultante è stato valutato sia con metriche quantitative (loss, perplexity), sia attraverso un’analisi qualitativa delle interazioni con utenti reali, secondo una metodologia between-subject. I risultati mostrano un’evidente capacità del modello fine-tunato di modulare la risposta in chiave emotiva, pur rivelando l’introduzione di alcuni bias di coerenza. Il lavoro dimostra la validità di un processo di fine-tuning iterativo, validato statisticamente e accessibile, applicabile anche in contesti a risorse limitate.
Continua...