
OpenAI ha recentemente introdotto o1, un nuovo large language model che rappresenta un significativo passo avanti nel campo dell’intelligenza artificiale. Si tratta del primo di una serie di modelli che l’azienda definisce “reasoning models”, progettati per eseguire ragionamenti complessi e iterativi e superare in questo ambito le capacità dei precedenti modelli GPT come GPT-4o.
Secondo i benchmark di OpenAI, o1 ha raggiunto risultati notevoli:
- Si è classificato all’89° percentile in competizioni di programmazione su Codeforces.
- È entrato tra i primi 500 studenti in una gara di qualificazione per le Olimpiadi di Matematica USA (AIME).
- Ha superato l’accuratezza umana a livello di dottorato in problemi di fisica, biologia e chimica (GPQA).
Il segreto di o1: la “Chain of Thought”
Il concetto chiave dietro o1 è la “chain of thought” (catena di pensieri), una tecnica che scompone le domande complesse in passi logici. Questo processo consente al large language model di eseguire una serie di ragionamenti prima di arrivare alla risposta finale, anziché limitarsi a rispondere immediatamente come i modelli GPT tradizionali.
Questa tecnica era già nota in precedenza, ma andava applicata manualmente attraverso il prompting, OpenAI ha implementato questa capacità in o1 attraverso l’uso del reinforcement learning, una tecnica di apprendimento che premia il modello per le risposte corrette e lo penalizza per quelle errate. Le catene di pensiero che conducono a risposte più accurate sono quindi premiate rispetto a quelle meno precise.
o1 vs GPT-4o su task complessi:
Se si confrontano o1 e GPT-4o su compiti semplici, le differenze non sono evidenti. Anzi, GPT-4o potrebbe persino eccellere in attività creative come la scrittura di articoli o brainstorming. Tuttavia, quando si tratta di problemi più complessi che richiedono un ragionamento articolato e diverse iterazioni di risposte e correzioni, la superiorità di o1 diventa evidente.
Un esempio concreto è la risoluzione di un cruciverba, task che richiede una continua iterazione sulle soluzioni e sul quale i large language model hanno sempre avuto difficoltà. Abbiamo quindi deciso di mettere alla prova il nuovo modello o1-preview su un cruciverba della Settimana Enigmistica e confrontarlo con il precedente modello GPT-4o, ecco come si sono comportati:


Come è possibile vedere dal confronto, la differenza è evidente, o1-preview ha effettuato solo 3 errori contro i 9 di GPT-4o. Durante il processo di inferenza o1-preview non si è limitato a dare le risposte, ma ha suddiviso il problema in sotto task: ha trovato gli indici di intersezione, analizzato e mappato la griglia, ha iniziato a predire le iniziali delle soluzioni, scomposto le parole e iterando su ogni soluzione trovata auto-correggendosi man mano che andava avanti nel trovare le soluzioni corrette.
o1 dimostra la sua capacità di correggersi e di iterare sulle risposte, a scapito però di un tempo di calcolo significativamente più lungo (nel cruciverba di esempio circa 1 minuti0e mezzo rispetto ai pochi secondi impiegati da GPT-4o) e di un costo maggiore, dovuto al numero più elevato di token utilizzati.
o1 e GPT-4: sinergia e nuovi approcci
Riassumendo, la novità principale introdotta da o1 è la capacità di scomporre autonomamente i problemi, correggere gli errori e provare approcci differenti. Questa è la prima volta che per permettere al modelli di rispondere a domande più complesse non si va ad agire in fase di training aumentando la complessità del modello, ma tale capacità viene data in fase di inferenza facendo scalare la computazione in base alla complessità del prompt.
Nel mondo del business, si prospetta una sinergia tra i due modelli: GPT-4o estrarrà informazioni precise dai testi e O1 verrà utilizzato per rispondere a domande complesse, scomponendo il problema in sotto-problemi. Un esempio pratico è il settore legale, dove GPT-4o può essere utilizzato per estrarre e riformulare informazioni pertinenti e precise da lunghi documenti. Queste informazioni saranno poi utilizzate da o1, che potrebbe iterare molte volte su una risposta per considerare tutte le leggi pertinenti e correggere eventuali errori.