Back

OpenAI rivoluziona l’intelligenza artificiale, il nuovo modello o1 raggiunge un QI 120

Grande Svolta nell’Intelligenza Artificiale: OpenAI Raggiunge un QI di 120
Il Nuovo Modello “o1” di OpenAI Potrebbe Avere un QI Pari a 120
Preoccupati che l’IA possa prendere il controllo del mondo? Potreste aver ragione.

Questa affermazione deriva da un interessante articolo pubblicato dal blog americano Maximum Truth, che ha testato le sorprendenti funzionalità del nuovo modello di OpenAI, chiamato “o1”. Secondo il test condotto, “o1” supera tutte le altre intelligenze artificiali nel test di QI (arrivando ad un punteggio di 120) del Norway Mensa IQ test, registrando un punteggio impressionante, di seguito un grafico di confronto con gli altri modelli di Intelligenza Artificiale presenti sul mercato:

Risultato del Test QI di OpenAI o1

Possiamo quindi dire che c’è stato un cambiamento significativo nel campo dell’intelligenza artificiale.

Spieghiamo meglio: il modello “o1” di OpenAI ha risposto correttamente a 25 su 35 domande del test di QI, superando di gran lunga la media umana, che si attesta a circa 100 punti. Nel seguito, riportiamo alcuni esempi delle domande a cui ha risposto correttamente:

La domanda più difficile a cui ha risposto “o1”

Di seguito è riportata la domanda più difficile del quiz, alla quale “o1” ha risposto correttamente

Domanda più difficile del quiz

La risposta corretta e che “o1” ha fornito, è l’Opzione D, motivando la risposta come riportato di seguito:

Opzione D — Analizzando i modelli nella griglia, si nota che ogni colonna combina certi componenti per includere tutti gli elementi (V, V capovolta, lati del rettangolo) entro la terza riga. Nella terza colonna, i componenti Rleft e Rright (i lati del rettangolo) non sono ancora apparsi. Pertanto, la risposta corretta per la cella vuota è l’opzione D, che include la ‘v’ normale e i due lati del rettangolo, completando il set di componenti per quella colonna.

Secondo “o1”, ogni colonna dovrebbe contenere tutti gli elementi possibili e affinché la terza colonna li includa tutti, è necessario che i lati del rettangolo siano presenti nella terza riga, come nell’opzione “D”.

Si nota che “o1” non spiega perché ha scelto “D” rispetto ad altre opzioni come “B” e “F”. Una spigazione rigorosa in presa da un video esplicativo afferma che “D” è la scelta corretta perché “ciascuna delle 8 immagini è descritta solo dalla ripetizione nelle diagonali… B ed E contengono linee extra, quindi D è la risposta corretta”.

Quindi la motivazione individuata da “o1” è diversa da quella suggerita dal video esplicativo, ma sembra che il pattern più semplice rilevato sia comunque valido, come sottolineato nel blog originale.

Vediamo ora una domanda più semplice:

Una domanda più gestibile

In questo caso OpenAI “o1” non solo risponde ma spiega anche correttamente:

Nella terza riga, il modello coinvolge la combinazione delle linee dalle prime due celle e la rimozione delle linee comuni. La prima cella ha linee verso le 4:30, 6:00, 7:30, 9:00, e 10:30. La seconda cella ha linee verso le 1:30, 3:00, 6:00, 7:30, e 10:30. Le linee comuni sono alle 6:00, 7:30, e 10:30. Combinando le linee uniche di entrambe le celle (1:30, 3:00, 4:30, 9:00) si ottiene l’Opzione F.

Tuttavia, “o1” non è infallibile. Ad esempio, nella seguente domanda coinvolge lo stesso modello della Q24 sopra:

Domanda in cui o1 ha commesso un errore

Questa volta, “o1” riesce a vedere solo la parte additiva del modello e non individua la parte relativa alla “rimozione delle linee comuni”. Di conseguenza, sbaglia:

Nella griglia, il modello suggerisce che la combinazione delle caratteristiche delle prime due celle di ogni riga risulti nella terza cella. Nella terza riga, combinando il quadrato incompleto con linee verticali e orizzontali (terza riga, prima colonna) e il quadrato completo (terza riga, seconda colonna) si ottiene un quadrato completo con entrambe le linee verticali e orizzontali che attraversano il punto centrale. Questo corrisponde all’Opzione E.

Non è ancora infallibile! La risposta corretta in questo caso è la B.

L’incremento del punteggio di QI non è dovuto all’addestramento specifico

Una preoccupazione comune riguardo a questo tipo di analisi è la possibilità che alcune AI abbiano una “lista di trucchi”, ovvero siano state addestrate su queste stesse domande.

Per verificare questa possibilità, il blog ha riferito che un commentatore, Jurij, membro del Mensa (l’ente che ha scritto il test QI), ha offerto di creare nuove domande di QI. È stato quindi creato un sondaggio con le sue nuove domande insieme ad alcune del Mensa Norvegia. Dopo aver raccolto circa 40 risposte, il sondaggio è stato eliminato per evitare che le domande fossero accessibili online.

Maximum Truth ha utilizzato le risposte dei lettori per allineare la difficoltà del nuovo quiz di QI offline con quello del Mensa Norvegia, in modo che “100” (la media) avesse lo stesso significato in entrambi i test.

Il nuovo test offline è stato poi sottoposto alle AI che hanno ottenuto risultati significativamente peggiori su questo test creato da zero:

Performance delle IA nel Test Offline

Nonostante ciò, la differenza tra le prestazioni di “o1” e le altre AI è rimasta notevole, suggerendo che “o1” rappresenta un vero miglioramento nella capacità di ragionamento dell’IA e non solo l’inclusione di dati di addestramento specifici per il QI.

Ulteriori ricerche potrebbero migliorare la precisione dei punteggi

Come sottolineato da Maximum Truth, poiché la visione dell’AI non è ancora abbastanza sviluppata, una delle ragioni per cui le AI hanno risultati relativamente scarsi su questo nuovo test potrebbe essere legata al modo in cui le descrizioni verbali delle domande sono scritte. Ulteriori ricerche potrebbero includere diverse formulazioni delle domande, scritte da persone diverse, per capire quanto siano sensibili le AI al modo in cui vengono descritte le domande.

Inoltre bisognerebbe effettuare ulteriori ricerche per stabilire dove si collochi la media umana su questi quiz. Quando i lettori del blog hanno svolto le domande del Mensa Norvegia, hanno ottenuto una media di appena 103; potrebbe darsi che i lettori del blog che decidono volontariamente di fare un test di QI potrebbero essere solo persone molto curiose, ma non molto migliori nell’analisi dei pattern rispetto alla media, perchè è un punteggio molto più basso di quanto aspettato.

Esplora le potenzialità dell’AI con m-ai

Se vuoi scoprire come l’intelligenza artificiale può migliorare la tua azienda, m-ai è pronta ad affiancarti. Creiamo soluzioni AI personalizzate per piccole e medie imprese, aumentando efficienza e decision making.

Interessato a scoprire come l’AI può aiutare il tuo business? Visita m-ai.it e contattaci per una consulenza su misura per portare l’AI nel tuo contesto aziendale.

Contattaci per una
consulenza gratuita

Giovanni Maggio
Giovanni Maggio