SenseNova U1: AI multimodale open source che ridefinisce la generazione e la comprensione delle immagini

La battaglia globale per la generazione di immagini AI è in pieno svolgimento. Proprio la scorsa settimana, OpenAI ha presentato ufficialmente GPT Image 2, lasciando a bocca aperta l'intera rete. Che si tratti di immagini di e-commerce in livestream, di foto nostalgiche in stile anni '90 o di complessi diagrammi di conoscenza, una demo strabiliante dopo l'altra ha inondato i feed di tutto il mondo.

Non c'è bisogno di chiederlo: la generazione di immagini da parte dell'intelligenza artificiale si è chiaramente evoluta al livello successivo.

Nel giro di pochi giorni, un importante operatore tecnologico cinese, SenseTime, ha risposto rapidamente con un nuovo asso nella manica: SenseNova U1. Questo modello di comprensione e generazione multimodale mette la “comprensione delle immagini” e la “generazione delle immagini” nello stesso cervello.

Il suo punto di forza sta in una “architettura di modelli unificati” sviluppata in proprio e chiamata NEO-Unify, che integra comprensione, ragionamento e generazione in un unico sistema.

Ma soprattutto, non l'hanno tenuta chiusa. SenseNova U1 è ora completamente open-source su GitHub e un'ondata di utenti ha già iniziato a sperimentarlo. Anche gli esperti di intelligenza artificiale di Hugging Face e MLS Super Intelligence Lab lo stanno osservando da vicino e lo stanno valutando positivamente.

Modelli SenseNova U1 Lite: Piccole dimensioni, grande impatto

Questa versione include la serie leggera SenseNova U1 Lite, con due varianti di modello:

Varianti del modello SenseNova U1

SenseNova-U1-8B-MoT: basato su una rete densa di backbone
SenseNova-U1-A3B-MoT: basato su una rete dorsale MoE

I parametri possono sembrare “compatti”, ma le prestazioni vanno ben oltre le aspettative. Su più benchmark, SenseNova U1 mostra una posizione dominante in tutte le dimensioni, raggiungendo livelli all'avanguardia (SOTA) tra i modelli open-source di dimensioni simili.

Ancora più sorprendente è il fatto che in diverse metriche si avvicina, o addirittura supera, alcuni grandi modelli commerciali proprietari.

SenseNova U1 Creazione continua di immagini e testi

Prima di immergerci nei dettagli tecnici, diamo un'occhiata a delle vere e proprie dimostrazioni per capire i limiti di SenseNova U1 capacità.

Il suo punto di forza è la generazione continua di immagini-testo, grazie all'originale tecnologia SenseTime della catena di pensiero interleaved image-text.

Schizzo architettonico con SenseNova U1

Prendiamo l'esempio della generazione di uno schizzo passo-passo di una cattedrale gotica. Durante il processo di ragionamento, SenseNova U1 scompone nei minimi dettagli estetiche architettoniche complesse, quasi come un “architetto” con un profondo pensiero spaziale.

In passato, mantenere la coerenza tra più immagini generate era uno dei problemi più difficili. Ma in questa dimostrazione, dai contorni grezzi al risultato finale ornato, la struttura principale, il numero di contrafforti e persino i motivi dei rosoni rimangono quasi perfettamente allineati.

Questo livello di coerenza lo fa sentire come un vero e proprio percorso di progettazione insegnabile.

Generazione di progetti multi-angolo con SenseNova U1

Un'altra semplice richiesta: progettare una biblioteca su una scogliera e presentarla da più angolazioni.

Cinque prospettive, cinque segmenti di testo, cinque immagini, rigorosamente alternate e in progressione logica. Dall'esterno all'interno, dalla struttura all'atmosfera, dal giorno al tramonto, ogni “pensiero” viene visualizzato direttamente.

Il testo fornisce l'intento progettuale; le immagini forniscono la convalida visiva. Le due cose si rafforzano a vicenda.

Ancora più sorprendente è la coerenza stilistica di tutte e cinque le immagini: architettura, materiali e sistemi cromatici si allineano tutti allo stesso concetto di design.

Ecco come dovrebbe essere “pensare mentre si disegna”.

SenseNova U1 Storytelling e generazione artistica

Racconto a fumetti con SenseNova U1

Con pochi semplici suggerimenti, SenseNova U1 può generare una storia comica.

Il ritmo delle quattro tavole è preciso: da una luce solitaria in rovine cibernetiche, ai robot che si radunano intorno a un vecchio che legge, a un primo piano delle lacrime che cadono sulle pagine e infine a un'inquadratura ampia di una lunga linea d'orizzonte. La progressione emotiva si costruisce strato dopo strato.

I personaggi e le scene rimangono coerenti per tutta la durata, grazie a SenseNova U1’di comprensione e generazione di immagini e testi.

Tra un pannello e l'altro, aggiunge persino dettagli narrativi, come il nome della “Torre del silenzio”, la descrizione delle dita che tracciano segni consumati dal tempo e il contrasto tra le lacrime e le pagine ingiallite. Il testo stesso si legge come una mini storia di fantascienza, mentre le immagini visualizzano i picchi emotivi.

Generazione di immagini multistile con SenseNova U1

Se gli chiedete di disegnare un lupo in diversi stili, otterrete l'ukiyo-e, l'art déco e l'espressionismo, tutti resi in sequenza.

Può anche generare output di tipo infografico ad alta dimensione, simili a diapositive, mantenendo la coerenza strutturale e visiva grazie al contesto condiviso.

SenseNova U1 per le infografiche e la visualizzazione della conoscenza

SenseNova U1 può anche spiegare i problemi quotidiani attraverso combinazioni di immagini e testi, rendendoli intuitivi e coinvolgenti.

Infografica sul caffè di SenseNova U1

Prompt: creare una guida per il caffè versato.

SenseNova U1 prima pensa, poi recupera le informazioni rilevanti ed espande la richiesta in un'infografica dettagliata. Il risultato finale comprende otto fasi ben collegate, che coprono accuratamente il processo dalla macinazione dei fagioli all'estrazione.

Visualizzazione del ciclo dell'acqua con SenseNova U1

Un altro esempio: “Il viaggio del ciclo dell'acqua”.”

SenseNova U1 ricerca e compila le conoscenze, producendo un diagramma 2K ultra chiaro che ricostruisce tutti gli elementi geografici chiave: radiazione solare, evaporazione, condensazione, trasporto, precipitazione e deflusso.

Ogni fase si basa esattamente su quella precedente.

Infografiche ad alta densità generate da SenseNova U1

Una richiesta di sei parole può generare un'infografica completa sull'anguria, che copre la nutrizione, i benefici per la salute e i consigli per il consumo, pronta per essere pubblicata come articolo completo.

È anche in grado di creare guide al pendolarismo molto complesse, fumetti di transizione professionale in stile pop-art e persino infografiche sulla colazione globale in stile LEGO, ricostruendo cibi iconici di paesi come Giappone, Messico, Regno Unito, Turchia, Brasile e India.

Architettura SenseNova U1: Spiegazione di NEO-Unify

SenseNova U1’L'impressionante performance di questo modello solleva una domanda fondamentale: come può un modello relativamente piccolo raggiungere questo risultato?

La risposta sta nella sua architettura.

Dall'IA modulare al modello unificato SenseNova U1

I modelli multimodali tradizionali seguono un approccio “modulare”:

Encoder di visione (VE) per vedere
Autoencoder variazionale (VAE) per il disegno
Modello linguistico di grandi dimensioni (LLM) per il ragionamento

Questi componenti vengono addestrati separatamente e poi combinati. Funziona, ma la percezione e la creazione rimangono scollegate.

NEO-Unify: Il cuore di SenseNova U1

NEO-Unify fa qualcosa di audace: elimina sia VE che VAE.

Parte da un presupposto fondamentale: le informazioni linguistiche e visive sono intrinsecamente connesse e dovrebbero essere modellate come un'entità unificata.

Invece di tradurre tra sistemi, SenseNova U1 si comporta come un pensatore bilingue, elaborando insieme visione e linguaggio fin dall'inizio.

Percorso tecnico di SenseNova U1

Interfaccia visiva quasi priva di perdite per la rappresentazione unificata di input/output
Architettura nativa a miscela di trasformatori (MoT)
Una spina dorsale condivisa per la comprensione e la generazione
Addestramento congiunto: testo tramite cross-entropia autoregressiva, visione tramite corrispondenza del flusso di pixel

Gli esperimenti dimostrano che anche quando il ramo di comprensione è congelato, il ramo di generazione può ancora recuperare dettagli visivi a grana fine. Ciò suggerisce che la rappresentazione unificata mantiene sia la ricchezza semantica sia la fedeltà dei pixel.

SenseNova U1 vs GPT-Image-2

Solo una settimana fa, GPT-Image-2 (ChatGPT Immagini 2.0) ha stabilito un nuovo punto di riferimento con un rendering del testo quasi perfetto e un editing in più fasi.

Ma fondamentalmente rimane un “modello specializzato di generazione di immagini”.”

SenseNova U1 prende una strada diversa. Non si tratta solo di generare immagini: è un modello unificato nativo che gestisce:

Comprensione dell'immagine
Ragionamento visivo
Pensiero interleaved immagine-testo
Generazione di infografiche

Tutti provenienti dalla stessa architettura, dallo stesso addestramento, dallo stesso modello.

E soprattutto, SenseNova U1 è open-source.

Per gli sviluppatori che necessitano di una distribuzione privata, di una profonda personalizzazione o di un'integrazione multimodale nei prodotti, SenseNova U1 offre un percorso che GPT-Image-2 non offre.

SenseNova U1 e il percorso verso l'AGI

Guardando al quadro generale, l'attuale “battaglia per la generazione di immagini” si svolge ancora all'interno di un paradigma frammentato: rendering migliore, risoluzione più elevata, più stili.

Si tratta di miglioramenti incrementali, non di cambiamenti di paradigma.

Vero AGI non sarà un mosaico di moduli specializzati. Il cervello umano non è una combinazione meccanica di sistemi separati per il linguaggio, la visione e l'azione: è un'entità cognitiva unificata.

L'Intelligenza Artificiale multimodale si sposterà infine verso l'unificazione nativa.

SenseNova U1, alimentato da NEO-Unify, è una delle prime architetture ad abbracciare pienamente questa idea, con un valore unico sia a livello accademico che ingegneristico.

Il futuro di SenseNova U1: 8B è solo l'inizio

SenseTime lo ha detto chiaramente: SenseNova U1 Lite è solo la versione leggera. Sono in arrivo modelli in scala maggiore basati su NEO-Unify.

La convinzione è che con un'architettura nativa efficiente si possano ottenere prestazioni di alto livello a costi di calcolo molto più bassi.

L'implicazione è chiara: se 8B raggiunge già il SOTA open-source, la scalabilità a decine di miliardi di parametri potrebbe amplificare ulteriormente il vantaggio architettonico.

SenseNova U1 segna un nuovo paradigma

L'intelligenza artificiale multimodale sta passando dall'assemblaggio modulare all'unificazione nativa.

L'open-sourcing di SenseNova U1 è solo il primo passo. Ma a giudicare dai risultati attuali, è già solido.

La destinazione finale di questo percorso potrebbe dipendere dalla comunità globale degli sviluppatori.

Il codice e i pesi sono già disponibili.

Quello che succede dopo dipende da voi.