Il modello MotuBrain World supera due benchmark globali: una svolta nell'intelligenza robotica

Rifiuta di rivelare il suo nome, ma è in testa a due benchmark globali

Negli ultimi giorni, lo spazio modello mondiale è stato insolitamente vivace.

World Labs, l'unicorno dell'intelligenza spaziale di Fei-Fei Li, ha presentato “Spark 2.0” in modo molto visibile e Alibaba l'ha seguita rapidamente con il suo modello mondiale “Happy Oyster”.”

Quasi contemporaneamente, Physical Intelligence ha rilasciato anche un nuovo modello π 0.7, enfatizzando la sua iniziale capacità di generalizzazione compositiva su compiti non visti e le sue caratteristiche di trasferimento tra piattaforme robotiche.

Questa serie di mosse invia di per sé un segnale: l'attenzione della concorrenza nel settore si è spostata da chi è in grado di compiere azioni isolate a chi è più vicino a unificare la “previsione del mondo” e la “guida delle azioni” in un unico modello.

A questo punto, un misterioso modello di mondo chiamato MotuBrain ha scalato tranquillamente la vetta di due benchmark internazionali, senza alcun nome di azienda.

Se si trattasse solo del primo posto in una classifica, non sarebbe così insolito.

Ma il fatto è che, allo stesso tempo, sono state eliminate due classifiche che rappresentano quasi i “due estremi” del settore: una è WorldArena, che misura se un modello di mondo comprende e prevede realmente il mondo reale; l'altra è RoboTwin2.0, che valuta l'esecuzione di compiti e la capacità di generalizzazione dei robot. Uno si orienta verso la previsione del mondo, l'altro verso l'esecuzione dei compiti: insieme, corrispondono esattamente al problema unificato che il settore sta cercando di risolvere in questo momento.

MotuBrain è leader sia in WorldArena che in RoboTwin2.0

motubrain guida sia worldarena che robotwin2.0

Su WorldArena, MotuBrain si è classificato al primo posto con un punteggio EWM complessivo di 63,77. Dai risultati, le sue prestazioni superano quelle di modelli come ABot di Gaode e GigaWorld-1 di Jijia, e sono in testa nelle dimensioni chiave del movimento, come la qualità del movimento, il punteggio del flusso e la fluidità del movimento.

Su RoboTwin2.0, MotuBrain ha raggiunto 95,8 e 96,1 rispettivamente nelle impostazioni Clean e Randomized, classificandosi al primo posto. È l'unico modello in classifica con un punteggio medio superiore a 95 in ambienti randomizzati e nella maggior parte dei compiti specifici ha raggiunto 100 o quasi. Rispetto a modelli come Gaode ABot, Formica Lingbo LingBot, JEPA-VLA e pi0.5, MotuBrain mostra prestazioni dominanti nel benchmark RoboTwin.

Su RoboTwin2.0, MotuBrain ha raggiunto 95,8 e 96,1 nelle impostazioni Clean e Randomized rispettivamente,

È proprio questo “doppio primo posto” che fa sì che le persone inizino a prestare attenzione a questo modello sconosciuto.

Una rapida ricerca mostra che non c'è ancora quasi nessuna informazione su MotuBrain online, ma c'è un account X registrato proprio questo mese.

Ciò riporta alla mente il precedente “Huanle Ma”, poi rivendicato da Alibaba (che in seguito ha anche aperto un account X).

Questo misterioso modello mondiale potrebbe provenire da qualche grande azienda tecnologica nazionale?

Perché i risultati di MotuBrain sono importanti

WorldArena e RoboTwin non sono lo stesso tipo di test, ma misurano due capacità diverse.

WorldArena valuta la dimensione del modello del mondo: se il modello è in grado di comprendere le leggi del movimento, se è in grado di dedurre e prevedere con precisione i cambiamenti fisici nelle serie temporali e se è consapevole dei cambiamenti di stato dell'ambiente. Questa è la capacità di prevedere il mondo.

RoboTwin, invece, si orienta verso la dimensione del modello d'azione o del modello di policy: ad esempio, se il modello è in grado di eseguire azioni in modo stabile tra più compiti e ambienti, se è in grado di generalizzare a scenari inediti e se è in grado di completare continuamente operazioni complesse. Questa è la capacità di agire nel mondo.

Vedetela in questo modo. Il motivo per cui un guidatore umano può guidare in sicurezza in un traffico complesso non è solo la memoria muscolare, ma la costante previsione di ciò che accadrà nel secondo successivo: l'auto che precede frenerà improvvisamente? Un pedone attraverserà inaspettatamente? Questa sincronizzazione tra previsione e azione è la logica alla base dell'intelligenza umana.

La maggior parte dei sistemi robotici esistenti manca proprio di questo livello. O sono bravi a capire il mondo, ma non sanno come agire, oppure sono in grado di eseguire azioni fisse, ma non sanno prevedere i cambiamenti ambientali. Questa divisione porta i robot a fallire facilmente una volta usciti dagli scenari di addestramento.

Negli ultimi anni sono state esplorate entrambe le direzioni, ma per lo più in modo isolato. I team che lavorano sulla generazione di video e sui modelli del mondo si concentrano sulla capacità dei modelli di simulare realisticamente il mondo fisico; i team che lavorano sulla politica dei robot e sulla VLA si concentrano su come far sì che i modelli vengano eseguiti in modo affidabile su compiti specifici. Ci sono stati pochi tentativi di unificare veramente le due cose e ancora meno risultati stabili.

Il fatto che MotuBrain sia riuscito a conquistare il primo posto in entrambi i tipi di benchmark dimostra almeno una cosa a livello di benchmark: unificare la previsione del mondo e la guida delle azioni in un unico modello è una strada percorribile.

Doppio primo posto: Dove si vince?

Nella classifica di WorldArena, MotuBrain si distingue per il suo vantaggio in diverse dimensioni.

La qualità del movimento è al primo posto, il che significa che le azioni generate dal modello sono più realistiche, non solo effetti visivi in movimento.

Il Flow Score si colloca al primo posto, indicando una comprensione più approfondita del movimento e delle traiettorie continue e la capacità di prevedere in modo stabile i cambiamenti di movimento su larga scala, collegando in modo fluido un momento all'altro piuttosto che ricucendo fotogramma per fotogramma.

La scorrevolezza del movimento è al primo posto, il che significa che le azioni generate seguono meglio le leggi fisiche reali, senza accelerazioni improvvise e innaturali, senza jitter o salti di direzione.

Queste tre dimensioni sono tutte direttamente collegate al movimento. Per un modello di mondo futuro destinato a servire i robot, questa è proprio la capacità più critica.

Sul RoboTwin, più focalizzato sull'esecuzione dei compiti, questo vantaggio è ulteriormente amplificato. Affrontando 50 compiti e due diverse impostazioni ambientali, il punteggio medio di MotuBrain raggiunge 96,0, significativamente più alto del secondo classificato con 92,3. Il divario è quasi pari alla differenza tra il secondo e il quinto posto. Il divario è quasi pari alla differenza tra il secondo e il quinto posto.

Ancora più importante è la stabilità. La metà dei compiti ha un tasso di successo di 100% e 90% dei compiti supera 90%. Questo non significa solo che è in grado di ottenere risultati corretti, ma anche che è in grado di riprodurre in modo coerente i risultati in più attività e in presenza di disturbi casuali.

Nel loro insieme, questi risultati indicano qualcosa di più vicino a un cervello robotico generale: mantenere la continuità e la coerenza a livello di azione, pur avendo anche una capacità di generalizzazione trasversale.

Chi c'è dietro e quale strada stanno percorrendo?

Al momento, le informazioni pubbliche su MotuBrain sono molto scarse. Ma a giudicare dalla struttura dei suoi risultati nelle due classifiche, è improbabile che si tratti di un modello video tradizionale, né di un modello puramente VLA o politico. Rappresenta un tipo di ragionamento diverso, distinto dal modello di pensiero adattivo che si trovano nei modelli linguistici di alto livello, concentrandosi intensamente sulla pura intelligenza fisica.

Nell'ultimo anno, l'esplorazione dei modelli mondiali e dei modelli d'azione ha dato vita a diversi percorsi rappresentativi del settore.

Alcuni enfatizzano un modello unificato del mondo, combinando visione, linguaggio, video e azione attraverso una modellazione congiunta - integrando modelli video, VLA, modelli del mondo e altro - per ottenere percezione, pianificazione, previsione, esecuzione e generalizzazione trasversale in ambienti reali. Un esempio tipico è Motus, rilasciato lo scorso dicembre.

Alcuni si orientano più verso il percorso “prima immaginare, poi agire”. Per esempio, Lingbot-VA, rilasciato alla fine di gennaio di quest'anno, utilizza prima un modello video per prevedere i video futuri e poi guida le decisioni di azione del robot al contrario, fondendo entrambi in un unico modello.

Altri seguono un approccio di “inferenza simultanea di stati futuri + generazione di azioni” - il cosiddetto World Action Model - in cui la previsione e l'azione avvengono insieme, come nel caso di DreamZero di NVIDIA, presentato all'inizio di febbraio.

Dalle prestazioni di MotuBrain questa volta, è possibile che stia seguendo un percorso più vicino al World Action Model, combinando la capacità di un modello del mondo di dedurre ambienti e stati futuri, con la capacità di esecuzione di un modello di azione in compiti reali.

Questo spiegherebbe anche perché è in grado di superare sia i benchmark di “modellazione del mondo” che di “esecuzione delle azioni”.

Conclusione

Se si scompone un robot, si può pensare alle sue “mani e piedi” come a un hardware e al suo “cervello” come a un software.

Negli ultimi anni, la velocità di iterazione dell'hardware dei robot è stata evidente: il controllo del movimento sta diventando più preciso, i sensori più abbondanti, i costi più bassi. Ma ciò che limita veramente la diffusione su larga scala dei robot è il cervello che dirige le attività.

I robot di oggi sono essenzialmente ancora “sistemi specializzati addestrati per compiti specifici”. Cambiando lo scenario, cambiando l'oggetto, cambiando le istruzioni, possono fallire completamente. In larga misura, questo dipende dall'intelligenza.

L'obiettivo dell'intelligenza incarnata è quello di costruire un modello unificato in grado di comprendere il mondo fisico, prevedere i cambiamenti di stato e, sulla base di ciò, generare azioni affidabili, adattandosi a qualsiasi compito e scenario. Questo salto è tanto trasformativo per la robotica quanto lo è lo spostamento di un oggetto. dalla codifica delle vibrazioni alla codifica dei desideri è stato per la sfera della programmazione dell'intelligenza artificiale.

Il capitale ha già dato il suo giudizio con denaro reale.

Se si considerano i recenti grandi round di finanziamento, non è difficile notare che il denaro sta affluendo in modo intensivo verso le aziende che costruiscono “cervelli” robotici. In apparenza si tratta di investimenti in robot, ma in realtà potrebbero essere in competizione per ottenere il punto di ingresso del “sistema operativo per robot” o del “cervello fisico generale” di prossima generazione.”

Vista in questo modo, l'architettura unificata mondo+azione rappresentata da MotuBrain si colloca proprio al centro di questa gara strategica.

Per quanto riguarda il team che sta dietro a MotuBrain e le sue prossime novità, la domanda probabilmente non rimarrà senza risposta per molto tempo.