SenseNova U1: Multimodale KI auf Open-Source-Basis definiert Bilderzeugung und -verstehen neu

Der weltweite Kampf um die KI-Bilderzeugung ist in vollem Gange. Erst letzte Woche hat OpenAI offiziell GPT Image 2 vorgestellt und damit das gesamte Internet in Erstaunen versetzt. Ob Livestream-Visuals für den E-Commerce, nostalgische Fotos im Stil der 90er Jahre oder komplexe Wissensdiagramme - eine atemberaubende Demo nach der anderen hat die Feeds überall überflutet.

Sie brauchen nicht zu fragen - die KI-Bilderzeugung hat sich eindeutig auf die nächste Stufe entwickelt.

Innerhalb weniger Tage reagierte ein großes chinesisches Technologieunternehmen, SenseTime, mit einem brandneuen Trumpf: SenseNova U1. Bei diesem Modell des multimodalen Verstehens und Erzeugens werden das “Verstehen von Bildern” und das “Erzeugen von Bildern” in ein und demselben Gehirn vereint.

Der Kern des Durchbruchs liegt in einer selbst entwickelten “einheitlichen Modellarchitektur” namens NEO-Unify, die Verstehen, Schlussfolgern und Generieren in einem System integriert.

Noch wichtiger ist, dass sie es nicht verschlossen haben. SenseNova U1 ist jetzt vollständig quelloffen auf GitHub, und eine Welle von Nutzern hat bereits begonnen, mit ihr zu experimentieren. Sogar KI-Experten von Hugging Face und MLS Super Intelligence Lab beobachten die Entwicklung aufmerksam und geben ihr ein "Daumen hoch".

SenseNova U1 Lite Modelle: Kleine Größe, große Wirkung

Diese Version enthält die leichtgewichtigen Serien SenseNova U1 Lite, mit zwei Modellvarianten:

SenseNova U1 Modell-Varianten

SenseNova-U1-8B-MoT: basierend auf einem dichten Backbone-Netzwerk
SenseNova-U1-A3B-MoT: basierend auf einem MoE-Backbone-Netzwerk

Die Parameter mögen “kompakt” aussehen, aber die Leistung geht weit über die Erwartungen hinaus. Über mehrere Benchmarks hinweg, SenseNova U1 zeigt in allen Dimensionen eine Dominanz und erreicht unter den Open-Source-Modellen ähnlicher Größe den Stand der Technik (SOTA).

Noch überraschender ist, dass es in mehreren Kriterien an einige große proprietäre kommerzielle Modelle heranreicht oder sie sogar übertrifft.

SenseNova U1 Kontinuierliche Bild-Text-Erstellung

Bevor wir in die technischen Details eintauchen, sollten wir uns echte Demos ansehen, um die Grenzen der SenseNova U1 Fähigkeiten.

Seine besondere Stärke ist die kontinuierliche Bild-Text-Generierung, die auf der originellen, verschachtelten Bild-Text-Denkketten-Technologie von SenseTime basiert.

Architektonische Skizze mit SenseNova U1

Nehmen wir das Beispiel der Erstellung einer schrittweisen Skizze einer gotischen Kathedrale. Während seines Denkprozesses, SenseNova U1 schlüsselt komplexe architektonische Ästhetik bis ins kleinste Detail auf, fast wie ein “Architekt” mit tiefem räumlichen Denken.

In der Vergangenheit war es eines der schwierigsten Probleme, die Konsistenz über mehrere generierte Bilder hinweg zu wahren. Doch in dieser Demo sind die Hauptstruktur, die Anzahl der Strebepfeiler und sogar die Muster der Rosetten nahezu perfekt aufeinander abgestimmt - von den groben Umrissen bis hin zum endgültigen verschnörkelten Ergebnis.

Dieses Maß an Konsistenz sorgt dafür, dass es sich wie ein echter, lehrreicher Design-Walkthrough anfühlt.

Mehrwinklige Mustererstellung mit SenseNova U1

Eine weitere einfache Aufgabe: Entwerfen Sie eine Bibliothek auf einer Klippe am Meer und präsentieren Sie sie aus verschiedenen Blickwinkeln.

Fünf Perspektiven, fünf Textabschnitte, fünf Bilder - streng abwechselnd und logisch aufeinander aufbauend. Von außen nach innen, von der Struktur zur Atmosphäre, von der Tageszeit zur Abenddämmerung wird jeder “Gedanke” direkt visualisiert.

Text liefert die Gestaltungsabsicht, Bilder die visuelle Bestätigung. Die beiden verstärken sich gegenseitig.

Noch auffälliger ist die stilistische Konsistenz aller fünf Bilder - Architektur, Materialien und Farbsysteme folgen alle demselben Designkonzept.

So sollte das “Denken beim Zeichnen” aussehen.

SenseNova U1 Geschichtenerzählen und künstlerische Erzeugung

Comic-Erzählungen mit SenseNova U1

Mit ein paar einfachen Aufforderungen, SenseNova U1 kann eine komische Geschichte entstehen.

Das Tempo der vier Bilder ist präzise: von einem einsamen Licht in den Cyber-Ruinen zu Robotern, die sich um einen alten Mann versammeln, der liest, zu einer Nahaufnahme von Tränen, die auf die Seiten fallen, und schließlich zu einer Weitaufnahme einer langen Horizontlinie. Die emotionale Entwicklung baut sich Schicht für Schicht auf.

Die Charaktere und Szenen bleiben durchgehend konsistent, dank der SenseNova U1’die native Integration von Bild-Text-Verständnis und -Erzeugung.

Zwischen den Panels werden sogar eigene erzählerische Details eingefügt - wie die Benennung des “Silent Tower”, die Beschreibung von Fingern, die Spuren der Zeit hinterlassen, und der Kontrast zwischen Tränen und vergilbten Seiten. Der Text selbst liest sich wie eine kleine Science-Fiction-Geschichte, während die Bilder emotionale Höhepunkte visualisieren.

Multi-Style-Bilderzeugung mit SenseNova U1

Bitten Sie ihn, einen Wolf in verschiedenen Stilen zu zeichnen, und Sie erhalten Ukiyo-e, Art Deco und Expressionismus - alle nacheinander gerendert.

Es kann sogar hochdimensionale infografikähnliche Ausgaben erzeugen, ähnlich wie bei Folien, wobei die strukturelle und visuelle Konsistenz durch den gemeinsamen Kontext erhalten bleibt.

SenseNova U1 für Infografiken und Wissensvisualisierung

SenseNova U1 kann auch alltägliche Probleme durch Bild-Text-Kombinationen erklären, die intuitiv und ansprechend sind.

Kaffee-Infografik von SenseNova U1

Aufforderung: Erstellen Sie einen Leitfaden für Pour-over-Kaffee.

SenseNova U1 denkt zuerst nach, ruft dann relevante Informationen ab und erweitert die Eingabeaufforderung in eine detaillierte Infografik. Das Endergebnis umfasst acht gut verknüpfte Schritte, die den Prozess vom Mahlen der Bohnen bis zur Extraktion genau abdecken.

Visualisierung des Wasserkreislaufs mit SenseNova U1

Ein weiteres Beispiel: “Die Reise des Wasserkreislaufs”.”

SenseNova U1 sucht und kompiliert Wissen und erstellt ein ultraklares 2K-Diagramm, das alle wichtigen geografischen Elemente rekonstruiert - Sonneneinstrahlung, Verdunstung, Kondensation, Transport, Niederschlag und Abfluss.

Jeder Schritt baut genau auf dem vorhergehenden auf.

Mit SenseNova U1 erstellte Infografiken mit hoher Dichte

Aus einer Eingabeaufforderung mit sechs Wörtern kann eine vollständige Infografik zur Wassermelone erstellt werden, die sich mit Nährwerten, Gesundheitsvorteilen und Verzehrsempfehlungen befasst und als vollständiger Artikel veröffentlicht werden kann.

Es kann auch hochkomplexe Reiseführer für Pendler, Comics im Pop-Art-Stil für den Berufseinstieg und sogar Infografiken zum globalen Frühstück im LEGO-Stil erstellen, in denen ikonische Lebensmittel aus Ländern wie Japan, Mexiko, dem Vereinigten Königreich, der Türkei, Brasilien und Indien rekonstruiert werden.

SenseNova U1 Architektur: NEO-Unify Erklärt

SenseNova U1’Diese beeindruckende Leistung wirft eine grundlegende Frage auf: Wie kann ein relativ kleines Modell dies erreichen?

Die Antwort liegt in seiner Architektur.

Von modularer KI zu SenseNova U1 Einheitliches Modell

Traditionelle multimodale Modelle folgen einem “modularen” Ansatz:

Vision Encoder (VE) zum Sehen
Variationaler Autoencoder (VAE) für Zeichnungen
Großes Sprachmodell (LLM) für Schlussfolgerungen

Diese Komponenten werden separat trainiert und dann kombiniert. Es funktioniert - aber Wahrnehmung und Schöpfung bleiben voneinander getrennt.

NEO-Unify: Der Kern von SenseNova U1

NEO-Unify macht etwas Gewagtes: Es entfernt sowohl VE als auch VAE.

Es geht von einer Grundannahme aus: Sprache und visuelle Informationen sind von Natur aus miteinander verbunden und sollten als eine Einheit modelliert werden.

Anstelle der Übersetzung zwischen Systemen, SenseNova U1 verhält sich wie ein zweisprachiger Denker, der von Anfang an Vision und Sprache gemeinsam verarbeitet.

Technischer Weg des SenseNova U1

Nahezu verlustfreie visuelle Schnittstelle für die einheitliche Darstellung von Eingaben und Ausgaben
Native Mixture-of-Transformers (MoT) Architektur
Gemeinsames Rückgrat für Verständnis und Erzeugung
Gemeinsames Training: Text über autoregressive Kreuzentropie, Bildverarbeitung über Pixelstream-Matching

Experimente zeigen, dass selbst wenn der Verstehenszweig eingefroren ist, der Erzeugungszweig noch feinkörnige visuelle Details wiederherstellen kann. Dies deutet darauf hin, dass die vereinheitlichte Darstellung sowohl den semantischen Reichtum als auch die Pixelgenauigkeit beibehält.

SenseNova U1 gegenüber GPT-Image-2

Erst vor einer Woche wurde GPT-Image-2 (ChatGPT Bilder 2.0) setzte neue Maßstäbe mit nahezu perfekter Textdarstellung und mehrstufiger Bearbeitung.

Aber im Grunde bleibt es ein “spezialisiertes Bilderzeugungsmodell”.”

SenseNova U1 geht einen anderen Weg. Es ist nicht nur für die Erzeugung von Bildern - es ist ein natives, einheitliches Modell, das alles verarbeitet:

Bildverständnis
Visuelles Denken
Verschränktes Bild-Text-Denken
Erstellung von Infografiken

Alle basieren auf der gleichen Architektur, der gleichen Ausbildung und dem gleichen Modell.

Und ganz wichtig, SenseNova U1 ist Open-Source.

Für Entwickler, die eine private Bereitstellung, umfassende Anpassungen oder eine multimodale Integration in Produkte benötigen, SenseNova U1 bietet einen Weg, den GPT-Image-2 nicht bietet.

SenseNova U1 und der Weg zur AGI

Betrachtet man das Gesamtbild, so ist der aktuelle “Kampf um die Bilderzeugung” immer noch von einem fragmentierten Paradigma geprägt - besseres Rendering, höhere Auflösung, mehr Stile.

Dies sind schrittweise Verbesserungen, keine Paradigmenwechsel.

Wahr AGI kein Flickenteppich aus spezialisierten Modulen sein wird. Das menschliche Gehirn ist keine mechanische Kombination aus getrennten Systemen für Sprache, Sehen und Handeln, sondern eine einheitliche kognitive Einheit.

Multimodale KI wird sich schließlich in Richtung nativer Vereinheitlichung bewegen.

SenseNova U1, Das von NEO-Unify betriebene System ist eine der ersten Architekturen, die diese Idee vollständig umsetzt und sowohl im akademischen als auch im technischen Bereich von einzigartigem Wert ist.

SenseNova U1 Zukunft: 8B ist erst der Anfang

SenseTime hat es deutlich gemacht: SenseNova U1 Lite ist nur die leichte Version. Größere Modelle, die auf NEO-Unify basieren, sind in Vorbereitung.

Sie sind davon überzeugt, dass mit einer effizienten nativen Architektur eine erstklassige Leistung bei wesentlich geringeren Rechenkosten erreicht werden kann.

Die Implikation ist klar: Wenn 8B bereits Open-Source-SOTA erreicht, könnte die Skalierung auf zehn Milliarden Parameter den architektonischen Vorteil noch weiter vergrößern.

SenseNova U1 markiert ein neues Paradigma

Multimodale KI durchläuft einen Wandel - vom modularen Zusammenbau zur nativen Vereinheitlichung.

Das Open-Sourcing von SenseNova U1 ist nur der erste Schritt. Aber nach den aktuellen Ergebnissen zu urteilen, ist es bereits ein solider Schritt.

Wohin dieser Weg letztlich führt, hängt von der weltweiten Entwicklergemeinschaft ab.

Der Code und die Gewichte sind bereits verfügbar.

Wie es weitergeht, bleibt Ihnen überlassen.