{"id":2408,"date":"2026-04-21T05:02:28","date_gmt":"2026-04-21T05:02:28","guid":{"rendered":"https:\/\/deepinsightai.io\/?p=2408"},"modified":"2026-04-21T05:02:30","modified_gmt":"2026-04-21T05:02:30","slug":"lingbot-map-3d-mapping","status":"publish","type":"post","link":"https:\/\/deepinsightai.io\/de\/lingbot-map-3d-mapping\/","title":{"rendered":"LingBot-Map erstellt eine vollst\u00e4ndige 3D-Karte mit nur einer billigen Kamera - 10.000 Frames, keine Abst\u00fcrze"},"content":{"rendered":"<p>Ein chinesisches Team stellte LingBot-Map als Open Source zur Verf\u00fcgung und schaffte mit einer gew\u00f6hnlichen Kamera eine 3D-Rekonstruktion mit 10.000 Bildern, die 1,2 Millionen Zuschauer im Internet anlockte.<\/p>\n\n\n\n<p>Eine Kamera, die nur ein paar Dutzend Yuan kostet, schl\u00e4gt LiDAR-Systeme im Wert von mehreren Zehntausend.<\/p>\n\n\n\n<p>Unerwarteterweise hat das chinesische Team mit der frei zug\u00e4nglichen LingBot-Map die weltweite Robotik-Gemeinschaft in Aufruhr versetzt.<\/p>\n\n\n\n<p>Dies ist ein Streaming 3D-Rekonstruktionsfundamentmodell. Mit nur einer einzigen RGB-Kamera - kein LiDAR, kein Tiefensensor - erstellt es eine vollst\u00e4ndige 3D-Karte in Echtzeit mit 20 FPS.<\/p>\n\n\n\n<figure data-spectra-id=\"spectra-mo85bwbv-kgicdd\" class=\"wp-block-image aligncenter size-full\"><img fetchpriority=\"high\" decoding=\"async\" width=\"960\" height=\"540\" src=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Long-Sequence-Spatial-Memory.gif\" alt=\"lingbot Karte lange Sequenz r\u00e4umliches Ged\u00e4chtnis\" class=\"wp-image-2412\"\/><\/figure>\n\n\n\n<p>Das Erstaunlichste dabei ist, dass die Genauigkeit selbst nach 10.000 Bildern im Dauerbetrieb kaum abnimmt.<\/p>\n\n\n\n<p>Ein KI-Forscher von Agility Robotics sagte: \u201cAuf diesen Tag habe ich schon zu lange gewartet.\u201d<\/p>\n\n\n\n<figure data-spectra-id=\"spectra-mo85dcmm-okkxnz\" class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"589\" height=\"65\" data-src=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-9.png\" alt=\"Ein KI-Forscher von Agility Robotics sagte: \u201cAuf diesen Tag habe ich schon zu lange gewartet.\u201d\" class=\"wp-image-2413 lazyload\" data-srcset=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-9.png 589w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-9-300x33.png 300w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-9-18x2.png 18w\" data-sizes=\"(max-width: 589px) 100vw, 589px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 589px; --smush-placeholder-aspect-ratio: 589\/65;\" \/><\/figure>\n\n\n\n<p>Sogar Andrew Davison schaltete sich pers\u00f6nlich ein, um es zu loben:<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>Es sieht so aus, als ob hier ein beeindruckendes SLAM-Denken im Spiel war. Herzlichen Gl\u00fcckwunsch zu den Ergebnissen.<\/p>\n<\/blockquote>\n\n\n\n<p>Davison \u00e4u\u00dfert sich fast nie \u00f6ffentlich zu bestimmten technischen Projekten. Wenn er aktiv etwas postet und das Wort \u201cbeeindruckend\u201d verwendet, werden die Leute in diesem Bereich genauer hinschauen.<\/p>\n\n\n\n<figure data-spectra-id=\"spectra-mo85dxt2-06s6nz\" class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"651\" height=\"81\" data-src=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-10.png\" alt=\"Bild\" class=\"wp-image-2414 lazyload\" data-srcset=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-10.png 651w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-10-300x37.png 300w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-10-18x2.png 18w\" data-sizes=\"(max-width: 651px) 100vw, 651px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 651px; --smush-placeholder-aspect-ratio: 651\/81;\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">LingBot-Map befl\u00fcgelt die SLAM-Welt - Branchenf\u00fchrer sagen \u201cEndlich\u201d<\/h2>\n\n\n\n<p>Mit LingBot-Map k\u00f6nnen Roboter wirklich die ganze Welt \u201cverstehen\u201d. Seine Open-Source-Ver\u00f6ffentlichung wurde von 1,2 Millionen Zuschauern verfolgt.<\/p>\n\n\n\n<p>Mehrere Top-KOLs haben den Beitrag gepostet und geliked und damit in der gesamten Branche gro\u00dfe Anerkennung erlangt.<\/p>\n\n\n\n<p>Wie sieht also die von einem SLAM-Pionier gepriesene und von Forschern lang erwartete LingBot-Map in der Praxis aus?<\/p>\n\n\n\n<p>Die vom Team ver\u00f6ffentlichten Praxistests geben die Antwort.<\/p>\n\n\n\n<p>In einer Luftbildszene \u00fcberfliegt die Kamera einen ganzen Stadtblock von oben. LingBot-Map rekonstruiert Geb\u00e4udefassaden, Dachstrukturen, Stra\u00dfen und Stra\u00dfenb\u00e4ume in Echtzeit zu einer vollst\u00e4ndigen 3D-Punktwolke - sogar Klimaanlagen auf dem Dach k\u00f6nnen unterschieden werden.<\/p>\n\n\n\n<p>In einem Szenario zur Navigation in Innenr\u00e4umen bewegt sich die Kamera von der K\u00fcche ins Wohnzimmer und durch einen Korridor. Die Beleuchtung und die Struktur \u00e4ndern sich st\u00e4ndig, doch die rekonstruierte 3D-Karte mit mehreren R\u00e4umen ist exakt im Raum ausgerichtet, ohne Ausrichtungsfehler oder Geisterbilder zwischen den R\u00e4umen.<\/p>\n\n\n\n<p>Ein lichtarmer Korridor wird zu einem extremen Test. Die Kamera bewegt sich durch einen fast pechschwarzen, schmalen Korridor. Herk\u00f6mmliche Bildverarbeitungsmethoden versagen hier in der Regel, aber LingBot-Map liefert dennoch eine koh\u00e4rente Korridorstruktur und eine stabile Trajektorie.<\/p>\n\n\n\n<p>Noch interessanter ist, dass das Team LingBot-Map mit von LingBot-World generierten Videos im Zeichentrickstil f\u00fctterte und es trotzdem eine stabile 3D-Rekonstruktion durchf\u00fchren konnte.<\/p>\n\n\n\n<p>Die Eingabe ist eine KI-generierte virtuelle japanische Stra\u00dfe. Die Ausgabe ist eine 3D-Punktwolke mit genauen r\u00e4umlichen Koordinaten. Die Kompatibilit\u00e4t zwischen den beiden Modellen stellt eine direkte Verbindung zwischen der Pipeline \u201cvirtuelle Welt \u2192 3D-Raumverst\u00e4ndnis\u201d her.\u201d<\/p>\n\n\n\n<p>Der Vergleich der Flugbahnen macht es noch deutlicher.<\/p>\n\n\n\n<p>Bei den Datens\u00e4tzen Oxford Spires und Tanks &amp; Temples \u00fcberschneidet sich die von LingBot-Map vorhergesagte Flugbahn (orange) fast vollst\u00e4ndig mit der Bodenwahrheit (blau), w\u00e4hrend die konkurrierenden Methoden TTT3R und WinT3R eine starke Abweichung aufweisen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Das Innere von LingBot-Map - ein \u201cSelektives Ged\u00e4chtnis\u201d-System<\/h2>\n\n\n\n<p>Die Hauptschwierigkeit bei der 3D-Rekonstruktion durch Streaming besteht darin, das Modell \u201cbeim Sehen bauen\u201d zu lassen, ohne die Vergangenheit zu vergessen oder das Ged\u00e4chtnis zu strapazieren.<\/p>\n\n\n\n<p>Bei der herk\u00f6mmlichen 3D-Rekonstruktion hei\u00dft es \u201cerst erfassen, dann bearbeiten\u201d.\u201d<\/p>\n\n\n\n<p>Bei der Streaming-Rekonstruktion muss das System beim Empfang neuer Bilder kontinuierlich lokalisieren und abbilden und dabei die Rechen- und Speicherkosten streng kontrollieren.<\/p>\n\n\n\n<p>Bisherige L\u00f6sungen blieben in Kompromissen stecken.<\/p>\n\n\n\n<p>Einige komprimierten zu stark und verga\u00dfen nach und nach fr\u00fchere Beobachtungen. Einige speicherten alle historischen Bilder im Cache, wodurch der Speicher linear mit der Sequenzl\u00e4nge anstieg. Andere kombinierten Deep-Learning-Modelle mit herk\u00f6mmlichen SLAM-Backends - mit guten Ergebnissen, aber manueller Abstimmung und mangelnder Echtzeitleistung.<\/p>\n\n\n\n<p>LingBot-Map leiht sich eine strukturelle Erkenntnis aus dem klassischen SLAM.<\/p>\n\n\n\n<p>Um Karten erstellen zu k\u00f6nnen, w\u00e4hrend sie sich in unbekannten Umgebungen bewegen, m\u00fcssen Roboter ein r\u00e4umliches Ged\u00e4chtnis mit mehreren Granularit\u00e4ten haben. Herk\u00f6mmliches SLAM nutzt dazu handgefertigte geometrische Beschr\u00e4nkungen, was die Flexibilit\u00e4t einschr\u00e4nkt.<\/p>\n\n\n\n<p>LingBot-Map verinnerlicht diese Struktur in den Aufmerksamkeitsmechanismus von Transformer und l\u00e4sst das Modell lernen, was es sich merken und was es vergessen soll.<\/p>\n\n\n\n<p>Dieser Mechanismus wird Geometric Context Attention (GCA) genannt und umfasst drei Ged\u00e4chtnisschichten.<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Anker - erinnern Sie sich daran, \u201cwo ich angefangen habe\u201d.\u201d<br>Die ersten Bilder dienen als Ankerbilder, die wie GPS-Basisstationen das Koordinatensystem und die Skalenbasislinie festlegen. Selbst bei Bild 10.000 wei\u00df das Modell noch, wo sich Bild 1 befindet.<\/li>\n\n\n\n<li>Pose-Referenz-Fenster - Erinnern Sie sich daran, \u201cwas um mich herum ist\u201d.\u201d<br>Es speichert die letzten Dutzend Bilder mit allen visuellen Informationen und erfasst dichte geometrische Details in der N\u00e4he der aktuellen Position - wie der Blick durch die Windschutzscheibe eines Autos.<\/li>\n\n\n\n<li>Flugbahnged\u00e4chtnis - Erinnern Sie sich daran, \u201cwo ich gewesen bin\u201d.\u201d<br>Entfernte Bilder enthalten nicht alle visuellen Details. Jedes Einzelbild wird auf nur 6 kompakte Token komprimiert, die die geometrischen Schl\u00fcsselinformationen der gesamten Flugbahn speichern. Wie bei einem R\u00fcckspiegel sieht man nicht jede Stra\u00dfennummer, aber man wei\u00df, woher man kommt.<\/li>\n<\/ol>\n\n\n\n<p>Drei Speicherschichten klingen kompliziert, sind aber in der Praxis \u00e4u\u00dferst effizient.<\/p>\n\n\n\n<p>Bei einem Video mit 10.000 Bildern speichert die kausale Standardaufmerksamkeit etwa 5 Millionen Token, w\u00e4hrend GCA nur etwa 70.000 verwendet. Jedes neue Bild f\u00fcgt bei Standardmethoden etwa 500 Token hinzu, bei GCA jedoch nur 6 Token. Der Speicherzuwachs wird um etwa das 80-fache reduziert.<\/p>\n\n\n\n<p>Deshalb kann LingBot-Map ultralange Videos mit konstantem Speicher verarbeiten, w\u00e4hrend andere nach ein paar tausend Bildern abst\u00fcrzen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">LingBot-Map Trainingsstrategie und Benchmark-Ergebnisse<\/h2>\n\n\n\n<figure data-spectra-id=\"spectra-mo85lf3d-ggvj8i\" class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"660\" height=\"329\" data-src=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-11.png\" alt=\"Abbildung 1. Vergleich von LingBot-Map mit dem Stand der Technik der Streaming-Rekonstruktionsmethoden.\" class=\"wp-image-2415 lazyload\" data-srcset=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-11.png 660w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-11-300x150.png 300w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-11-18x9.png 18w\" data-sizes=\"(max-width: 660px) 100vw, 660px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 660px; --smush-placeholder-aspect-ratio: 660\/329;\" \/><\/figure>\n\n\n\n<p>Das Team verwendete eine zweistufige Ausbildungsstrategie.<\/p>\n\n\n\n<p>In der ersten Phase trainierten sie ein Basismodell auf 29 Datens\u00e4tzen, die Innen-, Au\u00dfen-, synthetische und reale Szenen abdeckten, um ein allgemeines geometrisches Verst\u00e4ndnis aufzubauen.<\/p>\n\n\n\n<p>In der zweiten Phase f\u00fchrten sie GCA ein und erh\u00f6hten die Anzahl der Ansichten schrittweise von 24 auf 320, so dass das Modell zun\u00e4chst kurze Sequenzen und dann lange Trajektorien lernen konnte.<\/p>\n\n\n\n<p>In der Bewertung werden die Ergebnisse f\u00fcr f\u00fcnf Benchmarks dargestellt.<\/p>\n\n\n\n<p>Auf Oxford Spires (gro\u00dfe gemischte Indoor-Outdoor-Trajektorien an der Universit\u00e4t Oxford) erreicht LingBot-Map einen ATE-Fehler von 6,42 Metern, verglichen mit 18,16 Metern f\u00fcr den zweiten Platz - fast 3\u00d7 besser.<\/p>\n\n\n\n<p>Diese Genauigkeit \u00fcbertrifft sogar Offline-Methoden, die alle Bilder auf einmal verarbeiten (12,87), und traditionelle iterative Optimierungsmethoden (10,52).<\/p>\n\n\n\n<p>Bei einer Skalierung von 320 Frames auf 3.840 Frames steigt der ATE nur von 6,42 auf 7,11 und zeigt damit fast keine Verschlechterung mit der Sequenzl\u00e4nge.<\/p>\n\n\n\n<p>Auf ETH3D (mit lasergescannter Bodenwahrheit) erreicht die Rekonstruktion F1 einen Wert von 98,98 und verbessert sich damit um mehr als 21 Prozentpunkte gegen\u00fcber dem zweiten Platz (77,28).<\/p>\n\n\n\n<p>Bei Panzern und Tempeln (gro\u00dfe Bauwerke im Freien) liegt der ATE bei 0,20 Metern gegen\u00fcber 0,76 Metern auf dem zweiten Platz.<\/p>\n\n\n\n<p>Bei 7-Szenen (RGB-D in Innenr\u00e4umen) betr\u00e4gt der ATE 0,08 Meter - das beste Ergebnis.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Was LingBot-Map f\u00fcr die Robotik bedeutet<\/h2>\n\n\n\n<p>Die akademische Welt schaut auf ATE und F1, aber die Robotikunternehmen berechnen eine andere Gleichung.<\/p>\n\n\n\n<p>Erstens die Hardwarekosten.<\/p>\n\n\n\n<p>Ein industrietaugliches LiDAR kostet Tausende bis Zehntausende von Dollar. Rechnet man IMUs, Kalibrierungs-Toolchains und Softwareanpassungen hinzu, kann allein die Wahrnehmung ein Drittel der gesamten Roboterkosten ausmachen.<\/p>\n\n\n\n<p>LingBot-Map ben\u00f6tigt nur eine Kamera, die ein paar Dutzend Yuan kostet.<\/p>\n\n\n\n<p>Bei Kategorien wie Heimservice-Robotern und langsamen Lieferfahrzeugen, bei denen die Preissensibilit\u00e4t extrem hoch ist, ist die Entfernung von LiDAR viel wichtiger als das Hinzuf\u00fcgen eines weiteren Chips.<\/p>\n\n\n\n<p>Die zweite ist die autonome Navigation \u00fcber lange Zeitr\u00e4ume.<\/p>\n\n\n\n<p>Roboter, die in gro\u00dfen Logistikzentren oder st\u00e4dtischen Umgebungen eingesetzt werden, m\u00fcssen stundenlang ununterbrochen laufen. Herk\u00f6mmliche Systeme sto\u00dfen bei langen Sequenzen an ihre Speichergrenzen.<\/p>\n\n\n\n<p>Die F\u00e4higkeit von LingBot-Map, mehr als 10.000 Bilder mit konstantem Speicher zu verarbeiten, macht eine lange Autonomie in gro\u00dfen R\u00e4umen m\u00f6glich.<\/p>\n\n\n\n<p>Ein weiterer Aspekt ist die geschickte Manipulation.<\/p>\n\n\n\n<p>Dies stellt eine Verbindung zu LingBot-Depth her, das bereits fr\u00fcher als Open Source ver\u00f6ffentlicht wurde.<\/p>\n\n\n\n<p>Wenn Roboter versuchen, durchsichtiges Glas oder reflektierende Metallbeh\u00e4lter zu greifen, sind herk\u00f6mmliche Tiefenkameras fast \u201cblind\u201d. Diese Materialien reflektieren keine zuverl\u00e4ssigen Signale, was zu gro\u00dfen L\u00f6chern in den Tiefenkarten f\u00fchrt.<\/p>\n\n\n\n<p>LingBot-Depth verwendet Masked Depth Modeling (MDM), um dieses Problem zu l\u00f6sen.<\/p>\n\n\n\n<p>W\u00e4hrend des Trainings werden Teile der Tiefenkarte absichtlich maskiert, um das Modell zu zwingen, Abst\u00e4nde aus RGB-Texturen und Konturen abzuleiten.<\/p>\n\n\n\n<p>Das Ergebnis ist eine Spitzenleistung bei Benchmarks wie NYUv2 und ETH3D, wobei die Tiefengenauigkeit sogar Tiefenkameras in Industriequalit\u00e4t \u00fcbertrifft.<\/p>\n\n\n\n<p>Das Modell wurde vom Tiefenerkennungslabor von Orbbec zertifiziert, und beide Seiten sind eine strategische Partnerschaft zur Entwicklung von Tiefenkameras der n\u00e4chsten Generation eingegangen. In Praxistests erzielte es eine Erkennungsrate von 50% auf transparenten Lagerboxen.<\/p>\n\n\n\n<p>LingBot-Depth sorgt daf\u00fcr, dass man sieht, wie weit jedes Pixel entfernt ist, w\u00e4hrend LingBot-Map daf\u00fcr sorgt, dass man die gesamte 3D-Szene in Echtzeit versteht.\u201c<\/p>\n\n\n\n<p>Zusammen schlie\u00dfen sie den Kreislauf der r\u00e4umlichen Wahrnehmung f\u00fcr Roboter.<\/p>\n\n\n\n<p>Roboterarme, die Glasbecher in der K\u00fcche, Reagenzgl\u00e4ser im Labor oder reflektierende Metallbeh\u00e4lter im Lager ansteuern, verf\u00fcgen jetzt \u00fcber zuverl\u00e4ssige 3D-Raumbez\u00fcge.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">LingBot-Map vervollst\u00e4ndigt das Puzzle der verk\u00f6rperten KI<\/h2>\n\n\n\n<figure data-spectra-id=\"spectra-mo85mwzq-f5cszr\" class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"665\" height=\"253\" data-src=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-12.png\" alt=\"LingBot-Map vervollst\u00e4ndigt das Puzzle der verk\u00f6rperten KI\" class=\"wp-image-2416 lazyload\" data-srcset=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-12.png 665w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-12-300x114.png 300w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-12-18x7.png 18w\" data-sizes=\"(max-width: 665px) 100vw, 665px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 665px; --smush-placeholder-aspect-ratio: 665\/253;\" \/><\/figure>\n\n\n\n<p>Im Gro\u00dfen und Ganzen ist die Freigabe von LingBot-Map kein isoliertes Ereignis, sondern ein wichtiger Meilenstein in einer klaren Roadmap f\u00fcr verk\u00f6rperte KI.<\/p>\n\n\n\n<p>Im Januar stellte das Team w\u00e4hrend der Embodied Intelligence Evolution Week\u201c vier Modelle zur Verf\u00fcgung.\u201d<\/p>\n\n\n\n<p>LingBot-Depth behandelt die Tiefenwahrnehmung.<\/p>\n\n\n\n<p>LingBot-VLA ist ein verk\u00f6rpertes, gro\u00dfes Modell, das im GM-100-Benchmark der Shanghai Jiao Tong University rekordverd\u00e4chtige Erfolgsquoten in der realen Welt erzielt.<\/p>\n\n\n\n<p>LingBot-World zielt auf Google Genie 3 ab und erm\u00f6glicht Echtzeit-Interaktion bei 16 FPS.<\/p>\n\n\n\n<p>LingBot-VA f\u00fchrte eine autoregressive gemeinsame Modellierung von Video und Aktionen ein und verbesserte die Erfolgsraten bei realen Aufgaben um 20% gegen\u00fcber Pi0.5.<\/p>\n\n\n\n<p>Aber etwas fehlte.<\/p>\n\n\n\n<p>Die Tiefensch\u00e4tzung liefert \u201cPunkte\u201d auf Bildebene, w\u00e4hrend die 3D-Kartierung kontinuierliche \u201cOberfl\u00e4chen\u201d liefert. Die Zwischenschicht - r\u00e4umliches Verst\u00e4ndnis in Echtzeit - fehlte.<\/p>\n\n\n\n<p>LingBot-Map f\u00fcllt genau diese L\u00fccke.<\/p>\n\n\n\n<p>Jetzt bildet der gesamte verk\u00f6rperte KI-Stapel einen geschlossenen Kreislauf:<\/p>\n\n\n\n<p>Die Welt sehen (Tiefe) \u2192 Den Raum verstehen (Karte) \u2192 Die Physik simulieren (Welt) \u2192 Entscheiden und handeln (VLA\/VA)<\/p>\n\n\n\n<p>Jede Komponente in dieser Kette ist unter der Apache 2.0-Lizenz als Open Source verf\u00fcgbar, wobei Code, Gewichte und technische Berichte auf Plattformen wie Hugging Face und ModelScope ver\u00f6ffentlicht werden.<\/p>\n\n\n\n<p>Weltweit ist dieses Ma\u00df an Offenheit selten.<\/p>\n\n\n\n<p>F\u00fcr die Robotikindustrie hat sich das Spektrum der M\u00f6glichkeiten einer einzelnen Kamera gerade erweitert.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Referenzen<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>LingBot-Map. Hugging Face Repository (huggingface.co\/robbyant\/lingbot-map)<\/li>\n\n\n\n<li>LingBot-Map. ModelScope Modellseite (modelscope.cn\/models\/Robbyant\/lingbot-map)<\/li>\n\n\n\n<li>LingBot-Map. GitHub-Repository (github.com\/Robbyant\/lingbot-map)<\/li>\n\n\n\n<li>LingBot-Map: Streaming 3D Reconstruction with Geometric Context Attention. arXiv Preprint (arxiv.org\/abs\/2604.14141)<\/li>\n\n\n\n<li>LingBot-Map Offizielle Homepage (technology.robbyant.com\/lingbot-map)<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>A Chinese team open-sourced LingBot-Map, and with only an ordinary camera, it achieved 10,000-frame streaming 3D reconstruction, drawing 1.2 million viewers across the internet. A camera that costs just dozens of yuan beats LiDAR systems worth tens of thousands. Unexpectedly, the open-sourced LingBot-Map from the Chinese team directly ignited the global robotics community. This is [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":2411,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"none","_seopress_titles_title":"%%post_title%%","_seopress_titles_desc":"LingBot-Map enables real-time 3D mapping using just a single cheap RGB camera. Achieve 10,000 frames with zero crashes, no LiDAR, and stable high-precision reconstruction.","_seopress_robots_index":"","_uag_custom_page_level_css":"","site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"set","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[2,6],"tags":[],"class_list":["post-2408","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-news","category-robots"],"uagb_featured_image_src":{"full":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes.webp",2528,1696,false],"thumbnail":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-150x150.webp",150,150,true],"medium":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-300x201.webp",300,201,true],"medium_large":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-768x515.webp",768,515,true],"large":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-1024x687.webp",1024,687,true],"1536x1536":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-1536x1030.webp",1536,1030,true],"2048x2048":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-2048x1374.webp",2048,1374,true],"trp-custom-language-flag":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-18x12.webp",18,12,true]},"uagb_author_info":{"display_name":"Claude Carter","author_link":"https:\/\/deepinsightai.io\/de\/author\/cloud-han03gmail-com\/"},"uagb_comment_info":0,"uagb_excerpt":"A Chinese team open-sourced LingBot-Map, and with only an ordinary camera, it achieved 10,000-frame streaming 3D reconstruction, drawing 1.2 million viewers across the internet. A camera that costs just dozens of yuan beats LiDAR systems worth tens of thousands. Unexpectedly, the open-sourced LingBot-Map from the Chinese team directly ignited the global robotics community. This is&hellip;","_links":{"self":[{"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/posts\/2408","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/comments?post=2408"}],"version-history":[{"count":1,"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/posts\/2408\/revisions"}],"predecessor-version":[{"id":2417,"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/posts\/2408\/revisions\/2417"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/media\/2411"}],"wp:attachment":[{"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/media?parent=2408"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/categories?post=2408"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/deepinsightai.io\/de\/wp-json\/wp\/v2\/tags?post=2408"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}