{"id":2408,"date":"2026-04-21T05:02:28","date_gmt":"2026-04-21T05:02:28","guid":{"rendered":"https:\/\/deepinsightai.io\/?p=2408"},"modified":"2026-04-21T05:02:30","modified_gmt":"2026-04-21T05:02:30","slug":"lingbot-map-3d-mapping","status":"publish","type":"post","link":"https:\/\/deepinsightai.io\/fr\/lingbot-map-3d-mapping\/","title":{"rendered":"LingBot-Map construit une carte en 3D avec une seule cam\u00e9ra bon march\u00e9 - 10 000 images, z\u00e9ro accident"},"content":{"rendered":"<p>Une \u00e9quipe chinoise a mis LingBot-Map en libre acc\u00e8s et, avec une simple cam\u00e9ra, a r\u00e9alis\u00e9 une reconstruction 3D en continu de 10 000 images, attirant 1,2 million de t\u00e9l\u00e9spectateurs sur l'internet.<\/p>\n\n\n\n<p>Une cam\u00e9ra qui ne co\u00fbte que quelques dizaines de yuans bat des syst\u00e8mes LiDAR qui valent des dizaines de milliers d'euros.<\/p>\n\n\n\n<p>De mani\u00e8re inattendue, la carte LingBot-Map de l'\u00e9quipe chinoise a directement enflamm\u00e9 la communaut\u00e9 mondiale de la robotique.<\/p>\n\n\n\n<p>Il s'agit d'un mod\u00e8le de fondation \u00e0 reconstruction 3D en continu. Avec une seule cam\u00e9ra RVB - pas de LiDAR, pas de capteur de profondeur - il construit une carte 3D compl\u00e8te en temps r\u00e9el \u00e0 20 FPS.<\/p>\n\n\n\n<figure data-spectra-id=\"spectra-mo85bwbv-kgicdd\" class=\"wp-block-image aligncenter size-full\"><img fetchpriority=\"high\" decoding=\"async\" width=\"960\" height=\"540\" src=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Long-Sequence-Spatial-Memory.gif\" alt=\"lingbot map long sequence spatial memory\" class=\"wp-image-2412\"\/><\/figure>\n\n\n\n<p>L'aspect le plus frappant est que, m\u00eame apr\u00e8s une ex\u00e9cution continue de 10 000 images, la pr\u00e9cision ne diminue pratiquement pas.<\/p>\n\n\n\n<p>Un chercheur en IA d'Agility Robotics a d\u00e9clar\u00e9 : \u201cJ'attends ce jour depuis trop longtemps\u201d.\u201d<\/p>\n\n\n\n<figure data-spectra-id=\"spectra-mo85dcmm-okkxnz\" class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"589\" height=\"65\" data-src=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-9.png\" alt=\"Un chercheur en IA d&#039;Agility Robotics a d\u00e9clar\u00e9 : \u201cJ&#039;attends ce jour depuis trop longtemps\u201d.\u201d\" class=\"wp-image-2413 lazyload\" data-srcset=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-9.png 589w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-9-300x33.png 300w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-9-18x2.png 18w\" data-sizes=\"(max-width: 589px) 100vw, 589px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 589px; --smush-placeholder-aspect-ratio: 589\/65;\" \/><\/figure>\n\n\n\n<p>M\u00eame Andrew Davison est intervenu personnellement pour en faire l'\u00e9loge :<\/p>\n\n\n\n<blockquote class=\"wp-block-quote is-layout-flow wp-block-quote-is-layout-flow\">\n<p>Il semble que le SLAM ait fait l'objet d'une r\u00e9flexion impressionnante. F\u00e9licitations pour les r\u00e9sultats.<\/p>\n<\/blockquote>\n\n\n\n<p>M. Davison ne commente presque jamais publiquement des projets d'ing\u00e9nierie sp\u00e9cifiques. Lorsqu'il r\u00e9affiche activement un projet et qu'il utilise le mot \u201cimpressionnant\u201d, les sp\u00e9cialistes du domaine s'y int\u00e9ressent de plus pr\u00e8s.<\/p>\n\n\n\n<figure data-spectra-id=\"spectra-mo85dxt2-06s6nz\" class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"651\" height=\"81\" data-src=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-10.png\" alt=\"image\" class=\"wp-image-2414 lazyload\" data-srcset=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-10.png 651w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-10-300x37.png 300w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-10-18x2.png 18w\" data-sizes=\"(max-width: 651px) 100vw, 651px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 651px; --smush-placeholder-aspect-ratio: 651\/81;\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">LingBot-Map stimule le monde du SLAM - Les leaders de l'industrie disent \u201cenfin\u201d.\u201d<\/h2>\n\n\n\n<p>LingBot-Map permet aux robots de \u201ccomprendre\u201d v\u00e9ritablement le monde entier. Son lancement en code source libre a attir\u00e9 1,2 million de t\u00e9l\u00e9spectateurs.<\/p>\n\n\n\n<p>De nombreux KOLs de premier plan l'ont repost\u00e9 et aim\u00e9, ce qui lui a valu une reconnaissance de poids dans tout le secteur.<\/p>\n\n\n\n<p>Alors, \u00e0 quoi ressemble LingBot-Map - vant\u00e9 par un pionnier du SLAM et attendu depuis longtemps par les chercheurs - dans la pratique ?<\/p>\n\n\n\n<p>Les tests en conditions r\u00e9elles publi\u00e9s par l'\u00e9quipe donnent la r\u00e9ponse.<\/p>\n\n\n\n<p>Dans une sc\u00e8ne a\u00e9rienne, la cam\u00e9ra balaie un bloc urbain entier depuis le ciel. LingBot-Map reconstruit les fa\u00e7ades des b\u00e2timents, les structures des toits, les rues et les arbres en bordure de route dans un nuage de points 3D complet en temps r\u00e9el - m\u00eame les unit\u00e9s de climatisation sur les toits peuvent \u00eatre distingu\u00e9es.<\/p>\n\n\n\n<p>Dans un sc\u00e9nario de navigation int\u00e9rieure, la cam\u00e9ra se d\u00e9place de la cuisine au salon et traverse un couloir. L'\u00e9clairage et la structure ne cessent de changer, mais la carte 3D reconstitu\u00e9e de plusieurs pi\u00e8ces s'aligne rigoureusement dans l'espace, sans d\u00e9calage ni image fant\u00f4me entre les pi\u00e8ces.<\/p>\n\n\n\n<p>Un couloir peu \u00e9clair\u00e9 devient un test extr\u00eame. La cam\u00e9ra se d\u00e9place dans un couloir \u00e9troit presque noir. Les m\u00e9thodes de vision traditionnelles \u00e9chouent g\u00e9n\u00e9ralement ici, mais LingBot-Map produit toujours une structure de couloir coh\u00e9rente et une trajectoire stable.<\/p>\n\n\n\n<p>Plus int\u00e9ressant encore, l'\u00e9quipe a introduit dans LingBot-Map des vid\u00e9os de type dessin anim\u00e9 g\u00e9n\u00e9r\u00e9es par LingBot-World, et la reconstruction 3D est rest\u00e9e stable.<\/p>\n\n\n\n<p>L'entr\u00e9e est une rue japonaise virtuelle g\u00e9n\u00e9r\u00e9e par l'IA. Le r\u00e9sultat est un nuage de points 3D avec des coordonn\u00e9es spatiales pr\u00e9cises. La compatibilit\u00e9 entre les deux mod\u00e8les relie directement le pipeline \u201cmonde virtuel \u2192 compr\u00e9hension spatiale en 3D\u201d.\u201d<\/p>\n\n\n\n<p>La comparaison des trajectoires rend les choses encore plus claires.<\/p>\n\n\n\n<p>Sur les ensembles de donn\u00e9es Oxford Spires et Tanks &amp; Temples, la trajectoire pr\u00e9dite par LingBot-Map (orange) se superpose presque enti\u00e8rement \u00e0 la v\u00e9rit\u00e9 terrain (bleu), tandis que les m\u00e9thodes concurrentes TTT3R et WinT3R pr\u00e9sentent une d\u00e9rive importante.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">LingBot-Map : un syst\u00e8me de \u201cm\u00e9moire s\u00e9lective<\/h2>\n\n\n\n<p>La principale difficult\u00e9 de la reconstruction 3D en continu tient en une seule chose : comment permettre au mod\u00e8le de \u201cconstruire en voyant\u201d, sans oublier le pass\u00e9 ni \u00e9puiser la m\u00e9moire.<\/p>\n\n\n\n<p>La reconstruction 3D traditionnelle consiste \u00e0 \u201ccapturer d'abord, traiter ensuite\u201d.\u201d<\/p>\n\n\n\n<p>La reconstruction en continu exige que le syst\u00e8me localise et cartographie en permanence tout en recevant de nouvelles images, tout en contr\u00f4lant strictement les co\u00fbts de calcul et de m\u00e9moire.<\/p>\n\n\n\n<p>Les solutions pr\u00e9c\u00e9dentes \u00e9taient bloqu\u00e9es par des compromis.<\/p>\n\n\n\n<p>Certains ont proc\u00e9d\u00e9 \u00e0 une compression trop agressive et ont progressivement oubli\u00e9 les observations ant\u00e9rieures. D'autres ont mis en cache toutes les images historiques, ce qui a entra\u00een\u00e9 une croissance lin\u00e9aire de la m\u00e9moire en fonction de la longueur de la s\u00e9quence. D'autres ont combin\u00e9 des mod\u00e8les d'apprentissage profond avec des backends SLAM traditionnels - des r\u00e9sultats d\u00e9cents, mais n\u00e9cessitant un r\u00e9glage manuel et manquant de performance en temps r\u00e9el.<\/p>\n\n\n\n<p>LingBot-Map emprunte un concept structurel au SLAM classique.<\/p>\n\n\n\n<p>Pour \u00e9tablir des cartes tout en se d\u00e9pla\u00e7ant dans des environnements inconnus, les robots doivent conserver une m\u00e9moire spatiale \u00e0 plusieurs granularit\u00e9s. La m\u00e9thode SLAM traditionnelle utilise des contraintes g\u00e9om\u00e9triques \u00e9labor\u00e9es \u00e0 la main pour g\u00e9rer cette m\u00e9moire, ce qui limite la flexibilit\u00e9.<\/p>\n\n\n\n<p>LingBot-Map internalise cette structure dans le m\u00e9canisme d'attention du Transformer, permettant au mod\u00e8le d'apprendre ce qu'il faut retenir et ce qu'il faut oublier.<\/p>\n\n\n\n<p>Ce m\u00e9canisme, appel\u00e9 attention contextuelle g\u00e9om\u00e9trique (ACG), maintient trois couches de m\u00e9moire.<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Ancrage - se souvenir de \u201cl\u00e0 o\u00f9 j'ai commenc\u00e9\u201d.\u201d<br>Les premi\u00e8res images servent de points d'ancrage, fixant le syst\u00e8me de coordonn\u00e9es et la ligne de base de l'\u00e9chelle, \u00e0 l'instar des stations de base GPS. M\u00eame \u00e0 l'image 10 000, le mod\u00e8le sait toujours o\u00f9 se trouve l'image 1.<\/li>\n\n\n\n<li>Fen\u00eatre de r\u00e9f\u00e9rence - se souvenir de \u201cce qui m'entoure\u201d.\u201d<br>Il conserve les dizaines d'images les plus r\u00e9centes avec des informations visuelles compl\u00e8tes, capturant des d\u00e9tails g\u00e9om\u00e9triques denses \u00e0 proximit\u00e9 de la position actuelle, comme la vue \u00e0 travers le pare-brise d'une voiture.<\/li>\n\n\n\n<li>M\u00e9moire de la trajectoire - se rappeler \u201co\u00f9 j'ai \u00e9t\u00e9\u201d.\u201d<br>Les images \u00e9loign\u00e9es ne conservent pas tous les d\u00e9tails visuels. Chaque image est comprim\u00e9e en seulement 6 jetons compacts, stockant les informations g\u00e9om\u00e9triques cl\u00e9s de l'ensemble de la trajectoire. Comme dans un r\u00e9troviseur, vous ne voyez pas tous les num\u00e9ros de rue, mais vous savez d'o\u00f9 vous venez.<\/li>\n<\/ol>\n\n\n\n<p>Trois couches de m\u00e9moire peuvent sembler complexes, mais dans la pratique, elles sont extr\u00eamement efficaces.<\/p>\n\n\n\n<p>Pour une vid\u00e9o de 10 000 images, l'attention causale standard met en m\u00e9moire environ 5 millions de jetons, tandis que l'ACG n'en utilise qu'environ 70 000. Chaque nouvelle image ajoute environ 500 tokens dans les m\u00e9thodes standard, mais seulement 6 tokens dans GCA. La croissance de la m\u00e9moire est r\u00e9duite d'environ 80\u00d7.<\/p>\n\n\n\n<p>C'est pourquoi LingBot-Map peut traiter des vid\u00e9os tr\u00e8s longues avec une m\u00e9moire constante, alors que d'autres se plantent apr\u00e8s quelques milliers d'images.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Strat\u00e9gie de formation de LingBot-Map et r\u00e9sultats de l'analyse comparative<\/h2>\n\n\n\n<figure data-spectra-id=\"spectra-mo85lf3d-ggvj8i\" class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"660\" height=\"329\" data-src=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-11.png\" alt=\"Figure 1. Comparaison de LingBot-Map avec les m\u00e9thodes de reconstruction de flux les plus r\u00e9centes.\" class=\"wp-image-2415 lazyload\" data-srcset=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-11.png 660w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-11-300x150.png 300w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-11-18x9.png 18w\" data-sizes=\"(max-width: 660px) 100vw, 660px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 660px; --smush-placeholder-aspect-ratio: 660\/329;\" \/><\/figure>\n\n\n\n<p>L'\u00e9quipe a utilis\u00e9 une strat\u00e9gie de formation en deux \u00e9tapes.<\/p>\n\n\n\n<p>Au cours de la premi\u00e8re \u00e9tape, ils ont entra\u00een\u00e9 un mod\u00e8le de base sur 29 ensembles de donn\u00e9es couvrant des sc\u00e8nes d'int\u00e9rieur, d'ext\u00e9rieur, synth\u00e9tiques et r\u00e9elles, afin d'acqu\u00e9rir une compr\u00e9hension g\u00e9n\u00e9rale de la g\u00e9om\u00e9trie.<\/p>\n\n\n\n<p>Au cours de la deuxi\u00e8me \u00e9tape, ils ont introduit l'ACG et augment\u00e9 progressivement le nombre de vues de 24 \u00e0 320, ce qui a permis au mod\u00e8le d'apprendre d'abord des s\u00e9quences courtes, puis des trajectoires longues.<\/p>\n\n\n\n<p>En ce qui concerne l'\u00e9valuation, le document pr\u00e9sente les r\u00e9sultats obtenus pour cinq crit\u00e8res de r\u00e9f\u00e9rence.<\/p>\n\n\n\n<p>Sur Oxford Spires (trajectoires mixtes int\u00e9rieures-ext\u00e9rieures \u00e0 grande \u00e9chelle \u00e0 l'Universit\u00e9 d'Oxford), LingBot-Map obtient une erreur ATE de 6,42 m\u00e8tres, contre 18,16 m\u00e8tres pour la deuxi\u00e8me place, soit une am\u00e9lioration de pr\u00e8s de 3 fois.<\/p>\n\n\n\n<p>Cette pr\u00e9cision d\u00e9passe m\u00eame les m\u00e9thodes hors ligne qui traitent toutes les images \u00e0 la fois (12,87) et les m\u00e9thodes d'optimisation it\u00e9ratives traditionnelles (10,52).<\/p>\n\n\n\n<p>Lorsque l'on passe de 320 images \u00e0 3 840 images, l'ATE n'augmente que de 6,42 \u00e0 7,11, ce qui montre qu'il n'y a pratiquement pas de d\u00e9gradation en fonction de la longueur de la s\u00e9quence.<\/p>\n\n\n\n<p>Sur ETH3D (avec une v\u00e9rit\u00e9 terrain scann\u00e9e au laser), la reconstruction F1 atteint 98,98, am\u00e9liorant la deuxi\u00e8me place (77,28) de plus de 21 points de pourcentage.<\/p>\n\n\n\n<p>Sur les chars et temples (grandes structures ext\u00e9rieures), l'ATE est de 0,20 m\u00e8tre contre 0,76 m\u00e8tre pour la deuxi\u00e8me place.<\/p>\n\n\n\n<p>Sur 7 sc\u00e8nes (RVB-D int\u00e9rieur), l'ATE est de 0,08 m\u00e8tre, soit le meilleur r\u00e9sultat.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Ce que LingBot-Map signifie pour la robotique<\/h2>\n\n\n\n<p>Le monde universitaire s'int\u00e9resse \u00e0 l'ATE et \u00e0 la F1, mais les entreprises de robotique calculent une \u00e9quation diff\u00e9rente.<\/p>\n\n\n\n<p>Le premier est le co\u00fbt du mat\u00e9riel.<\/p>\n\n\n\n<p>Un LiDAR de qualit\u00e9 industrielle co\u00fbte des milliers, voire des dizaines de milliers de dollars. Si l'on ajoute les IMU, les cha\u00eenes d'outils d'\u00e9talonnage et l'adaptation du logiciel, la perception \u00e0 elle seule peut repr\u00e9senter un tiers du co\u00fbt total du robot.<\/p>\n\n\n\n<p>LingBot-Map n'a besoin que d'une cam\u00e9ra qui co\u00fbte quelques dizaines de yuans.<\/p>\n\n\n\n<p>Pour des cat\u00e9gories telles que les robots de service \u00e0 domicile et les v\u00e9hicules de livraison \u00e0 faible vitesse, o\u00f9 la sensibilit\u00e9 au prix est extr\u00eame, l'\u00e9limination du LiDAR est bien plus importante que l'ajout d'une autre puce.<\/p>\n\n\n\n<p>La seconde est la navigation autonome de longue dur\u00e9e.<\/p>\n\n\n\n<p>Les robots op\u00e9rant dans les grands centres logistiques ou les environnements urbains doivent fonctionner pendant des heures en continu. Les syst\u00e8mes traditionnels se heurtent \u00e0 des limites de m\u00e9moire sur de longues s\u00e9quences.<\/p>\n\n\n\n<p>La capacit\u00e9 de LingBot-Map \u00e0 traiter plus de 10 000 images avec une m\u00e9moire constante rend possible une autonomie de longue dur\u00e9e dans de grands espaces.<\/p>\n\n\n\n<p>Un autre aspect est la manipulation dextre.<\/p>\n\n\n\n<p>Il se connecte \u00e0 LingBot-Depth, qui a \u00e9t\u00e9 mis en libre acc\u00e8s plus t\u00f4t.<\/p>\n\n\n\n<p>Lorsque les robots essaient de saisir des r\u00e9cipients en verre transparent ou en m\u00e9tal r\u00e9fl\u00e9chissant, les cam\u00e9ras de profondeur traditionnelles sont presque \u201caveugles\u201d. Ces mat\u00e9riaux ne renvoient pas de signaux fiables, ce qui entra\u00eene des trous importants dans les cartes de profondeur.<\/p>\n\n\n\n<p>LingBot-Depth utilise la mod\u00e9lisation en profondeur masqu\u00e9e (MDM) pour r\u00e9soudre ce probl\u00e8me.<\/p>\n\n\n\n<p>Lors de l'apprentissage, certaines parties de la carte de profondeur sont intentionnellement masqu\u00e9es, ce qui oblige le mod\u00e8le \u00e0 d\u00e9duire les distances \u00e0 partir des textures et des contours RVB.<\/p>\n\n\n\n<p>Par cons\u00e9quent, il atteint des performances de pointe sur des bancs d'essai tels que NYUv2 et ETH3D, avec une pr\u00e9cision de profondeur d\u00e9passant m\u00eame celle des cam\u00e9ras de profondeur de qualit\u00e9 industrielle.<\/p>\n\n\n\n<p>Le mod\u00e8le a \u00e9t\u00e9 certifi\u00e9 par le laboratoire de vision en profondeur d'Orbbec, et les deux parties ont form\u00e9 un partenariat strat\u00e9gique pour d\u00e9velopper la prochaine g\u00e9n\u00e9ration de cam\u00e9ras de profondeur. Lors d'essais en conditions r\u00e9elles, il a obtenu un taux de r\u00e9ussite de 50% sur des bo\u00eetes de stockage transparentes.<\/p>\n\n\n\n<p>LingBot-Depth permet de \u201cvoir \u00e0 quelle distance se trouve chaque pixel\u201d, tandis que LingBot-Map permet de \u201ccomprendre l'ensemble de la sc\u00e8ne en 3D en temps r\u00e9el\u201d.\u201d<\/p>\n\n\n\n<p>Ensemble, ils bouclent la boucle de la perception spatiale pour les robots.<\/p>\n\n\n\n<p>Les bras robotis\u00e9s plac\u00e9s face \u00e0 des gobelets en verre dans les cuisines, \u00e0 des tubes \u00e0 essai dans les laboratoires ou \u00e0 des conteneurs m\u00e9talliques r\u00e9fl\u00e9chissants dans les entrep\u00f4ts disposent d\u00e9sormais de r\u00e9f\u00e9rences spatiales 3D fiables.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">LingBot-Map compl\u00e8te le puzzle de l'IA incarn\u00e9e<\/h2>\n\n\n\n<figure data-spectra-id=\"spectra-mo85mwzq-f5cszr\" class=\"wp-block-image aligncenter size-full\"><img decoding=\"async\" width=\"665\" height=\"253\" data-src=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-12.png\" alt=\"LingBot-Map compl\u00e8te le puzzle de l&#039;IA incarn\u00e9e\" class=\"wp-image-2416 lazyload\" data-srcset=\"https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-12.png 665w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-12-300x114.png 300w, https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/image-12-18x7.png 18w\" data-sizes=\"(max-width: 665px) 100vw, 665px\" src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" style=\"--smush-placeholder-width: 665px; --smush-placeholder-aspect-ratio: 665\/253;\" \/><\/figure>\n\n\n\n<p>Dans une perspective plus large, l'ouverture de LingBot-Map n'est pas un \u00e9v\u00e9nement isol\u00e9, mais une \u00e9tape cl\u00e9 d'une feuille de route claire en mati\u00e8re d'IA incarn\u00e9e.<\/p>\n\n\n\n<p>En janvier dernier, l'\u00e9quipe a mis en libre acc\u00e8s quatre mod\u00e8les lors de la \u201cSemaine de l'\u00e9volution de l'intelligence incarn\u00e9e\u201d.\u201d<\/p>\n\n\n\n<p>LingBot-Depth g\u00e8re la perception de la profondeur.<\/p>\n\n\n\n<p>LingBot-VLA est un grand mod\u00e8le incarn\u00e9 qui a atteint des taux de r\u00e9ussite record dans le monde r\u00e9el lors du test de r\u00e9f\u00e9rence GM-100 \u00e0 l'Universit\u00e9 Jiao Tong de Shanghai.<\/p>\n\n\n\n<p>LingBot-World cible Google Genie 3, permettant une interaction en temps r\u00e9el \u00e0 16 FPS.<\/p>\n\n\n\n<p>LingBot-VA a introduit une mod\u00e9lisation autor\u00e9gressive conjointe de la vid\u00e9o et des actions, am\u00e9liorant les taux de r\u00e9ussite des t\u00e2ches dans le monde r\u00e9el de 20% par rapport \u00e0 Pi0.5.<\/p>\n\n\n\n<p>Mais il manquait quelque chose.<\/p>\n\n\n\n<p>L'estimation de la profondeur fournit des \u201cpoints\u201d au niveau de l'image, tandis que la cartographie 3D fournit des \u201csurfaces\u201d continues. La couche interm\u00e9diaire - la compr\u00e9hension spatiale en temps r\u00e9el - \u00e9tait absente.<\/p>\n\n\n\n<p>LingBot-Map comble pr\u00e9cis\u00e9ment cette lacune.<\/p>\n\n\n\n<p>D\u00e9sormais, l'ensemble de la pile d'IA incarn\u00e9e forme une boucle ferm\u00e9e :<\/p>\n\n\n\n<p>Voir le monde (profondeur) \u2192 Comprendre l'espace (carte) \u2192 Simuler la physique (monde) \u2192 D\u00e9cider et agir (VLA\/VA)<\/p>\n\n\n\n<p>Chaque \u00e9l\u00e9ment de cette cha\u00eene est libre de droits sous la licence Apache 2.0, le code, les poids et les rapports techniques \u00e9tant publi\u00e9s sur des plateformes telles que Hugging Face et ModelScope.<\/p>\n\n\n\n<p>Au niveau mondial, ce niveau d'ouverture est rare.<\/p>\n\n\n\n<p>Pour l'industrie de la robotique, les possibilit\u00e9s offertes par une seule cam\u00e9ra viennent de s'\u00e9largir.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">R\u00e9f\u00e9rences<\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li>LingBot-Map. D\u00e9p\u00f4t de Hugging Face (huggingface.co\/robbyant\/lingbot-map)<\/li>\n\n\n\n<li>LingBot-Map. Page du mod\u00e8le ModelScope (modelscope.cn\/models\/Robbyant\/lingbot-map)<\/li>\n\n\n\n<li>LingBot-Map. D\u00e9p\u00f4t GitHub (github.com\/Robbyant\/lingbot-map)<\/li>\n\n\n\n<li>LingBot-Map : Streaming 3D Reconstruction with Geometric Context Attention. arXiv Preprint (arxiv.org\/abs\/2604.14141)<\/li>\n\n\n\n<li>Page d'accueil officielle de LingBot-Map (technology.robbyant.com\/lingbot-map)<\/li>\n<\/ul>","protected":false},"excerpt":{"rendered":"<p>A Chinese team open-sourced LingBot-Map, and with only an ordinary camera, it achieved 10,000-frame streaming 3D reconstruction, drawing 1.2 million viewers across the internet. A camera that costs just dozens of yuan beats LiDAR systems worth tens of thousands. Unexpectedly, the open-sourced LingBot-Map from the Chinese team directly ignited the global robotics community. This is [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":2411,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"none","_seopress_titles_title":"%%post_title%%","_seopress_titles_desc":"LingBot-Map enables real-time 3D mapping using just a single cheap RGB camera. Achieve 10,000 frames with zero crashes, no LiDAR, and stable high-precision reconstruction.","_seopress_robots_index":"","_uag_custom_page_level_css":"","site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"set","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[2,6],"tags":[],"class_list":["post-2408","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-news","category-robots"],"uagb_featured_image_src":{"full":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes.webp",2528,1696,false],"thumbnail":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-150x150.webp",150,150,true],"medium":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-300x201.webp",300,201,true],"medium_large":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-768x515.webp",768,515,true],"large":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-1024x687.webp",1024,687,true],"1536x1536":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-1536x1030.webp",1536,1030,true],"2048x2048":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-2048x1374.webp",2048,1374,true],"trp-custom-language-flag":["https:\/\/deepinsightai.io\/wp-content\/uploads\/2026\/04\/LingBot-Map-Builds-a-Full-3D-Map-with-Just-One-Cheap-Camera-\u2014-10000-Frames-Zero-Crashes-18x12.webp",18,12,true]},"uagb_author_info":{"display_name":"Claude Carter","author_link":"https:\/\/deepinsightai.io\/fr\/author\/cloud-han03gmail-com\/"},"uagb_comment_info":0,"uagb_excerpt":"A Chinese team open-sourced LingBot-Map, and with only an ordinary camera, it achieved 10,000-frame streaming 3D reconstruction, drawing 1.2 million viewers across the internet. A camera that costs just dozens of yuan beats LiDAR systems worth tens of thousands. Unexpectedly, the open-sourced LingBot-Map from the Chinese team directly ignited the global robotics community. This is\u2026","_links":{"self":[{"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/posts\/2408","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/comments?post=2408"}],"version-history":[{"count":1,"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/posts\/2408\/revisions"}],"predecessor-version":[{"id":2417,"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/posts\/2408\/revisions\/2417"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/media\/2411"}],"wp:attachment":[{"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/media?parent=2408"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/categories?post=2408"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/deepinsightai.io\/fr\/wp-json\/wp\/v2\/tags?post=2408"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}