L’IA ne comprend pas le monde. Yann LeCun vient de lever 1 milliard pour changer ça.

benjamin. brl
il y a 1 jour
4 min de lecture

En décembre 2022, OpenAI lance ChatGPT. Ce que peu de gens savent : les équipes d’OpenAI elles-mêmes ont été les premières surprises. Liam Fedus, l’un des scientifiques derrière le produit, avoue : “on a vraiment été surpris par l’accueil.” Jan Leike, responsable de l’équipe alignement, va plus loin : “j’aimerais comprendre ce qui drive tout ça. Honnêtement, on ne sait pas.”

La technologie existait depuis 2020. Ce qui a changé ? Pour la première fois, une IA parlait comme un humain, dans une interface accessible à n’importe qui. Pas le modèle le plus avancé techniquement. Le plus humain dans sa forme.

Pendant ce temps, dans les labos de recherche, d’autres chercheurs travaillaient sur des architectures bien plus fondamentales. L’un d’eux regardait ce phénomène avec une conviction inconfortable : ce n’est pas de l’intelligence.

Yann LeCun et le pari à 1 milliard

Yann LeCun n’est pas un inconnu. Prix Turing ( l’équivalent du Nobel en informatique). Fondateur de Facebook AI Research. Architecte du deep learning moderne. Il a quitté Meta fin 2025 après 12 ans, et vient de boucler le tour de seed, le plus important de l’histoire européenne : 1,03 milliard de dollars, soit 890 millions d’euros, à une valorisation de 3,5 milliards, avant même d’avoir sorti un produit.

Sa thèse tient en une phrase : “La vraie intelligence ne commence pas dans le langage. Elle commence dans le monde.”

Sa startup s’appelle

AMI Labs : Advanced Machine Intelligence, “ami” en français. Le siège est à Paris. Xavier Niel, Eric Schmidt, Tim Berners-Lee sont au capital.

Comprendre la rupture : 10 ans d’IA visuelle en 5 lignes

Depuis 10 ans, l’IA a produit trois grandes familles de modèles visuels.

Les GANs (Generative Adversorial Networks) mettent deux modèles en compétition : un qui génère de fausses images, un qui tente de les détecter. Résultat : images réalistes, vite. Mais le modèle imite sans comprendre ce qu’il produit.

Les modèles de diffusion (Midjourney, DALL-E, Stable Diffusion) sculptent des images depuis du bruit pur, pixel par pixel, avec une qualité visuelle spectaculaire. Même limite : ils ne comprennent pas ce qu’ils génèrent.

Les grands modèles de langage appliqués aux images (comme GPT-4 ou Gemini) découpent une photo en petits fragments appelés tokens, c’est-à-dire des unités d’information que le modèle traite comme du texte. Ils peuvent décrire, analyser, répondre à des questions. Mais ils raisonnent sur l’image via le langage et pas à partir de la réalité physique qu’elle représente.

Ce que JEPA change

JEPA (Joint Embedding Predictive Architecture) est l’architecture développée par LeCun depuis 2022, et qui est au cœur d’AMI Labs. L’idée centrale : au lieu d’analyser des pixels ou de prédire des tokens, le modèle apprend des représentations abstraites du monde réel.

Un modèle classique regarde une vidéo et analyse chaque pixel, chaque frame. Il voit des changements de couleur et de luminosité. JEPA, lui, comprend qu’il y a un mouvement, un corps, une intention. Il ne voit pas des pixels qui bougent, mais il voit quelqu’un qui marche vers une porte et anticipe qu’elle va s’ouvrir.

Il ne décrit pas ce qu’il voit. Il modélise ce qui va se passer.

Meta l’illustre concrètement avec V-JEPA, leur modèle vidéo basé sur cette architecture : le système est capable de distinguer entre quelqu’un qui pose un stylo, qui le ramasse, ou qui fait semblant de le poser sans vraiment le faire. Une nuance que les modèles précédents ne percevaient pas.

Ce qui va bouger

Alexandre LeBrun, CEO d’AMI Labs, est honnête : “ce n’est pas une startup IA classique qui sort un produit en trois mois. Les applications commerciales prendront des années.” C’est de la recherche fondamentale qui se transforme lentement en levier industriel.

Mais les secteurs qui bougent en premier sont déjà visibles. La santé : AMI Labs a signé son premier partenariat avec Nabla, leader de l’IA clinique : là où les erreurs d’un modèle qui hallucine peuvent coûter des vies, un système qui comprend la causalité change tout. La robotique : un robot équipé d’un world model n’a plus besoin d’être reprogrammé pour chaque nouvelle tâche, car il comprend la physique du monde qui l’entoure. L’industrie : simulation, maintenance prédictive, optimisation de chaînes entières.

Et derrière tout ça, une question structurelle pour chaque entreprise : sur quoi repose votre avantage concurrentiel data aujourd’hui ?

La question que je vous pose

1 milliard en premier tour de financement sur une technologie qui n’a pas encore de produit commercial. Ce n’est pas de la spéculation, c’est un signal de marché sur ce qui vient.

Les entreprises qui ont construit leurs stratégies IA sur des grands modèles de langage ont fait le bon choix pour 2023-2025. La question n’est pas de tout remettre en cause aujourd’hui.

La vraie question est : est-ce que votre stratégie data et IA est construite pour ce qui vient, ou pour ce qui était ?

Ce sont deux constructions très différentes. Et la fenêtre pour faire la différence est courte.

Personnellement ? J’y crois.

Pas parce que LeCun a levé 1 milliard, l’argent ne valide pas une idée. Mais parce que la limite qu’il pointe, je la vois concrètement chez MDM, où nous traitons plus d’un million d’images produits par mois. Les taxonomies simples : catégorie, couleur, forme, les modèles actuels les gèrent bien. Mais dès qu’on descend à trois ou quatre niveaux d’attributs, la précision chute. Pas parce que le modèle ne voit pas l’image. Parce qu’il ne comprend pas le monde physique derrière elle. Un tissu qui tombe, une matière qui reflète, une coupe qui change d’aspect selon l’angle et ça, aucun modèle actuel ne le saisit vraiment.

L’IA actuelle est impressionnante. Et elle ne comprend pas le monde. Ces deux choses sont vraies en même temps. C’est exactement pour ça que la prochaine rupture sera spectaculaire.

J'accompagne les dirigeants dans la construction de stratégies IA ancrées dans la réalité de leur business et avant que la technologie ne les dépasse.