Guerre des puces IA : Jensen Huang estime que Groq n’a « aucune place » sur le marché

C’est une phrase qui résonne comme un coup de tonnerre dans la Silicon Valley. Alors que la petite start-up Groq (à ne pas confondre avec le Grok d’Elon Musk) fascine les développeurs par sa vitesse d’exécution, Jensen Huang, le tout-puissant patron de Nvidia, vient de doucher les espoirs de ceux qui croyaient à une alternative. Selon un rapport de The Information, l’homme au blouson de cuir a déclaré sans détour que Groq n’avait « aucune place » (no nook and cranny) dans l’écosystème actuel de l’IA.

Arrogance d’un monopoleur ou lucidité technique ? Décryptage d’une déclaration qui cache une guerre sans merci pour le contrôle de l’inférence.

La sentence de Jensen Huang

Jensen Huang n’est pas connu pour mâcher ses mots, mais cette sortie est particulièrement brutale. En affirmant qu’il n’y a pas de « recoin » pour Groq, le CEO de Nvidia ne critique pas seulement une entreprise, il attaque une philosophie entière : celle des puces spécialisées (ASIC).

Son argumentaire repose sur une vision holistique : les modèles d’IA évoluent si vite et sont si complexes que seule une architecture généraliste et omniprésente comme celle de Nvidia (le GPU) peut suivre la cadence. Pour Huang, fragmenter le marché avec des puces qui ne font que de l’inférence (l’utilisation du modèle) est une impasse économique et technologique. Si vous construisez une infrastructure, pourquoi acheter une puce qui ne sait faire qu’une seule chose, alors que les H100 et Blackwell de Nvidia savent tout faire ?

GPU contre LPU : le choc des architectures

Pour comprendre pourquoi Nvidia se sent obligé de commenter l’existence d’un concurrent mille fois plus petit, il faut regarder sous le capot. La différence est radicale :

Nvidia (GPU) : C’est le couteau suisse. Il utilise une mémoire à haute bande passante (HBM) massive. Il est excellent pour le calcul parallèle, indispensable pour entraîner les modèles, et très bon pour l’inférence. Son point faible ? La latence. Transférer les données de la mémoire vers la puce prend du temps.
Groq (LPU) : C’est la Formule 1. Le LPU (Language Processing Unit) n’utilise pas de HBM externe mais de la mémoire SRAM intégrée directement dans la puce. Résultat : les données circulent instantanément.

Le pari de la vitesse pure

C’est cette architecture unique qui permet à Groq d’afficher des performances qui font passer les GPU pour des tracteurs sur certaines tâches. Là où une puce classique génère 30 à 50 mots par seconde (la vitesse de lecture humaine), Groq dépasse régulièrement les 300 à 500 tokens par seconde.

Pour l’utilisateur final, la différence est viscérale : avec Groq, l’IA répond instantanément, sans cet effet « machine à écrire » poussif. C’est cette « hype » autour de l’expérience utilisateur instantanée que Nvidia tente aujourd’hui d’étouffer.

Pourquoi Nvidia sort les griffes ?

Si Groq est si petit, pourquoi Jensen Huang s’en préoccupe-t-il ? Parce que le marché est en train de basculer. Jusqu’à présent, la manne financière venait de l’entraînement des modèles (où Nvidia est intouchable). Mais demain, 90% du marché sera l’inférence (l’utilisation quotidienne de ChatGPT, Claude, etc.).

Nvidia craint que le marché ne se fracture. Si les géants de la Tech se mettent à utiliser des GPU Nvidia pour l’entraînement, mais basculent sur des puces spécialisées (LPU de Groq, TPU de Google, Trainium d’Amazon) pour l’inférence, l’empire vert perdra sa mainmise totale. En déclarant que Groq n’a « aucune place », Huang tente de convaincre les investisseurs et les DSI que la standardisation autour de CUDA (le logiciel de Nvidia) est la seule voie de sécurité.

L’avis de Just Tech

La déclaration de Jensen Huang ressemble moins à un constat froid qu’à un rappel à l’ordre défensif. L’histoire de l’informatique nous a montré que la spécialisation finit souvent par trouver son chemin (regardez les cartes graphiques elles-mêmes, nées pour soulager le CPU). Dire que Groq n’a « aucune place » est audacieux alors que la demande pour une IA temps réel explose. Nvidia a la puissance de feu, mais Groq a ouvert une brèche : celle de l’IA instantanée. Nous pensons que le « one-size-fits-all » prôné par Nvidia sera difficile à tenir sur le long terme face à des acteurs qui optimisent radicalement le ratio coût/vitesse pour des tâches spécifiques. La guerre de l’inférence ne fait que commencer, et c’est une excellente nouvelle pour l’innovation.