OpenAI acculé : 20 millions de logs ChatGPT scrutés par la justice pour prouver le plagiat

C’est une brèche historique dans la forteresse OpenAI. Le secret industriel le mieux gardé de la Silicon Valley est sur le point d’être audité de force. Dans un bras de fer judiciaire qui oppose la start-up à une coalition de géants de la presse (dont le New York Times, le Chicago Tribune et le Daily News), la justice américaine a tranché : OpenAI doit livrer 20 millions de logs de conversations ChatGPT aux plaignants. Une décision qui transforme une bataille de droits d’auteur en une véritable autopsie technique des modèles de langage.

L’autopsie de la boîte noire : 20 millions de preuves potentielles

Jusqu’à présent, prouver qu’une IA avait copié votre travail revenait à essayer de deviner les ingrédients d’un gâteau en le goûtant. C’est fini. Le juge Sidney H. Stein du tribunal du district sud de New York a confirmé l’ordonnance obligeant OpenAI à fournir un échantillon aléatoire de 20 millions de conversations d’utilisateurs (anonymisées).

Pourquoi ce chiffre est-il crucial ?

Le volume : Les médias réclamaient initialement 120 millions de logs. OpenAI proposait de filtrer elle-même les résultats par mots-clés. La justice a refusé ce filtrage : les plaignants auront accès aux données brutes.
La méthode : En obtenant les logs bruts, les experts techniques des médias peuvent désormais rechercher non seulement des mots-clés, mais aussi des structures de phrases spécifiques et des URL, pour démontrer que l’IA a ingéré leurs sites web intégralement.

La chasse à la « régurgitation »

Le cœur du litige tient en un mot technique peu ragoûtant : la régurgitation. Dans le jargon des LLM (Large Language Models), cela désigne un « bug » où l’IA, au lieu de générer du texte original, recrache mot pour mot des passages entiers de ses données d’entraînement.

Pour OpenAI, c’est une erreur rare qu’ils cherchent à corriger. Pour le New York Times et ses alliés, c’est la preuve irréfutable du vol. Si ChatGPT peut vous donner les trois derniers paragraphes d’un article payant du NYT verbatim, il ne s’agit plus d’une « inspiration » (fair use), mais d’un produit de substitution. L’accès aux logs permettra de voir si cette régurgitation est un accident isolé ou une fonctionnalité systémique sollicitée par les utilisateurs pour contourner les paywalls.

La bataille des URL : prouver l’ingestion systématique

L’enjeu technique s’est déplacé des mots vers les adresses web. Les avocats des médias ne se contentent plus de chercher des citations. Ils exigent de pouvoir scanner ces 20 millions de logs pour y trouver des traces d’URL spécifiques. L’objectif est de démontrer que les utilisateurs se servent de ChatGPT comme d’un navigateur gratuit pour accéder à du contenu premium.

Si l’analyse des logs révèle que des milliers d’utilisateurs demandent « Résume-moi l’article sur [URL] » et que l’IA s’exécute avec une précision chirurgicale, l’argument d’OpenAI selon lequel son outil est « transformatif » s’effondre. On passerait d’un outil de création à un outil de piratage passif.

Un modèle économique en sursis

Cette décision de justice est une épée de Damoclès au-dessus de tout le secteur de l’IA générative. Le modèle économique actuel repose sur le scraping gratuit du web, justifié par le « Fair Use » américain (usage loyal). Mais le Fair Use ne tient que si le nouveau produit ne concurrence pas directement l’original sur son propre marché.

Si l’audit des 20 millions de logs prouve que ChatGPT sert massivement de substitut à la presse, la facture pourrait se chiffrer en milliards de dollars. OpenAI serait contraint de passer d’un modèle de « pardon » à un modèle de « permission », devant négocier des licences coûteuses pour chaque source de données fiable. Une perspective qui pourrait assécher les marges de l’IA et redonner le pouvoir aux créateurs de contenu.

L’avis de Just Tech

Au-delà de la bataille juridique, c’est la fin de l’époque du « Far West » pour l’IA. Cette décision marque le moment où la transparence n’est plus une option marketing, mais une obligation légale. Jusqu’ici, nous devions croire les géants de la Tech sur parole quand ils affirmaient que leurs modèles étaient « sûrs » et « originaux ». Aujourd’hui, la justice force le code à se mettre à nu. Si cette jurisprudence s’étend, c’est toute l’architecture de la confiance numérique qui va changer : les boîtes noires ne seront plus tolérées si elles cachent des pratiques prédatrices. La question n’est plus seulement « l’IA peut-elle le faire ? », mais « à qui l’IA a-t-elle pris cela ? ».