Scanner des livres pour entraîner son IA : c'est légal aux États-Unis, selon cette décision de justice inédite

C’est un jugement inédit qui vient trancher, en partie seulement, l’épineuse question de l’utilisation d’œuvres protégées par le droit d’auteur pour la formation de systèmes d’intelligence artificielle (IA). En juin 2024, trois écrivains avaient attaqué aux États-Unis Anthropic, la société qui a développé Claude, un des concurrents de ChatGPT, pour violation de leurs droits d’auteur. Le lundi 23 juin, la start-up américaine a gagné un premier round, même si elle est encore loin d’avoir gagné la bataille.

Depuis le lancement de ChatGPT en novembre 2022, marquant le début de la vague d’IA générative, les entreprises de l’IA estiment être en droit de se servir sur le Web de toutes les données possibles pour former leur modèle de langage, en vertu du « fair use » aux États-Unis – une exception au droit d’auteur – ou du droit de fouille (data mining) en Europe. De leur côté, les écrivains et éditeurs estiment qu’il s’agit d’une violation de leurs droits d’auteur – et d’un « pillage » de leurs contenus. Des actions en justice sont en cours pour trancher la question, et la décision du tribunal californien est, en la matière, une première.

À lire aussi : Un grand « pillage numérique » : quand l’IA générative défie le droit d’auteur

Dans ce dossier, on reprochait à Anthropic d’avoir acheté légalement des livres physiques qui avaient été ensuite numérisés dans la base d’entraînement de son agent conversationnel Claude. Or, la start-up n’avait pas demandé l’autorisation aux auteurs et ayants-droit de ces ouvrages pour ce scan et cet entraînement, au grand dam de ces derniers qui avaient attaqué en justice l’entreprise pour violation de leur copyright.

Le juge californien saisi, William Alsup, a estimé, et c’est une première, que l’entraînement de ses modèles d’IA sur des livres achetés légalement, sans l’autorisation de l’auteur ou de son ayant-droit, constituait bien un « usage loyal », une exception au droit d’auteur dans le droit américain.

À lire aussi : IA : Anthropic accusé de collecter sans autorisation des contenus de sites Web

La formation d’une IA similaire à l’apprentissage de l’écriture, selon le juge

En d’autres termes, Anthropic était bien en droit d’acheter et de numériser ces livres à des fins d’entraînement de son modèle d’IA Claude, en se passant du consentement de leurs auteurs. Il n’y a pas eu de « duplication » en tant que telle de chaque œuvre car Anthropic, après avoir acheté puis numérisé ces livres, détruisait les ouvrages physiques, a détaillé le juge californien. Les start-up d’IA ont donc le droit, aux États-Unis, de scanner des livres achetés pour entraîner leur LLM, selon cette décision.

Pour le juge William Alsup, un magistrat connu outre Atlantique pour être spécialiste des sujets liés aux nouvelles technologies, cette utilisation est similaire à celle qui permet « à des écoliers d’apprendre à bien écrire ». Les auteurs des livres utilisés ne pourraient pas dans un tel cas se plaindre « d’une explosion d’œuvres concurrentes » parce que des enfants ont appris à écrire grâce à ces ouvrages. Pour le magistrat californien, la loi sur le droit sur le copyright n’a pas pour objectif de « protéger les auteurs contre la concurrence ».

Le raisonnement appliqué à l’IA est le suivant : un être humain qui apprend à lire et à écrire, et qui publie ensuite des années plus tard un livre, ne viole aucune loi sur le copyright – et l’IA ferait ici de même, selon le juge.

Anthropic s’est félicitée de cette décision, estimant, dans les colonnes de Register, que « conformément à l’objectif du droit d’auteur, qui est de favoriser la créativité et d’encourager le progrès scientifique, les LLM d’Anthropic se sont entraînés sur des œuvres non pas pour les reproduire ou les supplanter, mais pour prendre un virage difficile et créer quelque chose de différent ».

À lire aussi : Anthropic signe un accord avec les éditeurs de musique empêchant Claude de piller leurs chansons

Une portée limitée aux livres physiques

La portée de cette décision, bien qu’inédite, reste pourtant à relativiser. Le jugement se limite en effet aux livres physiques achetés légalement – le fait d’utiliser des livres piratés à des fins d’entraînement n’entre pas dans cette exception au droit d’auteur.

Et c’est d’ailleurs un point bien rappelé par le juge William Alsup, qui semble sur cette question trancher en faveur des auteurs et des ayants-droit. Le magistrat rappelle en effet qu’en 2021, le cofondateur d’Anthropic, Ben Mann, a « téléchargé Books3, une bibliothèque en ligne de 196 640 livres dont il savait qu’ils avaient été assemblés à partir de copies non autorisées de livres protégés par le droit d’auteur, c’est-à-dire piratés ». La même année, ce dernier a téléchargé « au moins cinq millions de copies de livres » de Libgen, et en 2022, deux autres millions de copies ont été téléchargées de PiLiMi.

Or, le juge californien laisse entendre que la décision de stocker sept millions de copies de livres piratés sur les serveurs d’Anthropic – même si toutes ces copies n’ont pas été utilisées pour la formation du LLM – ne serait pas considérée comme une « utilisation équitable ». Comprenez : le fait d’avoir utilisé des livres piratés à des fins d’entraînement d’IA violerait bien, à priori, le copyright.

Cette question d’utilisation de livres piratés sur le Web sera d’ailleurs tranchée dans un jugement distinct, explique le magistrat américain, sans donner de date précise. En pratique, Anthropic pourrait devoir payer des millions de dollars de dommages et intérêts – la sanction la plus basse jugée pour ce type d’infraction a été de 750 dollars par livre, rappelle Wired, mardi 24 juin. Avec 7 millions de livres, la somme pourrait être plus que salée.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source : Jugement du lundi 23 juin 2025 du tribunal du district nord de Californie (Etats-Unis)