Passer au contenu

Droit d’auteur : à partir du 2 août, les IA devront bien dévoiler leurs sources en Europe

Après le code des bonnes pratiques et les lignes directrices, la Commission européenne a publié ce jeudi 24 juillet son modèle de résumé des sources utilisées pour entraîner le modèle d’intelligence artificielle : un document très attendu des ayants droit, et que les fournisseurs d’IA générative comme OpenAI (ChatGPT) et Mistral (Le Chat) devront obligatoirement remplir, à partir du 2 août prochain. Voici ce qu’il contient.

Le document était très attendu des auteurs, des ayants droit, et des fournisseurs d’intelligence artificielle (IA) générative comme OpenAI (ChatGPT), Google (Gemini) et Mistral (Le Chat). Alors qu’il ne reste plus que quelques jours à ces sociétés pour respecter « l’AI Act », le règlement européen sur l’IA, la Commission européenne a publié, ce jeudi 24 juillet, son « modèle de résumé suffisamment détaillé des sources utilisées pour entraîner le modèle » – accessible ici. À partir du 2 août prochain, l’AI Act, dont l’application est échelonnée, devient contraignant pour les développeurs d’IA à portée générale, ce qui inclut les IA génératives comme ChatGPT, Llama, Copilot, Le Chat, Claude ou encore DeepSeek.

Ce modèle de résumé est le dernier document publié par la Commission européenne, en complément de l’AI Act. Avec les « lignes directrices » publiées le 18 juillet et le code de bonnes pratiques rendu public le 10 juillet, ce template a pour objectif d’aider les fournisseurs d’IA à appliquer correctement le règlement européen entré en vigueur l’année dernière.

À lire aussi : Après l’AI Act, Bruxelles publie un mode d’emploi destiné aux géants de l’IA

La législation impose notamment une nouvelle obligation de transparence aux « développeurs d’IA à usage général » – ce qui comprend :

  • des outils d’IA présentant ou pas des risques systématiques,
  • des modèles publiés ou pas sous licence libre et open source.

Toutes ces entreprises devront désormais fournir ce document qui résume quelles données ont été utilisées pour entraîner leurs modèles.

Pourquoi ce texte était très attendu des créateurs

Le texte était très attendu des créateurs, car ils comptent sur ce template pour réclamer le paiement de droits d’auteur pour l’instant non réglés par ces entreprises. Comme le rappelle Bruxelles, les IA génératives sont formées sur d’énormes quantités de données sur lesquelles il y avait jusqu’à présent peu de visibilité. Le tout était décrit comme un « pillage » par les auteurs et les artistes : les outils d’IA « ingurgitent » en effet de très nombreuses données récoltées sur le Web sans distinction, y compris certaines qui sont protégées par le droit d’auteur.

En Europe, les artistes et les ayants-droit peuvent en théorie s’opposer à ce que leurs œuvres nourrissent ces systèmes, en ayant recours au « opt-out ». Ce dispositif, qui protège les ayants-droit, est prévu par la directive sur le droit d’auteur de 2019 lorsque les outils d’IA collectent des données pour s’entraîner : si l’auteur s’y oppose expressément (s’il « opt-out »), ce « text and data mining » (ce droit de fouilles, en français) n’est pas possible. Mais en pratique, ce mécanisme est difficile à mettre en œuvre.

Les auteurs peuvent en effet inscrire expressément sur tel site : « je ne souhaite pas que mon œuvre soit utilisée », ou avoir recours à des programmes informatiques qui bloquent les requêtes de ces outils d’IA. Mais jusqu’à présent, il était difficile de savoir si ces oppositions étaient bien prises en compte, car les développeurs d’IA comme OpenAI, Google ou Mistral n’ont pas communiqué la liste des données utilisées pour entraîner leur outil. Or, sans cette information, les auteurs ne peuvent pas ou peuvent difficilement savoir si leurs œuvres ont été utilisées pour entraîner une IA.

Lors de la négociation de l’AI Act, les législateurs européens avaient justement cherché à résoudre ce problème en ajoutant un « principe de transparence des sources ». Elle oblige les développeurs à publier un « résumé suffisamment détaillé » des données utilisées pour former leur outil.

Les principaux ensembles de données utilisés devront être publiés

Et c’est justement ce modèle de résumé suffisamment détaillé qui vient d’être publié. Ce document permettra d’avoir « un aperçu complet des données utilisées pour entraîner un modèle. (Le fabricant) énumérera les principales collections de données et expliquera les autres sources utilisées », souligne la Commission européenne, dans son communiqué.

Selon le document publié par l’exécutif européen, les entreprises comme OpenAI, Mistral ou Anthropic devront bien :

  • lister quelles bases de données principales ont été utilisées pour entraîner leurs modèles,
  • fournir une description des données qui ont été collectées sur internet ou ailleurs.

Dans le détail, une section du template exige que le fabricant détaille les « diverses sources de données, telles que les bases de données accessibles au public, les bases de données privés, les données extraites de sources en ligne, les données utilisateurs et les données synthétiques » – donc des data créées par l’IA. Comme le laissait entendre l’AI Act, une marge de manœuvre a bien été laissée aux fabricants d’IA générative, qui n’auront pas à fournir une liste exhaustive des sources utilisées. Le développeur d’IA générative est en effet tenu de détailler les bases de données principales utilisées – et pas les accessoires. 

À lire aussi : Scanner des livres pour entraîner son IA : c’est légal aux États-Unis, selon cette décision de justice inédite

Meta (Facebook, Instagram, WhatsApp) accusé d’avoir pillé des livres pour son IA en France

Un document obligatoire

Pour les données collectées sur le Web, la même logique s’applique. Le texte de la Commission européenne impose que le développeur partage des « informations détaillées concernant les données extraites de sources en ligne. Cela comprend les noms des robots d’indexation utilisés, la période de collecte, une description détaillée et complète du contenu extrait, ainsi qu’une liste des noms de domaine les plus pertinents, parmi les 10 % les plus importants de ceux qui ont été extraits d’Internet », est-il précisé. Tous les noms de domaine n’ont donc pas à être listés.

La Commission européenne estime qu’avec ce document, un équilibre a bien été trouvé entre une divulgation permettant de garantir l’obligation de transparence, et la possibilité pour les fabricants de protéger leurs informations confidentielles et leurs secrets commerciaux. Contrairement aux lignes directrices et au code de bonnes pratiques, le modèle relatif au droit d’auteur est un document obligatoire à compter du 2 août prochain : aucun géant de l’IA, y compris Meta, ne pourra s’y soustraire.

À lire aussi : Le code de bonnes pratiques de l’AI Act ? Meta confirme qu’il ne le signera pas

Auteurs versus IA : Meta gagne une manche aux États-Unis

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.