Apple assure respecter les éditeurs de sites web pour entraîner son IA, même si des zones de flou persistent

Dans son rapport technique 2025, Apple détaille les modèles de langage de fondation qui alimentent les fonctionnalités d’Apple Intelligence. Deux modèles sont actuellement exploités ; le premier, qui compte 3 milliards de paramètres, fonctionne en local. Il permet à l’iPhone, l’iPad ou le Mac de générer des Genmoji ou de produire des résumés de courriels. Le second est un modèle serveur plus puissant conçu pour l’architecture Private Cloud Compute. C’est elle qui prend en charge les fonctions IA les plus intensives.

Le nouvel eldorado des modèles d’IA

Ces modèles ont été entraînés avec trois types de contenus : des données licenciées pour lesquelles Apple a payé un droit d’exploitation ; des jeux de données open source ouverts à tous ; et enfin, des contenus publics accessibles sur le web. Tim Cook avait confirmé en juin 2024 qu’Apple Intelligence, comme tous les systèmes IA, s’appuyait en partie sur le « web ouvert » sans entrer dans les détails.

Le hic, c’est que les contenus présents sur les sites web ne sont pas forcément « gratuits » : pour pouvoir les exploiter, il faut en effet demander une autorisation. Le document d’Apple assure respecter les meilleures pratiques dans ce domaine. Applebot, le bot lancé par Apple en 2015, prend en charge le protocole robots.txt, qui permet aux éditeurs de sites d’interdire ou de limiter l’accès à certaines pages.

Les éditeurs peuvent également choisir les pages pouvant être indexées et la manière dont les contenus peuvent être exploitées : uniquement la recherche Spotlight (ce qui était la mission d’Applebot au départ), ou l’entraînement IA.

Le point noir ici, c’est qu’Apple n’a pas informé clairement les éditeurs de sites que les données collectées allaient être utilisées non seulement pour Siri ou pour Spotlight, ce qui ne pose pas de problème particulier, mais aussi pour entrainer ses modèles d’IA générative. Le constructeur a attendu de dévoiler Apple Intelligence, en juin 2025, pour dire qu’Applebot collectait aussi des données pour l’IA.

Par conséquent, tous les sites n’ont pas bloqué le bot d’Apple dans leur robots.txt : potentiellement, tout leur contenu a donc servi à entraîner Apple Intelligence sans autorisation. Question transparence, on repassera même si on sait gré à Apple d’utiliser un langage clair. De son côté, OpenAI avait expliqué l’an dernier qu’il tenait compte des « signaux » des éditeurs de sites et des fichiers robots.txt à chaque nouvel entraînement de modèle.

Mais le protocole robots.txt ne suffit parfois pas. Une étude de TollBit montre que de plus en plus de bots ignorent ces fichiers. En mars, plus de 26 millions de collectes ont été effectuées malgré l’interdiction explicite des éditeurs…

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.