Retour à l’envoyeur. Cette semaine, Cloudflare accusait Perplexity de « crawl furtif » : les robots du « moteur de réponses IA » qui vont chercher des informations sur internet contournent les blocages et les restrictions mises en place par les éditeurs. Depuis toujours, les sites web peuvent donner des droits aux crawlers (par exemple le robot d’indexation de Google) en les inscrivant dans le fichier robots.txt, pour les autoriser à récupérer des contenus ou pour interdire la collecte.
Lire Cloudflare dénonce les pratiques de Perplexity, accusé de contourner les protections des sites web
Dans sa réponse, Perplexity conteste les accusations, mais revendique le droit d’accéder aux contenus publics pour répondre aux demandes de ses utilisateurs. Contrairement aux robots traditionnels qui explorent systématiquement le web pour constituer des bases de données, Perplexity affirme que son IA agit uniquement à la demande de l’utilisateur : elle va chercher en temps réel les informations nécessaires pour répondre à une question précise, sans stocker ni utiliser ces données pour l’entraînement de ses modèles.
L’argument peut s’entendre, mais on peut opposer à Perplexity le fait qu’il n’existe aucune distinction formelle ou légale entre le robot d’un moteur de recherche et un assistant IA — d’ailleurs, OpenAI respecte les consignes du fichier robots.txt, affirme Cloudflare. Tous les robots, peu importe leur provenance, utilisent des requêtes automatisées pour interroger des sites. Et les règles s’appliquent à tous.
Autre problème : l’agent de Perplexity qui agit « au nom de l’utilisateur » avance masqué, comme l’a démontré l’enquête de Cloudflare. Il change de user-agent et ses adresses IP : l’argument de transparence avancé par la start-up en prend un coup dans l’aile. Si les intentions de son robot sont légitimes, pourquoi ne pas se déclarer à visage découvert ?
Par ailleurs, Perplexity fait un usage commercial des informations collectées sur le web. Le contenu n’est certes pas stocké et ne sert pas à l’entraînement des modèles (sachant que le moteur de réponses s’appuie sur des modèles IA tiers), mais il est lu, résumé et présenté dans une interface propriétaire sans lien direct avec la source. Quid du droit d’auteur et de la rémunération des créateurs ? Ignorer les règles qui encadrent l’accès des robots, même au nom de l’utilisateur, revient à nier la volonté explicite de l’éditeur.
La réponse de Perplexity a un peu de mal à tenir la route. Et les accusations d’incompétence envers Cloudflare ne sont pas de très bon aloi alors que le moteur ne répond pas aux critiques techniques sur le fond.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source : Perplexity