Pour répondre aux questions de ses utilisateurs, le service Perplexity explore le web et récupère les informations les plus pertinentes. Mais sur internet comme ailleurs, il existe des règles : les sites web sont ainsi libres de fixer les limites aux robots qui collectent des données. Depuis toujours, les éditeurs peuvent autoriser ou pas ces « crawlers » via le fichier robots.txt ou des règles de pare-feu (WAF).
Les manigances de Perplexity
Sauf que Perplexity n’en fait qu’à sa tête. Cloudflare affirme ainsi, preuves à l’appui, que le « moteur de réponses IA » a adopté un comportement de crawl furtif. Autrement dit, Perplexity accède aux contenus en contournant les blocages : utilisation d’un faux user-agent qui imite un navigateur classique et de plusieurs IP pour masquer son origine ; il arrive aussi que le robot de l’entreprise ignore complètement les instructions de robots.txt.
Cloudflare a mené plusieurs expériences en créant des sites web inconnus des robots crawlers, dont celui de Perplexity. Le fichier robots.txt de ces sites interdit tout crawl. Et malgré l’absence d’indexation par d’autres moteurs de recherche, le service est parvenu à fournir des détails sur le contenu des pages normalement interdites aux robots !
Voilà qui ne va pas aider à redorer le blason des entreprises IA, régulièrement accusées de collecter des données sur le « web ouvert » sans autorisation ni rémunération des créateurs pour entraîner leurs modèles IA. En comparaison, le robot d’OpenAI respecte les blocages des fichiers robots.txt.
Cloudflare, qui protège des millions de sites web contre les attaques et les abus, a retiré Perplexity de sa liste des robots vérifiés et bloqué l’activité furtive via de nouvelles règles automatisées.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source : Cloudflare