Comment identifier les visiteurs BtoB de vos sites web ?

Crawlers : du media-monitoring à l’Intelligence Artificielle

Pour son cinquième Décryptage, le gf2i a accueilli le 26 septembre dernier, Yan GILBERT, fondateur et directeur général de BotsCorner.

On parle beaucoup d’IA depuis quelques mois. On sait que l’IA a besoin d’informations fiables pour délivrer des réponses fiables. Les sites de presse et les bases de données éditeurs sont là pour cela. Ces activités s’ajoutent à celles de media monitoring, e-reputation, sémantique, SEO, pige pub, etc. Les robots de crawling sont très friands des articles publiés sur les sites web de presse, marques fiables grâce au travail journalistique qui les alimente. Ils sont des myriades, aux modèles économiques multiples à visiter à très haute fréquence les sites web et à récupérer les contenus. On estime entre 30 et 80 % la part de trafic que représentent les robots sur un site web de presse. Quand les articles sont collectés en vue de rejoindre une base de données B2B, ils se revendent à l’unité entre 0,001$ et 0,0009$ pièce. Le prix à l’article reflète bien le poids du droit d’auteur dans la transaction. Le chiffre d’affaires monde des crawlers B2B (hors Gafam et anonymes) atteint plus de 4 milliards de dollars.

Pour rentabiliser son site, l’éditeur doit donc être en mesure d’identifier ses partenaires commerciaux potentiels et disposer d’informations sur leurs activités. C’est ainsi qu’est née en 2016, l’idée de BotsCorner, un service permettant de cartographier les crawlers des sites web de presse. La solution a bénéficié dès 2017, et jusqu’à présent, du soutien du CFC (Centre français d’exploitation du droit de Copie) pour son déploiement auprès des éditeurs.

BotsCorner analyse l’intégralité du trafic d’un site web avec pour objectif de classer les visiteurs B2B selon leurs objet social et leur modèle économique. L’éditeur voit immédiatement le proxy d’entreprise qui pourrait bénéficier d’un appel pour augmenter les abonnements, d’un infomédiaire futur partenaire ou d’un potentiel concurrent à éloigner. Le travail automatique est complété d’une intervention humaine pour documenter plus finement sur les activités de chaque robot les bibliothèques de crawlers constituées par BotsCorner.

Le trafic humain écarté, la cartographie permet de nombreuses classifications : par pays d’origine, hébergeur, ou adresse IP, etc. Les crawlers sont ensuite « étiquetés » en fonction de leurs activités (régies publicitaires, proxy d’entreprises, outils de crawling et scrapping, gestionnaire de flux RSS, plateformes, services de SEO, services de monitoring internes, partenaires commerciaux, etc.) afin de permettre à l’éditeur d’agir comme il l’entend (en direct ou d’alerter son organisme de gestion collective de droit d’auteur, par exemple) en direction des différentes catégories de prospects.

Chaque éditeur dispose des résultats de l’analyse via un dashboard dédié et se voit proposer des recommandations d’actions pour chaque robot, ce qui inclut le blocage.

Le recours au service ne nécessite pas de branchement sur le site web de l’éditeur, excluant ainsi tout impact sur le trafic. L’analyse est totalement décentralisée, chaque éditeur transmettant à BotsCorner les données de connexion qu’il détermine lui-même, soit par transmission en flux ou différée par paquets.

BotsCorner est utilisé par des quotidiens nationaux et des magazines français et s’exporte désormais auprès de médias canadiens.

 “L’outil Botscorner nous permet de suivre l’évolution du trafic robots et sa typologie. De plus les échanges réguliers avec Yan nous permettent de mieux comprendre et qualifier les informations recueillies. Nous pouvons ainsi agir rapidement et efficacement pour assainir nos données d’audience et obtenir des analyses plus pertinentes”

Marie Montel – Directrice des Projets Digitaux, Infopro

Groupement Français
de l’Industrie de l’Information

17, rue Castagnary 75015 Paris
Tél. +33 1 44 90 43 69