Table des matières
Introduction aux Crawlers Google
Les Crawlers Google, également connus sous le nom de Googlebot, jouent un rôle crucial dans le fonctionnement de la recherche sur Internet. Ils sont responsables de l’exploration et de l’indexation des pages web, permettant ainsi aux utilisateurs de trouver les informations qu’ils recherchent. Dans cet article, nous allons explorer le fonctionnement interne de Googlebot, ainsi que les récents changements concernant l’emplacement des plages IP des crawlers.
Le fonctionnement interne de Googlebot
Il est essentiel de comprendre que Googlebot n’est pas un robot unique. Au fil des ans, Google a développé une infrastructure de crawl centralisée qui est utilisée par plusieurs de ses services, tels que Google Shopping et AdSense. Cela signifie que lorsque vous voyez « Googlebot » dans vos logs serveur, vous ne voyez qu’une partie du trafic généré par cette infrastructure. En réalité, plusieurs autres crawlers utilisent également cette même technologie.
La limite des 2 Mo : ce que Google télécharge réellement
Un aspect technique important à connaître est que Googlebot ne télécharge que les 2 premiers Mo d’une page HTML. Cela inclut les en-têtes HTTP, et tout ce qui dépasse cette limite est ignoré. Pour les fichiers PDF, la limite est fixée à 64 Mo. Cette restriction peut avoir des conséquences significatives sur la façon dont votre contenu est indexé. Par exemple, si vous avez des images en base64 ou de larges blocs de CSS intégrés dans votre HTML, cela peut repousser votre contenu textuel au-delà de ce seuil, rendant ainsi certaines parties de votre page invisibles pour Googlebot.
Le rôle du Web Rendering Service (WRS)
Une fois que Googlebot a récupéré les octets, le Web Rendering Service (WRS) entre en jeu. Le WRS exécute le JavaScript et le CSS comme le ferait un navigateur moderne, permettant ainsi de comprendre l’état final de la page. Cependant, il est important de noter que le WRS ne peut exécuter que le code qui a été téléchargé par Googlebot. De plus, il fonctionne sans état, ce qui signifie qu’il efface les données de stockage local et de session entre chaque requête.
Bonnes pratiques pour optimiser le crawl de vos pages
Pour maximiser l’efficacité du crawl de vos pages par Googlebot, voici quelques recommandations pratiques :
- Gardez votre HTML léger : Évitez d’inclure trop de contenu lourd dans votre HTML. Externalisez le CSS et le JavaScript dans des fichiers séparés.
- Placez les éléments critiques en haut du document : Les balises meta, le titre, les canonicals et les données structurées doivent être placés le plus tôt possible dans le code HTML.
- Surveillez vos logs serveur : Des temps de réponse élevés peuvent inciter Googlebot à réduire la fréquence de crawl de votre site.
Changement d’emplacement pour les fichiers de plages IP des crawlers
En plus de ces informations sur le fonctionnement de Googlebot, il est important de noter qu’il y a eu un changement concernant l’emplacement des fichiers de plages IP des crawlers. Ces fichiers, qui étaient auparavant disponibles sous /search/apis/ipranges/, migrent vers un nouvel emplacement : /crawling/ipranges/. Ce changement est significatif car il reflète le fait que ces plages IP concernent bien plus que le seul Googlebot Search.
Conclusion
Comprendre le fonctionnement des Crawlers Google et les récents changements concernant Googlebot est essentiel pour tout webmaster souhaitant optimiser son site pour le SEO. En appliquant les bonnes pratiques et en restant informé des évolutions, vous pouvez améliorer la visibilité de votre site dans les résultats de recherche.
