L'objectif de Google est de répondre aux internautes, à ses usages (utilisation du mobile, recherches locales ou vocales...) et à ses intentions de recherche : informationnelles ou transactionnelles.
Le défi technique de Google est aussi celui de prendre en charge, organiser et hiérarchisé un nombre de page se développant de manières exponentielles.
Quant on fait appel à un consultant seo, faut il suivre les mises à jour de Google ?
Un bon consultant a normalement déjà anticipé les mises à jour futures et respecter les standards attendus. Il va en revanche mesurer les impactes et adopter des actions si besoin.
https://youtu.be/0eKVizvYSUQ
Machine Learning, l'algorithme qui apprend constamment
L'apprentissage machine est une application de l'intelligence artificielle (IA) qui permet aux systèmes d'apprendre et de s'améliorer automatiquement à partir de l'expérience sans être explicitement programmés. Cela veut dire que le comportement des internautes est mesuré et interprété : CTR, pogostiking, dwell time... ces éléments constitue l'approche SXO L'apprentissage machine se concentre sur le développement de programmes informatiques qui peuvent accéder à des données et les utiliser pour apprendre par eux-mêmes.Quels sont les avantages du machine learning en programation informatique ?
Voir la réponse de Google https://download.mlcc.google.com/mledu-videos/fr/ml_intro_norvig.mp41. Les différentes évolutions de Google
Les algorithmes de Google décident si votre site web, dont vos articles de blog, se positionnera en première ou en dernière position des résultats de recherche. Ils peuvent faire prospérer votre entreprise, ou l'exposer à d'importants risques financiers si son référencement est pénalisé. Les différentes mises à jour de l’algorithme de google classés par date de déploiement depuis 2010 sont :- Caffeine
- Panda
- Top heavy
- Penguin
- Pirate
- Exact Match Domain (EMD)
- Payday
- Hummingbird – Colibri
- Pigeon
- Mobile friendly
- RankBrain
- Phantom (ou Quality)
- Google double la longueur des descriptions
- August 2018 Core Update
- June 2019 Core Update
- Site Diversity Update
- September 2019 Core Update
- Bert
2. Les évolutions Historiques
a. Caffeine
Déployé en juin 2010, Caffeine est une refonte du système d'indexation de Google. L'algorithme Caffeine permet de crawler puis d'indexer une page instantanément. Avant sa mise en place, Google ne pouvait procéder à l'indexation de pages qu'après avoir extrait, analysé et compris leur contenu. Un processus qui pouvait prendre jusqu’à 30 jours. En effet, Carrie Grimes, ingénieur logiciel chez Google, nous apprend dans un article que l’ancien index reposait sur différentes couches qui n’étaient pas actualisées simultanément. Ce qui entrainait des délais entre la découverte d’une nouvelle page et sa présentation dans les résultats de recherche. Le nouvel index de recherche analyse le web par petites portions et de manière constante rendant possible l’ajout de nouvelles ressources sans l’utilisation de couches. Grâce à ce nouveau système qui facilite et augmente la rapidité d'indexation, Google est désormais capable de proposer dans ses résultats de recherche, du contenu et des articles 50% plus récents qu'avant l'implémentation de l’algorithme. Impact de Caffeine sur le référencement Officiellement, puisque Caffeine n’est pas une modification de l’alogorithme du moteur de recherche, aucun impact sur le référencement. Cependant, lorsque les données sont indexées plus rapidement et sous une autre forme, la présentation des résultats de recherche change et avec elle le placement des sites internet sur les SERPs. Voir Plus sur Caffeineb. Pandas
L'algorithme Panda est un « filtre de recherche ». Introduit pour la première fois en février 2011, il pénalise le référencement des sites web dont le contenu est de faible qualité. Ce filtre vise essentiellement à lutter contre les sites de contenu, créés uniquement pour le référencement et le spam. L'algorithme Panda est mis à jour régulièrement pour permettre aux sites précédemment pénalisés de récupérer leur référencement après avoir amélioré la qualité de leur contenu, ou au contraire, pour pénaliser les sites qui ne respectent plus les directives de Google. Lors de son premier déploiement, Panda a eu un impact majeur sur la configuration des résultats de recherche en altérant 12% des SERPs aux États-Unis ! Après la mise à jour 4.2 le 18 Juillet 2015, la qualité du contenu est devenue un facteur de référencement et l'intégration de Panda à l'algorithme principal de Google a été confirmée en janvier 2016. Google n'annonce désormais donc plus les mises à jour de Panda : cet algorithme est constamment pris en compte pour définir le classement d'un site web dans les pages de résultats de recherche. Impact de Pandas sur le référencement Quelques catégories de sites qui ont été très atteints par le filtre Panda :- Comparateur de prix
- Annuaire de sociétés
- Listing de commerçants (hôtels, évènements, restaurants)
c. Top heavy
L'algorithme Top Heavy a été déployé en janvier 2012, afin de pénaliser le référencement de sites anormalement surchargés en publicités, notamment au-dessus d’une certaine ligne. Cependant, cette mise à jour mineure n'a eu qu'un impact de 1% sur les résultats de recherche. Lire plusd. Penguin
L'algorithme Penguin est la bête noire des webmasters, dont chaque mise à jour fut très fortement discutée sur le web et entraîna des vagues de panique et de questionnement sur les réseaux sociaux. Les experts pourront le confirmer : à chaque fluctuation des SERPs, la communauté SEO s'affolait en craignant un nouveau changement dans l'algorithme Google dû à Penguin. Comme Panda, cet algorithme est un filtre de recherche qui fut pour la première fois introduit en avril 2012. Il pénalise le référencement de sites web qui ne respectent pas les directives de Google en matière de création, d'achat ou de réseaux de liens. Les webmasters pénalisés par Penguin devaient nettoyer leur portfolio de liens en désavouant les liens litigieux. Si ce nettoyage était fait correctement, ils pouvaient espérer récupérer leur référencement d'origine lors de la prochaine mise à jour. Cependant, ce nettoyage fastidieux n'est pas si simple : des mois ou même plusieurs années sont parfois nécessaires avant de pouvoir espérer échapper aux pénalités de référencement de Google. Le 23 septembre 2016, lors du lancement de la mise à jour 4.0, Google annonça que cette mise à jour serait la dernière. À l'instar de Panda, l'algorithme Penguin a été ajouté dans l'algorithme cœur de Google et il fonctionne maintenant en temps réel. À présent, la surveillance du portfolio de liens doit donc être un travail constant pour garantir un portfolio de liens sain, qui ne risque pas de pénaliser le référencement de certaines pages. Qui plus est, l'ajout à l'algorithme principal de Google est une bonne nouvelle, car les webmasters n'auront plus à attendre une nouvelle mise à jour pour pouvoir récupérer leur référencement. En effet, presque deux ans se sont écoulés entre l'avant-dernière mise à jour de l'algorithme et le déploiement de la version 4.0 de Penguin. Lire pluse. Pirate
L'algorithme Pirate est un filtre de recherche déployé en août 2012. Il vise à retirer des SERPs les sites ayant reçu des plaintes pour violation de droits d'auteurs, envoyées via le système DMCA de Google. Ce filtre est mis à jour de façon régulière afin de faire disparaître les pages qui proposent le téléchargement illégal de films, de séries ou de musique.f. Exact Match Domain (EMD)
L'algorithme Exact Match Domain a été déployé en septembre 2012. Il permet d'éviter que des sites de faible qualité soient référencés dans les premiers résultats de recherche, simplement parce que leur nom de domaine correspond à une requête fortement recherchée par les internautes. En effet, le nom de domaine a une forte influence sur le référencement et certains webmasters avaient trouvé une parade pour améliorer leur référencement, en créant des noms de domaine optimisés à outrance. Par exemple, avant l'implémentation de cet algorithme, en prenant « www.logiciel-marketing-pas-cher.com » comme nom de domaine, il y avait de fortes chances pour que la page d'accueil de ce site web soit référencée dans les premiers résultats de recherche pour la requête « Logiciel marketing pas cher », même si le contenu de ses pages ne répondait pas forcément aux besoins des internautes. Le déploiement de cet algorithme a permis d'éviter de telles situations.g. Payday
Cet algorithme fut déployé en juin 2013. Il vise à améliorer la pertinence des SERPs en supprimant les résultats pour des requêtes très fortement assimilées au spam (sites de jeux en ligne, contenu pour adultes, crédits, contrefaçon...).h. Hummingbird (Colibri en français)
Hummingbird a été déployé en septembre 2013. Cet algorithme est l'un des plus importants de Google. Il a eu un fort impact sur la façon dont nous formulons nos recherches. Google a choisi de nommer cet algorithme Hummingbird car, grâce à lui, la recherche devenait précise et rapide. Grâce à cet algorithme, Google peut dorénavant comprendre une requête ou une phrase dans son ensemble et non plus en fonction d'un ou de quelques mots-clés. Les résultats proposés sont donc de bien meilleure qualité et la recherche a pu devenir plus humaine, grâce à la compréhension de la recherche conversationnelle. Depuis l'implémentation du nouvel algorithme, il est possible d'obtenir des réponses précises pour des requêtes du type : « Quelle est la boulangerie la plus proche » ou « Quel est le médecin de garde aujourd'hui ». Ce type de recherche était impensable auparavant... Hummingbird aurait-il ouvert la porte aux intelligences artificielles et aux assistants vocaux tels qu'Alexa ou Siri ? Nous verrons dans la suite que cette mise à jour contient l’intelligence artificiel de google qui a optimisé entièrement la manière de comprendre les requêtes de google (Things, not strings). Lire Plus…i. Pigeon
L'algorithme Pigeon fut déployé en juillet 2014, aux États-Unis et en juin 2015 à l'international. Cet algorithme favorise les résultats de recherche locaux pour apporter des solutions plus précises aux requêtes des utilisateurs. Les modifications apportées par cet algorithme sont visibles sur Google et Google Maps. L'algorithme Pigeon a eu surtout un impact sur les entreprises et business locaux tels que les restaurants, bars ou cabinets de médecins...j. Mobile Friendly
Le 21 avril 2015, Google procéda au déploiement de son algorithme Mobile Friendly, qui privilégie le référencement des sites web adaptés au mobile. Cet algorithme a eu un impact encore plus important que ceux de Penguin ou Panda et il fut même renommé « mobilegeddon » (en référence à l’armageddon) par certains experts SEO : l'Armageddon de la compatibilité mobile. Cet algorithme a été déployé en temps réel et page par page. Un site pouvait donc conserver un bon référencement global, même si certaines de ses pages n'étaient pas adaptées au format mobile. Depuis 2015, la compatibilité mobile est une priorité pour Google et un facteur de référencement très important. D'ailleurs, en novembre 2016, Google a annoncé qu'il lancerait son Mobile First Index dans le courant de l'année 2017. Qu'est-ce que Mobile First Index ? Jusqu'à présent, Google établissait le référencement des sites web en fonction de leur version desktop. Mais le comportement des utilisateurs change et ceux-ci passent plus de temps à surfer sur Internet avec un mobile qu'un ordinateur. Google a donc décidé de prendre en compte la version mobile d'un site web, au détriment de la version bureau afin d'effectuer son référencement.k. RankBrain
Rankbrain, lancé au début de l'année 2015, fait en réalité partie de l'algorithme de recherche Hummingbird. Rankbrain est assez particulier et mystérieux, car il s'agirait d'une intelligence artificielle qui serait capable de comprendre le sens de requêtes similaires, mais formulées différemment. Par exemple, cette intelligence artificielle pourrait comprendre, au fil de son apprentissage, que les requêtes « Barack » et « Mari de Michelle Obama » doivent apporter une réponse similaire qui est « Barack Obama ». Dans la prolongation de Hummingbird, Rankbrain a pour vocation d'interpréter et de comprendre les recherches les plus abstraites des internautes. Plus important encore, Google a affirmé que Rankbrain faisait partie des trois facteurs de référencement les plus importants (avec la qualité du contenu et les liens). L'apprentissage de Rankbrain est appliqué sur toutes les recherches, mais il se fait hors ligne. Google l'alimente avec des fichiers de recherches historiques afin qu'il apprenne à faire des prédictions. Ces prédictions sont ensuite testées puis appliquées, si elles s'avèrent être correctes. Un chapitre entier sera dédié à Rankbrain dans la suite. Nous verrons en détail ce que c’est en réalité, comment il fonctionne, etc.l. Phantom (ou Quality)
En mai 2015, la planète SEO s'affolait, car beaucoup de webmasters remarquaient des changements significatifs dans les SERPs. Cependant, lorsque les membres de l'équipe de Google, en charge de la qualité des moteurs de recherche, avaient été interpellés sur Twitter (comme c'est très souvent le cas), ceux-ci répondaient qu'ils n'avaient aucune mise à jour à annoncer. Les webmasters, convaincus que quelque chose se produisait, décidèrent de nommer cette mise à jour Phantom, en raison de l'absence de réponse de Google, mais des signes évidents de changement. Quelques semaines plus tard, Google confirma qu'une mise à jour avait effectivement été déployée et qu'elle portait sur la qualité du contenu des sites web. La mise à jour Phantom fut alors rebaptisée « Quality » par Google. Cependant, Google n'a jamais voulu préciser en quoi cette mise à jour était différente de l'algorithme Panda. Périodiquement, des mises à jour sont remarquées par les experts SEO, mais niées par Google. Il existe donc plusieurs versions de l'algorithme Phantom, baptisées à défaut de meilleur nom, par Phantom 1, 2 ou 3. Cependant leur importance, leurs mécanismes et leur portée restent plus ou moins inconnus.m. Google double la longueur des descriptions
En novembre 2017, Google a doublé le nombre de caractères affiché dans les descriptions des résultats, passant d'une limite de 160 caractères à une limite de 320 caractères. Avec cette mise à jour, Google continue à favoriser des phrases complètes et des descriptions qui contiennent suffisamment d'informations pour donner du contexte au lien, afin de mieux orienter l'internaute dans ses recherches. Il est donc possible que le moteur de recherche ne tienne pas compte de votre balise meta-description et coupe ou complète certaines descriptions. Rappel : Les meta-descriptions ne rentrent pas en compte dans les classements des moteurs de recherche, mais restent essentielles pour inciter vos visiteurs à se rendre sur votre site.n. August 2018 Core Update
Lancée le 1er août 2018 en plein cours de l'été, cette Core Update se voit également nommée « Medic Update », et ce, pour plusieurs raisons. Il s'agit d'un format de mise à jour général de l'algorithme, dont les modifications apportées peuvent être plus ou moins importants selon les points qu'elle traite/optimise. Ici, Google n'a pas plus donné d'indications précises sur ce qui a été apporté au moteur. L'unique communiqué à ce propos évoque le fait de suivre les mêmes conseils génériques que pour la précédente Core Update de mars 2018. Plusieurs spécialistes ont étudié la question de cette mise à jour, car le ranking s'est vu grandement modifié pour plusieurs sites, majoritairement dans :- La santé à la grande majorité.
- La finance et le business.
- Le secteur du e-commerce.
o. June 2019 Core update
Nouvelle mise à jour majeure de l'algorithme, celle de juin 2019 est plus précisément la première à avoir été officiellement annoncée aux spécialistes par le biais d'un tweet sur Twitter. Dans les faits, ce changement du moteur de recherche s'est vu effectif le 3 juin 2019. Il s'agit d'une update dont l'objectif est de renforcer les exigences en matière de qualité globale à propos des résultats affichés dans les SERPs, notamment concernant les points suivants :- Vitesse de chargement et fluidité de navigation.
- Couverture globale et pertinente de la thématique concernée.
- Passage à HTTPS ou encore à un UX/UI full responsive design.
p. Site Diversity Core Update
Cette mise à jour de l'algorithme a été annoncée très peu de temps après la June 2019 Core Update et également lancée au cours de ce même mois de juin 2019. Son nom explicite le principe même des nouvelles règles qu'elle apporte : renforcer la diversité des résultats dans les pages de recherche. Dans les faits, cette mise à jour vient limiter grandement la possibilité d'avoir plusieurs pages issues d'un même domaine dans les premiers résultats de recherche. Ainsi, sans l'affirmer clairement, Google favorise la concurrence entre les sites, mais aussi facilite le recoupage de sources des particuliers afin d'obtenir des informations toujours plus fiables. Ce dernier point est donc à mettre en lien avec les critères de sélection du ranking des deux précédentes updates :- Un site au contenu structuré, pertinent et fiable.
- Une expérience de navigation optimale (vitesse de chargement, etc.).
- Une arborescence de site cohérente et intuitive.
q. September 2019 Core Update
Moins impactant que ses prédécesseurs, ce changement dans le moteur a plus précisément été annoncé sur le Twitter dédié de Google le 24 septembre 2019. Parmi les principales fluctuations de positionnement, ont été constatées des évolutions sur des sites autrefois moins bien rankés. Autrement dit, cette mise à jour est une revalorisation des résultats précédemment reclus aux positionnements bas dans les SERPs. De ce fait, Google considère toujours plus chaque résultat existant pour continuer à proposer des SERPs pertinentes avec un contenu de qualité et sûr. Ces sites mal positionnés avaient pu connaître un ralentissement à l'époque de techniques plus abusives pas encore pénalisées par le moteur.r. Bert
Acronyme de Bidirectional Encoder Representations from Transformers est annoncée comme la mise à jour la plus importante pour le moteur de recherche de Google depuis 5 ans, BERT a officiellement été déployée en France le 9 décembre 2019, en parallèle du lancement dans de nombreux autres pays. BERT représente véritablement les prémices d'une intelligence artificielle, à terme, dans le moteur. Cela se traduit par la contextualisation des mots-clés issus d'une requête, non plus considérés individuellement par le moteur, mais dans leur ensemble. BERT tend à hiérarchiser les termes et expressions d'une requête par importance afin de gagner en compréhension de ce qui est attendu par l'internaute. Celui-ci, utilisant plus que jamais la recherche vocale ou sous forme de question écrite, verra alors les résultats proposés dans les SERPs toujours plus proches de ce qu'il en attendait initialement. De façon plus détaillée BERT sert aussi à google pour les taches suivantes :- Comprendre la cohésion textuelle et enlever toutes ambiguïtés des expressions ou phrases en particulier lorsque des nuances polysémiques pourraient modifier les sens de la recherche
- Comprendre à quelles entités des pronoms fait référence, c’est particulièrement utile dans les longs paragraphes avec plusieurs entités. La recherche vocale en est une application concrète ;
- Prédire la phrase suivante
- Répondre à des questions directement dans les SERP
- Résoudre les problèmes d’homonymie
- RoBERTa par Facebook
- CamemBERT une version française développé par l’INRIA et dérivée de RoBERTa
- XLNetand ALBERT par Google et Toyota. Sorti en septembre 2019, ALBERT est déjà considéré comme le successeur de BERT, qu’il surpasse dans tous les domaines (notamment en termes de score sur SQuAD 2.0)
- DistilBERTest une version plus petite, légère et rapide de BERT
3. Rankbrain, une évolution majeure
Plus La firme Google utilise un système d'intelligence artificielle à apprentissage automatique appelé "Rankbrain" pour l'aider à trier les résultats de ses recherches. Son existence a été publiquement annoncée dans un article de Bloomberg le 26 Octobre 2015, bien que sa date de déploiement exacte ne soit pas connue. Vous vous demandez comment cela fonctionne et comment cela s'intègre dans le système de classement global de Google ? Voici ce que nous savons sur Rankbrain. Les informations présentées ci-dessous proviennent de plusieurs sources originales et ont été mises à jour au fil du temps, avec des notes indiquant où les mises à jour ont eu lieu. Voici ces sources : Tout d'abord, l'article de Bloomberg qui a fait connaître Rankbrain. Deuxièmement, des informations supplémentaires que Google a maintenant fournies directement à Search Engine Land. Troisièmement, nos propres connaissances et nos meilleures hypothèses dans les endroits où Google ne fournit pas de réponses et aussi des articles twitter et linkedin des références dans le domaine et des ingénieurs de google. Nous indiquerons clairement où ces sources sont utilisées, lorsque cela sera jugé nécessaire, en dehors des informations générales.a. Qu'est-ce que RankBrain ?
Rankbrain est le nom donné par Google à un système d’apprentissage automatique (ou Machine Learning) qui est utilisé pour aider à traiter les résultats de recherche, comme l'a indiqué Bloomberg et comme nous l'a également confirmé Google.b. Qu'est-ce que l'apprentissage machine ?
L'apprentissage automatique permet aux programmes informatiques de réaliser des tâches que seuls les humains sont capables d’effectuer avec leurs intelligences ou processus mentaux.c. Qu'est-ce que l'intelligence artificielle ?
Selon Larousse : l’intelligence artificielle est l’ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l’intelligence Plus simplement l’intelligence artificielle, ou IA en abrégé, permet à un ordinateur d'être aussi intelligent qu'un être humain, au moins dans le sens où il acquiert des connaissances à la fois en étant enseigné et en s'appuyant sur ce qu'il sait et en établissant de nouvelles connexions. Une telle IA n'existe que dans les romans de science-fiction, bien sûr. En pratique, l'IA est utilisée pour désigner les systèmes informatiques conçus pour apprendre et établir des connexions. En d’autres termes, l’IA a pour objectif de permettre aux ordinateurs de devenir aussi intelligent que les humains par des approches mathématiques et statistiques. Autrement dit, ils seront capables :- D’apprendre grâce à l’expérience ;
- D’organiser leur mémoire ;
- De raisonner afin de résoudre des problèmes d’eux-mêmes.
Relation entre Rankbrain et les autres algorithmes
Vous l’avez lu plutôt Rankbrain est une partie de l'"algorithme" de recherche global de Google Hummingbird. Tout comme une voiture a un moteur global. Le moteur lui-même peut être composé de différentes parties, comme un filtre à huile, une pompe à carburant, un radiateur, etc. De la même manière, Hummingbird englobe différentes parties, Rankbrain étant l'une des plus récentes. Cette conclusion est tirée de l’article de Bloomberg dans lequel Greg Corrado (le sénior auteur de l’article sur l’existence de Rankbrain) indiquait clairement que Rankbrain prenait seulement en charge les 15% de requêtes que le système de Google n’a jamais encore traité. Il est de ce fait intéressant de se demander pourquoi Google à lancer son machine learning ? Hummingbird contient également d'autres parties dont les noms sont familiers à ceux de l'espace de référencement, comme Panda, Penguin et Payday conçu pour lutter contre le spam, Pigeon conçu pour améliorer les résultats locaux, Top Heavy conçu pour rétrograder les pages à forte publicité, Mobile Friendly conçu pour récompenser les pages adaptées aux mobiles et Pirate conçu pour lutter contre la violation des droits d'auteur. Rankbrain est différent de PageRank Le PageRank fait partie de l'algorithme général qui couvre une façon spécifique de donner du crédit aux pages en fonction des liens d'autres pages qui y pointent. Le PageRank est spécial car c'est le premier nom que Google a donné à l'une des parties de son algorithme de classement, à l'époque où le moteur de recherche a commencé, en 1998. Qu'en est-il de ces "signaux" que Google utilise pour le classement ? Les signaux sont des éléments que Google utilise pour déterminer comment classer les pages web. Par exemple, il lira les mots d'une page web, donc les mots sont un signal. Si certains mots sont en gras, cela peut être un autre signal qui est noté (parce que cela voudrait dire que c’est important). Les calculs utilisés dans le cadre du PageRank donnent à une page un score de PageRank qui est utilisé comme un signal. Si une page est notée comme étant adaptée aux mobiles, c'est un autre signal qui est enregistré. Aujourd’hui Rankbrain est considéré comme le troisième signal le plus important parmi les plus de 200 facteurs de classement de google. Ainsi les trois signaux les plus importants sont :- Les backlinks
- Le contenu
- Rankbrain
- Les difficultés d’interprétations des requêtes jamais traitées auparavant ;
- Le caractère manuel du codage des algorithmes existantes pour y apporter des changements
- C’est parfait : C’est exactement ce que je voulais !
- Ce n’est pas encore parfait : Il y a encore du boulot à faire dessus ;
- Non, tu n’as pas résolu la tâche : Je voulais plutôt ceci.