Bill Slawski nous a très aimablement autorisé à reproduire une version Française de son décryptage d’un brevet publié le 17 septembre 2013 (soumis en avril 2012) qui pourrait correspondre au moins en partie à Hummingbird.
Pour résumer, il s’agirait pour Google de modifier la requête de l’internaute en conservant l’intention originale afin d’apporter des résultats plus pertinents. On pense alors tout de suite à l’option Adwords Broad Match à l’envers, le principe de « requête large » qui « permet au système Google AdWords de diffuser automatiquement vos annonces pour des variantes pertinentes de vos mots clés, y compris les synonymes (…)« .
Attention : il est tout à fait probable que Hummingbird aille beaucoup plus loin que de la simple reformulation de requête, mais cet article permet toutefois de comprendre les concepts sous-jacents à ce type d’algorithme.
Entrons plus en détail avec cet article de Bill Slawski :
Google a fait la présentation mondiale d’un nouvel algorithme nommé Hummingbird dans le garage où la société a vu le jour à l’occasion de la célébration de son 15e anniversaire. Google n’aurait pas pour autant remplacé les anciens critères tels que PageRank pour le classement des résultats. Au cours de l’annonce, nous avons appris que Google avait déjà commencé à utiliser Hummingbird quelques semaines auparavant et que 90 % des requêtes sont ainsi potentiellement touchées.
L’algorithme est présenté comme un outil d’expansion de requêtes, c’est-à-dire qu’il analyse les expressions dans leur globalité pour mieux comprendre les requêtes longues en langage naturel. On se rapproche ainsi plus de la manière dont parlent les gens au lieu de s’en tenir aux mots clés saisis dans le champ de recherche.
Par exemple, Hummingbird pourrait être plus efficace pour des requêtes telles que [Quel est le meilleur endroit pour manger une pizza typique de Chicago ?] pour lesquelles Google utilisera des règles afin de déterminer des synonymes et des substituts possibles. L’algorithme analysera les combinaisons importantes de la requête pour bien comprendre le contexte et être en mesure de reformuler (ou remplacer) certains mots cherchés et d’arriver ainsi à de meilleurs résultats.
Google analysera la requête [Quel est le meilleur endroit pour manger une pizza typique de Chicago ?] et comprendra que l’utilisateur serait plus satisfait des résultats si le mot « endroit » était remplacé par « restaurant ».
Le terme « restaurant », en remplacement de « endroit », deviendrait un synonyme ou un substitut potentiel établi selon certaines règles de substitution, qui déterminent les cooccurrences qui pourraient apparaître dans les résultats s’ils étaient recherchés, ou termes cooccurrents dans les sessions de requête.
L’analyse par Google de diverses entités de recherche (comme les relations entre les requêtes) pourrait augmenter dans certains cas la satisfaction de l’internaute par rapport aux résultats présentés. Pour mesurer cette satisfaction, Google pourrait se servir du temps que la personne reste sur une même page après l’avoir sélectionnée parmi l’ensemble des résultats.
Google a publié cette semaine un brevet dans la lignée des trois brevets dont j’ai parlé dans de récents posts. Ce brevet semble correspondre à l’algorithme Hummingbird annoncé aujourd’hui :
Synonym identification based on co-occurring terms
Invented by Abhijit A. Mahabal, Takahiro Nakajima, Zachary A. Garrett, and Kenji Inoue
Assigned to Google
US Patent 8,538,984
Granted September 17, 2013
Filed: April 3, 2012
Résumé :
Les méthodes, systèmes et appareils, y compris les programmes informatiques codés sur support de stockage informatique, permettant d’accomplir ce qui suit :
- identifier un terme de requête comme faisant partie de la requête originale ;
- identifier un synonyme potentiel pour le terme de requête selon le contexte déterminé par la présence d’un autre terme, non adjacent, dans la recherche originale ;
- accéder à des données stockées qui indiquent, par une paire de termes comprenant le terme de la requête et le synonyme potentiel, une valeur de confiance correspondant à l’autre terme non adjacent de la requête ;
- déterminer si, dans les données stockées, la valeur de confiance pour le terme non adjacent de la requête correspond à un seuil satisfaisant ;
- déterminer s’il faut modifier la requête originale pour y inclure le synonyme potentiel du terme de la requête en fonction de la valeur de confiance attribuée au terme non adjacent de la requête selon que cette dernière correspond ou non au seuil établi.
Ce brevet décrit une méthode de mesure de la cooccurrence pour évaluer les paires termes-candidats /synonymes selon la fréquence à laquelle ces termes (ou mots composés ou syntagmes) apparaissent ensemble dans les requêtes ou successions de requêtes des utilisateurs, ou ont tendance à apparaître ensemble dans les résultats de recherches associées.
Google pourrait utiliser un certain nombre de synonymes dans une base de données qu’il aurait alimentée afin d’évaluer si ces derniers correspondent au contexte de l’ensemble de la requête. Par exemple, les termes anglais « car » (voiture) et « auto » (auto) sont souvent considérés comme des synonymes. Particulièrement lorsqu’ils apparaissent dans des requêtes telles que [car mechanic] (mécanicien voiture) et [auto mechanic] (mécanicien automobile), mais pas dans le cas des requêtes [railroad car] (wagon) et [railroad auto] (qui correspond à un modèle de montre, NdT).
Il est peu probable que quiconque cherchant [railroad car] veuille voir les résultats de la requête [railroad auto] s’ajouter à la liste des résultats ou même s’y substituer. Comme évoqué dans mon post sur les règles de substitution, des règles de similarité peuvent également être créées, et ces deux types de règles peuvent servir à alimenter la base de données de synonymes ou de substituts. Cette base de données peut contenir de l’information sur le niveau de confiance par rapport à la synonymie ou le caractère substitutif de deux termes en fonction de données liées à leur cooccurrence. Elle peut ainsi permettre de déterminer si les termes peuvent être synonymes ou se substituer en fonction des autres termes impliqués dans la même requête.
Un brevet déposé par Google en 2005 évoque déjà de nombreux concepts de ce type. L’officier chargé d’examiner le brevet déposé cette semaine le cite d’ailleurs comme brevet apparenté : Determining query term synonyms within query context (déterminer les synonymes de mots clés recherchés selon le contexte). A l’époque, j’avais publié un post sur le sujet intitulé How Google May Expand Searches Using Synonyms for Words in Queries (Comment Google peut augmenter la portée des recherches à l’aide de synonymes des mots requêtés). L’idée de base derrière ce genre d’outil d’expansion de requête gravite donc autour de Google depuis de nombreuses années.
Pourquoi Hummingbird ?
La plupart des utilisateurs se contente à l’écrit de taper des mots-clés dans une boite de recherche. Mais dans le cadre d’une recherche vocale, il est plus fréquent d’utiliser des phrases complètes plutôt que de chercher à correspondre à de simples mots clés. On verra plus facilement quelqu’un entrer [restaurant pizza style Chicago] dans un champ de recherche et d’entendre à l’opposé quelqu’un prononcer [Quel est le meilleur endroit pour manger une pizza de style Chicago ?] pour une recherche vocale sur un smartphone.
Le brevet contient d’autres exemples de l’utilisation contextuelle des mots d’une requête pour mieux comprendre comment ces derniers pourraient être remplacés par des synonymes ou des substituts.
Il est possible que l’algorithme Hummingbird fonctionne quelque peu différemment de ce qui est décrit dans les revendications et la description du brevet, mais la ressemblance est frappante. Est-ce le brevet du Hummingbird de Google ? Qu’en pensez-vous ?