Les résultats du moteur de recherche s'améliorent

Mon Compte Formation • 9 Février 2021

La neutralité entre organismes est bien respectée.

« Par rapport à des équivalents commerciaux, la mise en œuvre d’une place de marché publique comme le portail “Mon Compte Formation” présente des exigences spécifiques en termes de neutralité, entendue comme l’équité de traitement aussi bien des demandeurs de formation que des organismes de formation. Il importe de mettre à disposition des utilisateurs un moteur de recherche à la fois efficace en ce qu’il permet à un demandeur de repérer les offres relatives aux formations qui l’intéressent, et neutre en ce qu’il ne privilégie pas indûment dans l’affichage des résultats les offres de certains organismes par rapport à leurs concurrents », déclare Michel Yahiel, directeur des retraites et de la solidarité du groupe Caisse des Dépôts, lors d’un webinaire consacré aux enjeux de la neutralité du moteur de recherche de “Mon Compte Formation” organisé le 26/01/2020.

« Cela suppose notamment de contrecarrer les stratégies mises en œuvre par certains acteurs pour faire remonter artificiellement leurs offres dans les classements des réponses aux requêtes adressées au moteur de recherche. »

Afin d’éclairer ces questions, la Caisse des Dépôts, gestionnaire de l’application « Mon Compte Formation », a développé des indicateurs qui ont pour but d’objectiver le degré de neutralité du moteur de recherche. Ces indicateurs permettent :
• d’identifier les requêtes pour lesquelles la performance du moteur en termes de neutralité est la moins satisfaisante ;
• d’engager des travaux d’amélioration de la neutralité du moteur sur ces requêtes
 

Une forte progression de l’offre de formation disponible

•    Lors du lancement de MCF (Mon compte formation) en novembre 2019, le nombre de certifications professionnelles proposées était de l’ordre de 1.500 ;
•    Après une année d’existence, « Mon compte formation » propose des formations donnant accès à plus de 5.200 certifications ;
•    Le nombre d’OF présents tend également à augmenter régulièrement depuis 1 an même si Mon Compte Formation ne regroupe qu’un cinquième des organismes déclarés auprès du ministère du Travail : 639.000 actions de formation sont ainsi proposées fin 2020, correspondant à 320.000 formations, avec formations en langues :
 

Part des principaux domaines dans l’offre globale d’actions de formation

Domaine

Part

Langues vivantes, civilisations étrangères et régionales

47,1

Informatique, traitement de l'information, réseaux de transmission de données

11,3

Transport, manutention, magasinage

9,8

Développement des capacités d’orientation, d’insertion ou de réinsertion

6,2

Sécurité des biens et des personnes, police, surveillance

2,6

Spécialités pluri-technologiques, génie civil, construction, bois

2,1

Formations générales

1,4

Enseignement, formation

1,2

Bâtiment, finitions

1,2

Commerce, vente

1,1

Source(s) : Caisse des Dépôts

 

Le moteur de recherche et son fonctionnement

Il a été constaté que certains offreurs ont recours à des techniques d’optimisation de moteur de recherche (dites « SEO », search engine optimization) afin de se démarquer de leurs concurrents et améliorer leur visibilité au sein de la plateforme MCF ;
Si le moteur de recherche de MCF doit pouvoir trier, classer ou ordonner les informations selon certains principes de pertinence (répondre au mieux à la question posée par l’utilisateur), il doit aussi répondre à des objectifs d’intérêt général en étant neutre, loyal et équitable ;

Les résultats proposés ne doivent pas opérer de discriminations ni de distinctions à la fois : 

•    Entre les personnes en fonction de leur localisation géographique, ou encore d’attributs protégés par la loi (genre, ou encore la situation de famille) ;
•    Entre les organismes de formation en fonction de leur taille, leur notoriété, etc., tout en luttant contre les manipulations (SEO) côté offreurs de formations.

Pour répondre au mieux à ces objectifs, le moteur de recherche s’appuie sur des algorithmes et des pondérations liées : 
•    à la proximité textuelle entre le champ saisi et les intitulés et domaines des formations ;
•    à la proximité géographique entre l’utilisateur et le lieu de la formation ;
•    à un aléa propre à l’utilisateur pour renforcer la neutralité (deux utilisateurs distincts localisés au même endroit et soumettant la même requête ne recevront pas les résultats exactement dans le même ordre de classement).

Le moteur de recherche a été conçu autour des référentiels de certifications professionnelles : les domaines de formations utilisés dans Mon Compte Formation sont ceux du référentiel Formacode (maintenu par Centre-Inffo). Ce dernier constitue la base de l’indexation fine des certifications professionnelles et le vecteur principal du score du moteur de recherche ; 
•    Le poids largement majoritaire attribué aux données des certifications est le premier élément constitutif de la neutralité : deux organismes de formation préparant à une même certification sont traités de façon identique, la distance géographique venant seulement pondérer le score ;
•    L’intitulé de la formation donné par l’organisme permet avec un poids relativement faible une recherche plus fine sur des mots non référencés.

 

Neutralité du moteur de recherche MCF : deux mesures complémentaires

 

•    La Caisse des Dépôts s’est engagée dans des travaux visant à opérationnaliser le concept de neutralité dans le moteur de recherche de MCF ;
•    Les résultats des réponses du moteur à différentes requêtes ont été analysés. Une requête correspond à la sollicitation du moteur de recherche : 
•    Par un individu donné (champ « qui ») ;
•    Situé dans un lieu donné (champ « où » : par exemple « Paris ») ;
•    Avec une question donnée (champ « quoi », correspondant à une saisie libre de mots clés ou via le choix dans les listes proposées des certifications et domaines : par exemple « Anglais »).
•    254 champs « quoi » distincts tirés de l’ensemble des requêtes effectuées par les usagers début 2020 ont été testés pour 6 individus distincts tirés aléatoirement et deux localisations possibles pour chaque individu (Paris ou Biarritz). Soit au total 3048 requêtes différentes soumises au moteur de recherche ; 
•    Pour chaque requête, le moteur de recherche a renvoyé un nombre variable d’AF classées par ordre d’apparition et dont seules les 1.000 premières ont été retenues pour les mesures de neutralité en vérifiant pour s’assurer de la neutralité du moteur de recherche, que l’ordre de classement des OF, observé sur plusieurs requêtes n’est pas systématiquement meilleur pour certains OF et moins bon pour d’autres OF dans les résultats renvoyés parle moteur de recherche que dans le rééchantillonnage aléatoire des résultats renvoyés par le moteur.
•    Deux indicateurs ont été créés pour comparer le degré de neutralité du moteur entre différents types de requêtes, entre différents types de domaines de formation sur lesquels portent les requêtes et donc d’identifier les points sur lesquels améliorer le fonctionnement du moteur de recherche : 
•    Le premier indicateur se fonde sur une comparaison, OF par OF, du rang moyen dans le classement renvoyé par le moteur et dans les classements aléatoires, qui est ensuite agrégée sur l’ensemble des OF ;
•    Le second indicateur teste directement l’hypothèse selon laquelle, pour une requête donnée, la distribution des rangs moyens des OF serait la même dans le classement renvoyé par le moteur et dans les classements aléatoires, puis agrège le résultat sur les 6 individus testés ;
•    Les indicateurs sont positifs ou nuls :  plus ils s’éloignent de 0, et moins le classement renvoyé parle moteur est aléatoire (et donc moins l’hypothèse de neutralité est vérifiée).

 

Valeurs moyennes des indicateurs de neutralité déclinées pour les principaux domaines de formations

Domaine

Moyenne indicateur 1

Moyenne indicateur 2

Langues

8,80

16,61

Informatique

13,25

20,77

Transports

8,66

31,14

Développement personnel et professionnel

9,93

21,47

Défense, prévention et sécurité

6,84

29,46

Échanges et gestion

8,61

34,34

Commerce, vente

6,53

5,06

Finance, banque, assurance

6,89

16,59

Ressources humaines

9,05

24,02

Ingénierie, formation et pédagogie

7,87

32,00

Tous domaines confondus

8,78

17,86

Source(s) : Caisse de Dépôts

 

•    Globalement l’indicateur 1 donne en moyenne des résultats relativement homogènes d’un domaine à l’autre, à l’exception notable de l’informatique, domaine pour lequel la performance du moteur de recherche en termes de neutralité est sensiblement moins bonne que pour les autres domaines ;
•    L’indicateur 2 fournit des résultats plus hétérogènes entre grands domaines de formations, avec notamment une performance en termes de neutralité bien meilleure sur le domaine du commerce et de la vente que sur les autres domaines de formations.

 

Les indicateurs de neutralité : utilisation et approfondissements possibles

Des travaux d’amélioration de la neutralité du moteur engagés en priorité sur : 
•    des requêtes pour lesquelles le niveau des indicateurs est comparativement peu satisfaisant ;
•    des requêtes formulées fréquemment par les utilisateurs.
Ces travaux ont commencé à porter leurs fruits : les requêtes qui ont des scores de neutralité comparativement peu satisfaisants sont aujourd’hui plutôt des requêtes dont la fréquence est faible.

Approfondissements envisagés : 

•    Pour quantifier la neutralité, ces indicateurs comparent les classements effectifs des offres à leurs classements après mélanges aléatoires des listes renvoyées par le moteur, faisant implicitement l’hypothèse que toutes les offres renvoyées par le moteur sont également pertinentes au regard des requêtes effectuées. Or toutes les offres, en pratique, ne présentent probablement pas le même degré de pertinence ; 
•    Les travaux à venir visent à développer des indicateurs qualifiant la pertinence des différentes réponses aux requêtes, afin de cibler l’analyse de la neutralité sur des réponses d’égale pertinence ;
•    Une piste, pour évaluer la pertinence, est de prendre en compte non seulement le champ de recherche saisi, mais également l’historique de navigation de l’utilisateur pour tenter de mieux cerner ses intentions.
 

Type news
Evolutions
Mots-clé
Moteur de recherche