Quelle est la précision avec laquelle les outils logiciels de reconnaissance des visages identifient des personnes de sexe, d'âge et d'origine raciale différents ? Selon une étude du National Institute of Standards and Technology (NIST), la réponse dépend de l'algorithme au cœur du système, de l'application qui l'utilise et des données qu'elle alimente - mais la grande majorité des algorithmes de reconnaissance des visages présentent des différences démographiques. Un différentiel signifie que la capacité d'un algorithme à faire correspondre deux images de la même personne varie d'un groupe démographique à l'autre. En clair, ce qu’on craignait est avéré, ces algorithmes sont un tantinet racistes.
Les résultats saisis dans le rapport, Face Recognition Vendor Test (FRVT) Part 3 : Demographic Effects (NISTIR 8280) (1), sont destinés à informer les décideurs et à aider les développeurs de logiciels à mieux comprendre la performance de leurs algorithmes. La technologie de reconnaissance des visages a inspiré le débat public en partie en raison de la nécessité de comprendre l'effet de la démographie sur les algorithmes de reconnaissance des visages.
« Bien qu'il soit généralement incorrect de faire des déclarations sur l'ensemble des algorithmes, nous avons trouvé les preuves de l'existence de différences démographiques dans la majorité des algorithmes de reconnaissance des visages que nous avons étudiés », selon Patrick Grother, informaticien du NIST et principal auteur du rapport. « Bien que nous n'explorions pas ce qui pourrait causer ces différentiels, ces données seront utiles aux décideurs, aux développeurs et aux utilisateurs finaux pour réfléchir aux limites et à l'utilisation appropriée de ces algorithmes ».
L'étude a été menée dans le cadre du programme Face Recognition Vendor Test (FRVT) du NIST, qui évalue les algorithmes de reconnaissance faciale soumis par les développeurs industriels et universitaires sur leur capacité à effectuer différentes tâches. Bien que le NIST ne teste pas les produits commerciaux finalisés qui utilisent ces algorithmes, le programme a révélé des développements rapides dans ce domaine en plein essor.
L'étude du NIST a évalué 189 algorithmes logiciels provenant de 99 développeurs - une majorité de l'industrie. Elle se concentre sur la façon dont chaque algorithme exécute l'une des deux tâches différentes qui font partie des applications les plus courantes de la reconnaissance des visages.
La première tâche, qui consiste à confirmer qu'une photo correspond à une photo différente de la même personne dans une base de données, est connue sous le nom de correspondance « un à un » et est couramment utilisée pour les travaux de vérification, comme le déverrouillage d'un téléphone intelligent ou la vérification d'un passeport. La deuxième, qui consiste à déterminer si la personne sur la photo correspond à une autre photo dans une base de données, est connue sous le nom de comparaison " un à plusieurs " et peut être utilisée pour identifier une personne d'intérêt.
Pour évaluer la performance de chaque algorithme dans sa tâche, l'équipe a mesuré les deux classes d'erreurs que le logiciel peut faire : les faux positifs et les faux négatifs. Un faux positif signifie que le logiciel a considéré à tort que des photos de deux personnes différentes montraient la même personne, tandis qu'un faux négatif signifie que le logiciel n'a pas réussi à faire correspondre deux photos qui, en fait, montrent la même personne.
Il est important de faire ces distinctions, car la classe d'erreur et le type de recherche peuvent avoir des conséquences très différentes selon l'application dans le monde réel.
« Dans une recherche individuelle, un faux négatif peut être simplement un inconvénient - vous ne pouvez pas entrer dans votre téléphone, mais le problème peut généralement être corrigé par une deuxième tentative », a déclaré M. Grother. « Mais un faux positif dans une recherche d’un à plusieurs établit une correspondance incorrecte sur une liste de candidats qui justifie un examen plus approfondi. »
Ce qui distingue cette publication de la plupart des autres recherches sur la reconnaissance des visages est son intérêt pour la performance de chaque algorithme lorsqu'il s'agit de prendre en compte les facteurs démographiques. Pour l'appariement un à un, seules quelques études antérieures explorent les effets démographiques ; pour l'appariement un à plusieurs, aucune ne l'a fait.
Pour évaluer les algorithmes, l'équipe du NIST a utilisé quatre collections de photographies contenant 18,27 millions d'images de 8,49 millions de personnes. Toutes provenaient de bases de données opérationnelles fournies par le département d'État, le ministère de la sécurité intérieure et le FBI. L'équipe n'a utilisé aucune image « récupérées » directement à partir de sources Internet telles que les médias sociaux ou la vidéosurveillance.
Les photos figurant dans les bases de données comprenaient des métadonnées indiquant l'âge et le sexe du sujet, ainsi que sa race ou son pays de naissance. Non seulement l'équipe a mesuré les faux positifs et les faux négatifs de chaque algorithme pour les deux types de recherche, mais elle a également déterminé dans quelle mesure ces taux d'erreur variaient entre les balises. En d'autres termes, elle a mesuré la performance comparative de l'algorithme sur les images de personnes appartenant à différents groupes.
Les tests ont montré un large écart type de précision parmi les développeurs, les algorithmes les plus précis produisant beaucoup moins d'erreurs.
Bien que l'étude se soit concentrée sur des algorithmes individuels, M. Grother a souligné cinq conclusions plus générales :
1. Pour l'appariement individuel, l'équipe a constaté des taux plus élevés de faux positifs pour les visages asiatiques et afro-américains par rapport aux images de Blancs. Les écarts étaient souvent de 10 à 100 fois plus élevés, selon l'algorithme utilisé. Les faux positifs peuvent présenter un problème de sécurité pour le propriétaire du système, car ils peuvent permettre l'accès à des imposteurs.
2. Parmi les algorithmes mis au point aux États-Unis, on a constaté des taux élevés similaires de faux positifs dans l'appariement un à un pour les Asiatiques, les Afro-Américains et les groupes autochtones (qui comprennent les Amérindiens, les Indiens d'Amérique, les Indiens d'Alaska et les insulaires du Pacifique). La population amérindienne présentait les taux de faux positifs les plus élevés.
3. Une exception notable a été faite pour certains algorithmes développés dans les pays asiatiques. Il n'y avait pas de différence aussi spectaculaire dans les faux positifs dans l'appariement individuel entre les visages asiatiques et caucasiens pour les algorithmes développés en Asie. Bien que Grother ait réitéré que « l'étude du NIST n'explore pas la relation de cause à effet, un lien possible, et un domaine de recherche, est la relation entre la performance d'un algorithme et les données utilisées pour le former. Ces résultats sont un signe encourageant que des données de formation plus diversifiées pourraient produire des résultats plus équitables, s'il était possible pour les développeurs d'utiliser ces données », a-t-il ajouté.
4. En ce qui concerne l'appariement d’un à plusieurs, l'équipe a constaté des taux plus élevés de faux positifs chez les Afro-Américaines. Les différences de faux positifs dans l'appariement un à plusieurs sont particulièrement importantes parce que les conséquences pourraient comprendre de fausses accusations. Dans ce cas, le test n'a pas utilisé l'ensemble des photos, mais seulement une base de données du FBI contenant 1,6 million de photos d'agressions domestiques.
5. Cependant, tous les algorithmes ne donnent pas ce taux élevé de faux positifs dans l'ensemble des données démographiques dans l'appariement un à plusieurs, et ceux qui sont les plus équitables se classent également parmi les plus précis. Ce dernier point souligne un message global du rapport : Les différents algorithmes ont des performances différentes.
« Toute discussion sur les effets démographiques est incomplète si elle ne fait pas la distinction entre les tâches et les types de reconnaissance faciale fondamentalement différents », a dit M. Grother. « Il est important de se souvenir de ces distinctions alors que le monde est confronté aux implications plus larges de l'utilisation de la technologie de reconnaissance des visages ».
Pour être plus clair et en synthèse, dans les démocraties occidentales et particulièrement aux USA, selon que vous serez blancs ou noirs on vous dira puissant ou misérable. C‘est bien connu asinus asinum fricat (Les femmes savantes, Jean-Baptiste Poquelin).
Transition de genre : la Cpam du Bas-Rhin devant la justice
Plus de 3 700 décès en France liés à la chaleur en 2024, un bilan moins lourd que les deux étés précédents
Affaire Le Scouarnec : l'Ordre des médecins accusé une fois de plus de corporatisme
Procès Le Scouarnec : la Ciivise appelle à mettre fin aux « silences » qui permettent les crimes