Skip to main content

Risques et biais génériques : Types de biais de données

Image

À propos de cette sous-ligne directrice

Cette sous-ligne directrice fait partie de la ligne directrice Risques et biais génériques. Se reporter à la ligne directrice principale pour le contexte et une vue d'ensemble. Pour une réflexion sur les risques liés plus spécifiquement aux travaux parlementaires, voir la ligne directrice Risques et difficultés pour les parlements.

Cette sous-ligne directrice traite des biais de données, types d'erreurs dans lesquels certains éléments d'un ensemble de données sont plus fortement pondérés ou représentés que d'autres, ce qui donne une image inexacte de la population. Un ensemble de données biaisé ne représente pas fidèlement le scénario d'utilisation d'un modèle, ce qui entraîne des résultats faussés, de faibles niveaux d'exactitude et des erreurs d'analyse.

Biais de sélection

Le biais de sélection se produit lors du choix des données.

Dans un exemple, un système d'IA pour la détection de la maladie de Parkinson a été entraîné à l'aide d'un ensemble de données ne comportant que 18,6 % de femmes. Le taux de détection correcte des symptômes était donc plus élevé chez les hommes que chez les femmes, même si, en réalité, les symptômes en question se manifestaient plus fréquemment chez les femmes.

Dans un autre exemple, un système d'IA pour la détection du cancer de la peau n'a pas été en mesure de détecter la maladie chez les personnes d'origine africaine. Les chercheurs ont observé qu'en raison de l'augmentation des taux de cancer de la peau en Australie, aux États-Unis et en Europe, l'ensemble des données utilisées pour entraîner le système était constitué en grande partie de personnes d'origine européenne.

Biais d'échantillonnage

Le biais d'échantillonnage est une forme de biais de sélection dans laquelle les données ne sont pas sélectionnées de manière aléatoire, ce qui donne un échantillon non représentatif de la population. Par exemple, si un sondage pour une élection présidentielle nationale ne cible que les électeurs de la classe moyenne, l'échantillon sera biaisé, car il ne sera pas assez diversifié pour représenter l'ensemble de l'électorat. 
 

Biais de couverture

Le biais de couverture est une forme de biais d'échantillonnage qui se produit lorsqu'une population sélectionnée ne correspond pas à la population prévue. Par exemple, les enquêtes nationales générales menées en ligne peuvent ne pas prendre en compte les groupes ayant un accès limité à Internet, tels que les personnes âgées et les ménages à faible revenu.
 

Biais de variable omise

Le biais de variable omise est une forme de biais d'échantillonnage qui se produit quand on omet une variable importante lors de la collecte des données, ce qui compromet le résultat escompté. Par exemple, lors de la conception d'un algorithme qui détermine le prix des voitures d'occasion, les développeurs incluent les variables suivantes : marque, nombre de sièges, historique des accidents, distance au compteur et taille du moteur. Ils oublient toutefois d'inclure l'âge de la voiture. L'algorithme est susceptible de donner des estimations biaisées, car deux voitures ayant exactement les mêmes valeurs pour les autres variables auront probablement des prix différents en fonction de leur âge.

Biais de participation

Le biais de participation est une forme de biais d'échantillonnage qui se produit lorsque des personnes appartenant à certains groupes décident de ne pas participer à l'échantillon. Ce biais existe lorsque l'échantillon est constitué de volontaires, ce qui crée également un biais en faveur des personnes qui sont disposées et/ou disponibles pour participer. Les résultats ne représenteront donc que les personnes qui ont des opinions tranchées sur le sujet, sans tenir compte des autres.

Biais de popularité

Le biais de popularité est une forme de biais d'échantillonnage qui se produit lorsque les éléments les plus populaires sont davantage exposés, alors que les éléments moins populaires sont sous-représentés. Par exemple, les systèmes de recommandation ont tendance à suggérer des articles généralement populaires plutôt que des choix personnalisés. En effet, les algorithmes sont souvent entraînés pour optimiser la participation en recommandant des contenus appréciés par de nombreux utilisateurs.
 

Inexactitude des données

L'inexactitude des données résulte de défaillances dans la saisie des données. Par exemple, dans le cas d'un système enregistrant automatiquement la température, si le capteur est défaillant, l'ensemble de données ne sera pas fiable pour l'utilisation de la température comme variable. Parfois, les systèmes ne sont pas stricts en ce qui concerne la saisie des données et acceptent des données sans normes ou avec des erreurs.
 

Données obsolètes

Les données obsolètes sont celles qui sont trop anciennes pour refléter les tendances actuelles. Par exemple, un système prédisant la durée d'une procédure de passation de marché public est entraîné à partir d'un ensemble massif de données, composé principalement de procédures de passation qui se sont déroulées il y a dix ans, dans le cadre d'une législation différente. Ce système produira donc probablement des prédictions inexactes.
 

Biais temporel

Le biais temporel se produit lorsque les données d'apprentissage ne sont pas représentatives du contexte actuel en termes de temps. Par exemple, les données de recensement – qui ne sont collectées que tous les dix ans – servent à de nombreuses prévisions. Toutefois, si les dernières données de recensement disponibles ont été collectées en 2021, c'est-à-dire au milieu de la pandémie de COVID-19, les algorithmes utilisant ces données peuvent être biaisés de plusieurs façons.
 

Biais de sélection de variables

Le biais de sélection de variables se produit si une variable choisie n'est pas adaptée à l'objectif visé. Par exemple, une agence nationale de santé cherchant à proposer aux citoyens une prestation supplémentaire sélectionne, comme variable d'attribution de la prestation, les dépenses totales de santé en fonction de l'âge. L'algorithme choisit les personnes d'origine européenne et celles ayant des revenus élevés pour bénéficier de la prestation. Ce résultat biaisé s'explique par le fait que les personnes de ce groupe ont dépensé davantage pour leur santé. La variable choisie était la cause du problème.

Facteur de confusion

Dans le cadre d'une recherche portant sur une relation potentielle de cause à effet, un facteur de confusion est une troisième variable non mesurée qui influence à la fois la cause supposée et l'effet supposé. Par exemple, lorsque l'on étudie la corrélation entre le niveau d'éducation et le revenu, la situation géographique peut être un facteur de confusion. Cela s'explique par le fait que les opportunités économiques varient d'une région à l'autre, ce qui influence le niveau de revenu indépendamment du niveau d'éducation. Sans contrôle de la localisation, il est impossible de déterminer si c'est l'éducation ou la localisation qui détermine le revenu.

Paradoxe de Simpson

Le paradoxe de Simpson est un phénomène qui se produit lorsque des sous-groupes sont combinés en un seul groupe. Le processus d'agrégation des données peut modifier la direction apparente et la force de la relation entre deux variables. Par exemple, une étude montre qu'au sein d'une organisation, les candidats réussissent mieux que les candidates. Toutefois, la comparaison de ces taux au sein des services donne une image différente, les candidates ayant un léger avantage sur les hommes dans la plupart des services.

Biais linguistique

On parle de biais linguistique lorsqu'un algorithme d'IA privilégie certains styles linguistiques, vocabulaires ou références culturelles par rapport à d'autres. Il peut en résulter une production plus adaptée à certains groupes linguistiques ou à certaines cultures, tout en en rebutant d'autres. 


Les Lignes directrices pour l’IA dans les parlements ont été produites par l’UIP en collaboration avec le Pôle parlementaire sur la science des données du Centre pour l'innovation au parlement de l'UIP. Ce document est soumis à une licence Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International. Il peut être librement partagé et réutilisé en mentionnant l'UIP. Pour plus d'informations sur les travaux de l'UIP en matière d'intelligence artificielle, veuillez consulter le site www.ipu.org/fr/impact/democratie-et-parlements-forts/lintelligence-artificielle ou contacter [email protected].