Bien que le fantasme d’une intelligence artificielle autonome et malveillante subsiste, les potentiels biais associés aux algorithmes sont eux bien réels. Biais cognitifs, biais de données, discrimination… Découvrez l’interview de Jean-Denis Garo, Head of Marketing chez Golem.ai qui partage sa vision sur un sujet qui anime de plus en plus les acteurs et utilisateurs d’IA.
Qu’est ce qu’un biais ?
On dénombrerait plus de 180 biais différents, des biais de jugement, de raisonnement… dans le traitement statistique des données il existe, par exemple, des biais d’échantillonnage (collecte de données auprès d’un échantillon non représentatif). De plus, la polysémie du mot biais est souvent source de confusion alors que la Commission européenne vient de publier un projet de régulation de l’IA.
L’engouement autour de l’IA suscite aussi des questions nouvelles à propos des biais qu’elle pourrait porter. Dans ce contexte les biais peuvent avoir plusieurs origines, principalement deux : l’humain et la composition des données utilisées.
Est-il vain de rechercher l’objectivité chez l’humain ?
Si les biais cognitifs ne sont généralement pas conscients, la source principale de biais reste donc l’humain, et ce quelque soit le type d’IA utilisée (symbolique ou connexioniste). C’est parce qu’ils sont écrits par des humains, eux -mêmes porteurs de biais et qu’ils répliquent ces biais, que les algorithmes peuvent être biaisés.
Vincent Berthet nous rappelle ainsi dans son ouvrage* que “les travaux expérimentaux de Daniel Kahneman et Amos Tversky ont donné corps au concept de rationalité limitée.” Ces deux psychologues nous expliquent comment l’humain produit des jugements en situation d’incertitude et, en particulier, comment des raccourcis cognitifs (heuristiques) biaisent son jugement. Circonstance aggravante dans le cas du machine learning, l’IA est souvent entraînée sur la base d’exemples connus, sélectionnés par un humain… Pourtant une différence majeure existe entre les différents types d’IA : l’explicablité proposée par l’IA symbolique permet, elle, de débusquer les biais et de les corriger.
L’autre source de biais provient de l’essence même des données : le biais des données, ou GIGO (Garbage In, Garbage Out), ou comment des informations erronées donnent des résultats inexacts. Un risque lié au caractère de leur sélection, à leur cohérence, à leur pertinence, à leur actualisation, à leur quantité… qui sont autant de facteurs de biais.