IA : après la boite noire, l’interprétabilité ?
L’évolution de l’intelligence artificielle depuis les années 1970 a bouleversé la conception des processus décisionnels. Le Machine Learning permet aujourd’hui d’apprendre directement des données plutôt que des connaissances humaines, avec un niveau accru de précision. Le manque d’interprétabilité (i.e. la capacité d’expliquer ou de présenter des informations dans des termes humainement compréhensibles) et l’introduction de biais potentiels ont cependant généré des problématiques d’ordre éthique et juridique. L’UE a pris une série de mesures à travers le Règlement Général sur la Protection des Données, tandis que l’interprétabilité des algorithmes de Machine Learning suscite des inquiétudes croissantes.
Comment l’interprétabilité peut-elle aider les entreprises à tirer parti des nouveaux outils d’IA pour mieux comprendre leurs processus décisionnels ? C’est l’objet de cette publication.
Depuis 2018, le Règlement Général de l’UE sur la Protection des Données (RGPD) exige que toute décision importante ou de nature juridique soit expliquée. La personne concernée peut demander une intervention humaine pour contester la décision prise. D’autres réglementations existent dans des domaines plus spécifiques, telles que le Code of Federal Regulations aux USA, qui stipule que chaque décision liée à un crédit sous-tend un droit d’explication bien établi.
Quand la précision prend le pas sur l’interprétabilité
En matière de méthodes et d’algorithmes de Machine Learning, les niveaux d’interprétabilité varient considérablement. Certaines méthodes sont plus adaptées à l’homme, car facilement interprétables. D’autres sont trop complexes pour être appréhendées et nécessitent donc des méthodes ad hoc pour obtenir une interprétation.
Le nombre important de variables et la forte dimensionnalité liés à l’utilisation du Big Data complexifient davantage la compréhension de la méthode décisionnelle. Un arbre de décision, par exemple, constitue une séquence de décisions afin de scinder les données. Ces décisions sont faciles à comprendre si la séquence n’est pas trop longue. La forêt aléatoire, quant à elle, forme un ensemble d’arbres de décision. L’homme n’a donc pas la capacité de visualiser chaque séquence. Le Deep Learning, qui s’appuie sur un réseau de neurones artificiels, constitue un très grand nombre de liens par addition et multiplication avec des éléments non linéaires. Il est ainsi difficile d’identifier quels calculs sont pertinents.
Pourquoi les modèles non interprétables sont-ils donc quand même utilisés ? Parce que la complexité introduite dans les modèles de Machine Learning a permis d’améliorer les performances dans la plupart des domaines. La recherche de précision a ainsi pris le pas sur l’interprétabilité dans certains cas.
L’interprétabilité : le défi 2020 des projets IA
Même pour les algorithmes de haute précision, il existe des méthodes permettant d’obtenir une interprétation ou une explication. Cependant, aucune ne peut être appliquée de façon sûre à tous les modèles de Machine Learning avec un résultat stable. Chaque méthode (SHAP, LIME…) a ses avantages et ses inconvénients. Un nouveau compromis s’est dessiné entre la stabilité des résultats, le temps de calcul et la spécialisation de l’algorithme.
Une fois la méthode choisie, il est important de l’appliquer avec précaution, principalement en raison du manque de fiabilité de certaines d’entre elles. Cependant, l’interprétation et l’explication se basent souvent sur un certain ensemble de données et sur une partie spécifique de l’espace de données, ce qui augmente le risque d’interprétation erronée. Certaines méthodes d’interprétation omettent des corrélations entre les variables ou n’offrent qu’une seule explication contrefactuelle lorsque plusieurs auraient pu être données. Malgré ces limites, les outils sont suffisamment puissants pour offrir une interprétabilité conforme au RGPD.
Indépendamment du RGPD et de son application, l’interprétation d’un algorithme d’apprentissage complexe permet également d’optimiser le modèle dans son ensemble.
L’analyse de l’exigence d’interprétabilité et l’optimisation du problème par le biais de méthodes d’interprétabilité constitueront bientôt une étape essentielle de tout cas d’utilisation du Machine Learning.
Cette publication a été réalisée avec l’appui d’Alexandre Verine, consultant Wavestone.