La recherche en intelligence artificielle a été transformée par les systèmes d’apprentissage automatique appelés réseaux neuronaux. Ceux-ci apprennent à effectuer des tâches en analysant d’énormes volumes de données d’apprentissage.
Au cours de sa formation, un réseau neuronal réajuste continuellement des milliers de paramètres internes jusqu’à ce qu’il puisse effectuer une tâche de manière fiable, telle que l’identification d’objets dans des images numériques ou la traduction d’un texte d’une langue à l’autre. Toutefois, les valeurs finales de ces paramètres ne disent pas grand-chose sur la manière dont le réseau neuronal fait ce qu’il fait.
Comprendre ce que font les réseaux neuronaux peut aider les chercheurs à améliorer leurs performances et à transférer leurs connaissances à d’autres applications. Les informaticiens ont récemment mis au point des techniques pour deviner les calculs de réseaux neuronaux particuliers.
Toutefois, à l’occasion de la conférence 2017 sur les méthodes empiriques de traitement du langage naturel qui débute cette semaine, des chercheurs du laboratoire d’informatique et d’intelligence artificielle du MIT présentent une nouvelle technique générale permettant de comprendre les réseaux neuronaux formés pour effectuer des tâches de traitement du langage naturel, dans lesquelles les ordinateurs tentent d’interpréter des textes libres écrits en langage ordinaire ou « naturel ».
Cette technique s’applique à tout système qui prend du texte en entrée et produit des chaînes de symboles en sortie, comme un traducteur automatique. Et comme son analyse résulte de la variation des entrées et de l’examen des effets sur les sorties, elle peut fonctionner avec des services de traitement de la langue naturelle en ligne, sans accès au logiciel sous-jacent.
En fait, la technique fonctionne avec n’importe quel système de traitement de texte à boîte noire, quel que soit son mécanisme interne. Dans leurs expériences, les chercheurs montrent que la technique peut également identifier des idiosyncrasies dans le travail des traducteurs humains.
Thème et variations
La technique est analogue à celle qui a été utilisée pour analyser les réseaux neuronaux formés pour effectuer des tâches de vision par ordinateur, telles que la reconnaissance d’objets. Un logiciel qui perturbe systématiquement différentes parties d’une image et soumet à nouveau l’image à un dispositif de reconnaissance d’objets peut identifier les caractéristiques de l’image qui conduisent à telle ou telle classification. Mais l’adaptation de cette approche au traitement du langage naturel n’est pas simple.
« Qu’est-ce que cela signifie de perturber sémantiquement une phrase ? », demande Tommi Jaakkola, professeur d’ingénierie électrique et d’informatique Thomas Siebel au MIT et l’un des deux auteurs du nouvel article. « Je ne peux pas me contenter d’une simple randomisation. Et ce que vous prédisez est maintenant un objet plus complexe, comme une phrase, alors qu’est-ce que cela signifie de donner une explication ?».
De manière quelque peu ironique, Jaakkola et David Alvarez-Melis, étudiant diplômé du MIT en génie électrique et en informatique et premier auteur du nouvel article, utilisent un réseau neuronal « boîte noire » pour générer des phrases de test destinées à alimenter des réseaux neuronaux « boîte noire ».
Ils commencent par entraîner un réseau à compresser et à décompresser des phrases naturelles, c’est-à-dire à créer une représentation numérique intermédiaire et compacte de la phrase, puis à essayer de la réexpanser dans sa forme originale. Au cours de la formation, le codeur et le décodeur sont évalués simultanément, en fonction de la fidélité avec laquelle la sortie du décodeur correspond à l’entrée du codeur.
Les réseaux neuronaux sont intrinsèquement probabilistes : un système de reconnaissance d’objets alimenté par l’image d’un petit chien, par exemple, peut conclure que l’image a une probabilité de 70 % de représenter un chien et une probabilité de 25 % de représenter un chat. De même, le réseau de compression de phrases de Jaakkola et Alvarez-Melis fournit des alternatives pour chaque mot d’une phrase décodée, ainsi que les probabilités que chaque alternative soit correcte.
Comme le réseau utilise naturellement la cooccurrence des mots pour augmenter sa précision de décodage, ses probabilités de sortie définissent un groupe de phrases sémantiquement liées. Par exemple, si la phrase encodée est « Elle a sursauté », le système peut attribuer aux alternatives « Elle a crié de surprise » ou « Elle a sursauté d’horreur » des probabilités assez élevées, mais il attribuera des probabilités beaucoup plus faibles à « Elle a nagé de surprise » ou « Elle a sursauté de café ».
Pour toute phrase, le système peut donc générer une liste de phrases étroitement liées, que Jaakkola et Alvarez-Melis transmettent à une boîte noire de traitement du langage naturel. Le résultat est une longue liste de paires entrée-sortie, que les algorithmes des chercheurs peuvent analyser pour déterminer quelles modifications des entrées entraînent quelles modifications des sorties.
Cas d’essai
Les chercheurs ont appliqué leur technique à trois types de systèmes de traitement du langage naturel. L’un d’eux était un système qui déduisait la prononciation des mots ; un autre était un ensemble de traducteurs, deux automatisés et un humain ; et le troisième était un simple système de dialogue informatique, qui tente de fournir des réponses plausibles à des remarques ou à des questions arbitraires.
Comme on pouvait s’y attendre, l’analyse des systèmes de traduction a mis en évidence de fortes dépendances entre les mots individuels dans les séquences d’entrée et de sortie. Cependant, l’un des résultats les plus intrigants de cette analyse a été l‘identification de préjugés sexistes dans les textes sur lesquels les systèmes de traduction automatique ont été entraînés.
Par exemple, le mot anglais non genré « dancer » a deux traductions sexuées en français, « danseur » et « danseuse ». Le système a traduit la phrase « La danseuse est charmante » en utilisant le féminin : « la danseuse est charmante ». Mais l’analyse des chercheurs a montré que le choix du mot « danseuse » était autant influencé par le mot « charmante » que par le mot « danseuse ». Un adjectif différent aurait pu donner lieu à une traduction différente de « danseuse ».
Le système de dialogue, qui a été entraîné sur des paires de répliques tirées de films hollywoodiens, était intentionnellement sous-puissant. Bien que l’ensemble d’entraînement ait été important, le réseau lui-même était trop petit pour en tirer parti.
« L’autre expérience que nous faisons concerne les systèmes défectueux », explique M. Alvarez-Melis. « Si vous avez un modèle de boîte noire qui ne fonctionne pas bien, pouvez-vous d’abord utiliser ce type d’approche pour identifier les problèmes ? Une application motivante de ce type d’interprétabilité est de réparer les systèmes, de les améliorer, en comprenant ce qu’ils font de travers et pourquoi ».
Dans ce cas, les analyses des chercheurs ont montré que le système de dialogue se concentrait fréquemment sur quelques mots d’une phrase d’entrée, qu’il utilisait pour sélectionner une réponse de base – en répondant « Je ne sais pas » à toute phrase commençant par un mot d’interrogation tel que « qui » ou « quoi », par exemple.