Rechercher

Ar.2: Histoire d'une fabuleuse rencontre entre l’intelligence artificielle et les neurosciences

Dernière mise à jour : juin 1



CHAPITRE I : Mémoire et Apprentissage

Article 2: Histoire d'une rencontre fabuleuse entre l’intelligence artificielle et les neurosciences




[Bienvenue dans la série “Brain & AI”: une série qui confronte le point de vue des neurosciences à celui de l'intelligence artificielle! La série sera composée de plusieurs chapitres avec différents articles. Chaque article peut être lu de manière indépendante.]


Vous voici au sein du second article (" Histoire d'une rencontre fabuleuse entre l’intelligence artificielle et les neurosciences") du premier chapitre de cette série "Mémoire et Apprentissage".


L'article ci-dessous fait suite au premier article "Tout savoir sur la mémoire en 3 questions-réponses". Il fait le parallèle entre l'apprentissage humain (Article 1 pour plus de précisions) et l'apprentissage des machines basées sur l'intelligence artificielle.




Introduction


While there are many domains where AI is superior, humans still have an advantage when tasks depend on the flexible use of episodic memory” (un type de mémoire relatif à nos événements dans la vie) dit Martin Chadwick, un chercheur chez DeepMind.

L’intelligence artificielle (IA) a connu de nombreuses avancées depuis la moitié du XXe siècle. On retient de nombreux succès publics tels que la victoire de Deep Blue - ordinateur d’IBM - face à Garry Kasparov - champion d’échecs - lors d’une partie disputée en 1997 (voir image 1). Mais le domaine de l’IA puisa entre autres son inspiration des neurosciences. La complexité du cerveau et son incroyable capacité à mémoriser et à apprendre font l’oeuvre d’une véritable source de réflexion. L’histoire des systèmes d’apprentissage est donc parsemée de biomimétisme. Par conséquent, les neurosciences ont contribué et contribuent encore à l'amélioration de l'IA de deux manières différentes: premièrement comme aide à la création de nouveaux algorithmes; deuxièmement comme validation des techniques d’intelligence artificielle.



Image 1: Frise historique des événements clefs de l’intelligence artificielle (1).




La naissance des premiers neurones


Le terme d’intelligence artificielle apparut en 1955 et fut prononcé par Marvin Minsky, reconnu comme grand acteur dans le domaine. Mais l'intérêt pour l'IA se manifesta quelques années plus tôt.

En 1943, Warren McCulloch et Walter Pitts publient un article traitant de “neurones artificiels” inspirés de leurs équivalents biologiques (2). Six ans plus tard, les travaux du psychologue et neuropsychologue canadien Donald Hebb participeront fortement à améliorer ces neurones artificiels. Il publie en 1949 le livre “The organisation of Behaviour: a Neuropsychological theory” (3). Il y engage l’idée selon laquelle l’apprentissage des humains réside dans la force de connexions entre les neurones. En outre, il définit la règle d’apprentissage suivante: lorsque deux neurones sont excités conjointement, l’efficacité de la connexion qui les relie augmente (par la création d’un nouveau lien entre ces neurones ou bien, par le renforcement de ce dernier). Inversement, l’activation à contretemps de ces deux neurones produit une diminution d’efficacité de cette connexion.



Image 2: Exemples des neurones artificiels tirés de l’article de Warren McCulloch et Walter Pitts (2).




Le Perceptron ou la première machine douée d'apprentissage


Les travaux de McCulloch, Pitts et Hebb inspirèrent la création de l’un des premiers systèmes d’apprentissage en 1957: le Perceptron (4). Le Perceptron était un ordinateur analogique créé par Frank Rosenblatt composé des neurones de McCulloch et Pitts. Cet ordinateur était capable d’assimiler des tâches d’apprentissage simples (exemple: reconnaître la lettre A face à la lettre C). Le Perceptron était un classifieur linéaire binaire: il pouvait définir si un objet appartenait à une classe plutôt qu'à une autre. Autrement dit, après un entraînement, il pouvait être capable de vous répondre “Oui” ou “Non” suite à une entrée donnée (par exemple, dire qu’il ne s’agit pas d’un “A” si vous lui présentez un “C”). Pour ce faire, le système calculait des sommes pondérées c’est à dire qu’il calculait la somme totale des données entrantes en tenant compte de leurs poids dans la décision. Prenons pour exemple l’image 3-C où les données d’entrées sont des pixels. Sur le schéma, tous les pixels ont un poids similaire dans la décision (0,25). Si le pixel 1 et 3 s’allument et que la somme de ces pixels multipliée par leurs poids est supérieure à un seuil donné, le système s’illuminera (“Bright”). Si le Perceptron donne une réponse incorrecte (exemple: il donne la réponse “Bright” alors qu’il fallait répondre “Dark”), on l’indique à ce dernier pour qu’il puisse changer le poids des pixels concernés afin de produire une réponse correcte. En l'occurrence, il pourra ici diminuer le poids synaptique des pixels 1 et 3 pour que le résultat soit en dessous du seuil établi.








Image 3: en haut - A: Rosenblatt et le Perceptron (5). Au milieu - B: Organisation du Perceptron (4). En bas - C: schématisation de l’organisation du Perceptron (6).


C’est un modèle simplifié à l’extrême des calculs opérés par les neurones biologiques. En effet, dans le cerveau, un neurone peut passer l’information à un autre neurone si et seulement si, ce premier neurone s’active au-delà d’un certain seuil. Pour cela, il doit préalablement avoir reçu un ensemble d’excitations dont la somme dépasse le seuil cité. Ainsi, chaque neurone a une capacité de synthèse (comme le calcul de la somme des poids synaptiques des neurones du Perceptron) pour produire une réponse positive ou neutre (i.e. sans excitation). Mais le Perceptron ne compte qu’une seule couche de neurones. Cela le limite à la résolution de problèmes très simples (il est par exemple incapable de reconnaître une écriture manuscrite pour la distinction de la lettre “A” versus la lettre “C”).



Image 4: Représentation d’un neurone et de son axone myélinisé avec les données d'entrée au niveau des dendrites (“inputs”) et ses données de sortie au niveau des terminaux axonaux (“outputs”). (7)




Un Perceptron plus connecté: les réseaux de neurones


Le cerveau comptant approximativement 100 milliards de neurones, on comprend vite que le Perceptron est au système nerveux ce que la découverte du feu est à l’innovation. Ce gros ordinateur analogique peut actuellement se résumer en 5 lignes de code ! C'est pourquoi les réseaux de neurones artificiels apparurent vers 1985. Ils reprennent l’architecture des connexions neuronales en augmentant le nombre de synapses et le nombre de couches originelles du Perceptron. Des couches “cachées” (“hidden layers”) peuvent exister entre la couche d’entrée et la couche de sortie. Cela témoigne d’un niveau de complexité supérieur, qui, de manière caricaturale, se rapproche du fonctionnement du cerveau. Les réseaux de neurones artificiels ne sont donc qu’un Perceptron avec plusieurs couches de neurones. Ce courant, dit courant connexionniste, fait aujourd’hui preuve d’un grand succès. On parle de “deep learning” (ou apprentissage profond): un mot de marketing qui met en lumière la complexité plus accrue des réseaux de neurones artificiels face au Perceptron (“deep”: approximativement 3 couches de neurones minimum).

Pour que cela soit plus simple, imaginons une machine avec plusieurs boutons capable d’allumer une led. Ces boutons peuvent être réglés à des intensités différentes. Chaque modification de ces intensités agit sur la réponse. Par exemple, si l’on veut que la machine allume la led, on devra plusieurs fois ajuster les paramètres des boutons jusqu’à trouver la combinaison parfaite qui produit le plus de réponses exactes (i.e. d’illuminations de led). Les réseaux de neurones artificiels suivent cette métaphore: pour que la machine apprenne, il faut adapter les pondérations de chaque entrée (voir mon magnifique schéma - image 5). Ceci est possible grâce à ce que l’on appelle “la rétropropagation de gradient”: c’est une méthode statistique pour le calcul du gradient de l’erreur pour chaque neurone, d’une couche à l’autre. Actuellement, les réseaux de neurones artificiels sont notamment utilisés à des fins de reconnaissance faciale.

Vous pouvez vous amuser à entraîner un réseau de neurones en dessinant ici: https://quickdraw.withgoogle.com.




Image 5: Représentation des réseaux de neurones artificiels (à droite) et de sa métaphore de la machine à multiples boutons (à gauche).




Les réseaux convolutifs ou comment reconnaître une image de chien


La suite de l’histoire continue avec la création des réseaux convolutifs (ou CNN pour "Convolutional Neural Networks"). Ces réseaux de neurones artificiels ont été créés par Yann Le Cun à l’époque des années du fabuleux “Bell Laboratories”, un laboratoire historique où de nombreux succès en IA ont été enregistrés. Inspirés de l’architecture du cortex visuel du cerveau, ils sont un type de réseaux de neurones artificiels à plusieurs couches. Ils ont la particularité de filtrer les images en extrayant un panel de caractéristiques. A l'idée du système visuel, les neurones des CNN ont un champs récepteur: ils capturent seulement une partie de l'image et filtrent cette dernière afin de produire une image plus "petite" (plus facile à traiter). Cette étape s'appelle la convolution. Plusieurs filtres, ou kernels, existent et chacun d'entre eux est spécialisé dans une reconnaissance de pattern. Par exemple, le premier filtre peut reconnaître les contours, le deuxième la luminosité et ainsi de suite. Les neurones effectuent cette étape de convolution pour chaque filtre différent, produisant à chaque fois une nouvelle image. Les images générées seront à nouveau traitées par une autre opération mathématique, dite étape de "pooling". Cette nouvelle opération a pour but de cibler les pixels avec la valeur la plus importante (Pour en savoir plus: (vidéo explicative : 8, démo des réseaux convolutifs: 9)). Ainsi, les étapes de convolution et de pooling s'enchaînent jusqu'à la fin du traitement de l'image. Contrairement aux réseaux de neurones artificiels classiques, cette technique permet de s'affranchir d'un traitement conjoint d'une multitude de pixels. La reconnaissance d'images plus complexes - soit reconnaître une photo de chien plutôt que la lettre "A" - devient donc possible !

Les CNN apparurent à la fin des années 80 mais furent oubliés 10 ans plus tard à cause de l’impossibilité d’appliquer la méthode avec la faible puissance des ordinateurs de l’époque. Cependant, on observa un regain pour les CNN dès 2012 après la victoire écrasante d’une équipe utilisant cette méthode face à un autre système d’apprentissage (‘System Vector Machine’ ou ‘SVM’) lors de la compétition ImageNet. Et c’est en 2016 que les CNN montrèrent de nouveau leurs efficacités lors de la victoire de la machine AlphaGo au jeu de Go face à un joueur professionnel (Lee Sedol battu 4 à 1 contre AlphaGo, machine appartenant à DeepMind). Victimes de leurs succès, les CNN servent aujourd’hui à des fins de reconnaissance d’image, de parole et de traitement de langage naturel. Ils ont permis de nombreuses applications telles que la traduction automatique, les voitures autonomes ou les systèmes d’analyses d’images médicales.




Quand les systèmes d'apprentissage tentent de mécaniser la pensée


Cependant, de nombreux systèmes d’apprentissage, autre que les réseaux de neurones et les CNN, émergèrent durant cette deuxième moitié du XXe siècle. C’est par exemple le cas du courant de l’“IA symbolique”: un courant qui connu son apogée dans les années 1970 à 1980 pendant la période de manque d’intérêt pour les réseaux de neurones. A contrario du courant connexionniste qui part de la perception pour remonter à un système d’apprentissage plus complexe, le courant symbolique tente de mécaniser les processus de pensée. Cette approche “top/down” fut connu sous le nom de “systèmes experts”: des systèmes qui traduisent tous les mécanismes de pensée sous la forme de règles. Par exemple, pour savoir comment poser un diagnostic, une phase de création de règles avait lieu en amont avec les médecins pour définir des "protocoles" de décisions (effectuer un certain test sanguin en fonction du patient ou bien décider d’un diagnostic particulier en fonction des résultats). Comme le cerveau humain, l’ensemble de ces règles métiers étaient traitées et interprétées par un système central appelé moteur d’inférence. Malgré le succès connu de ces méthodes dans les années 70/80, les systèmes experts connurent un déclin. En effet, tout réduire à un ensemble de règles et de tests reste complexe et peu fiable. Ces méthodes sont actuellement peu utilisées et la population générale ne garde aujourd'hui qu’un souvenir agacé du trombone de Windows.




Pourquoi un bébé apprend mieux que la plus puissante des machines


Avec toutes les avancées citées en termes d’IA, pourquoi est-il toujours impossible d’avoir un système d’apprentissage aussi efficace que le cerveau humain? Tous les efforts dévoués à l’IA ne permettent aujourd’hui que de reproduire un processus réglé en moins d’1 seconde dans notre cerveau. Les réseaux artificiels imitent la reconnaissance visuelle basique de notre système nerveux central, entre la perception par les yeux et la propagation du signal dans le cortex visuel.

La réponse à cette question est la suivante: la machine a besoin de données et elle est incapable d’apprendre de manière non supervisée en observant le monde. En effet, il faut labelliser les données pour que la machine apprenne. Or, un bébé apprend en observant le monde sans avoir besoin qu’on lui dise le nom de tous les objets. D'autre part, en tant qu’humain, nous possédons 2 systèmes d’apprentissage: un système bottom-up et un système top-down. Le premier est celui communément utilisé par les machines: on apprend des données qui nous entourent (des données sensorielles ("bottom") vers notre système nerveux central pour les traiter ("up")). Contrairement au système bottom-up, le système top-down décrit un système d'inférence. C'est un système probabiliste bayésien qui nous permet de concevoir des hypothèses sur le monde. Ces hypothèses s'établissent en fonction de l'expérience de chaque individu. Grâce à ces hypothèses, notre cerveau devient prédictif: une machine capable d'anticiper chaque situation. Si par malheur une situation devient surprenante et n'était pas prévue selon nos hypothèses, nous rectifions ces dernières en intégrant une erreur. Par exemple, nous pouvons émettre l’hypothèse que les oiseaux volent après en avoir vu plusieurs voler. Par contre, si demain nous apercevons une autruche, notre système d’apprentissage nous avertira d’une erreur pour modifier l’hypothèse conçue sur les oiseaux (c’est-à-dire, inclure dans notre hypothèse que certains oiseaux ne volent pas).





Image 5: Représentation des deux systèmes d'apprentissage humain: le système bottom-up et le système top-down.



Par ailleurs, des discussions intéressantes voient le jour concernant la part de l’inné dans l'apprentissage. Durant un débat public avec Gary Marcus, un psychologue à l’université de New York, et Yann Le Cun, responsable scientifique du laboratoire de recherche en IA chez Facebook, la question suivante se posa: quelle dose de structure innée doit-on mettre dans les systèmes d’intelligence artificielle pour que l’intelligence émerge? Pour répondre à cette question, il est intéressant de faire le parallèle avec le cerveau des bébés. Est-ce que le cerveau d’un bébé est désorganisé ? Est-ce qu’un bébé naît avec un système neuronal vierge qui doit apprendre de zéro comme les machines ? Il se trouve que non. Le cerveau des bébés possède des réseaux déjà bien établis dispensés sous la forme d'aires cérébrales spécifiques à différentes fonctions cognitives (aire auditive, aire visuelle, aire tactile, …). Par exemple, si on fait écouter à un petit sa langue maternelle, les informations auditives seront retranscrites dans le réseau du langage, le même que celui de l’adulte. Le cerveau naît donc avec une architecture précâblée et sera flexible tout au long de la vie.


Ainsi, du système d’inférence bayésien à la part de l’inné dans l’intelligence, nous sommes encore loin des machines “intelligentes” capables d’apprendre à apprendre.



BIBLIOGRAPHIE:

  1. https://qbi.uq.edu.au/brain/intelligent-machines/history-artificial-intelligence

  2. McCulloch, W., and Pitts, W. (1943). A logical calculus of ideas immanent in nervous activity. Bull. Math. Biophys. 5, 115–133.

  3. Hebb, D.O. (1949). The Organization of Behavior (John Wiley & Sons).

  4. Rosenblatt, F. (1958). The perceptron: a probabilistic model for information storage and organization in the brain. Psychol. Rev. 65, 386–408.

  5. https://news.cornell.edu/stories/2019/09/professors-perceptron-paved-way-ai-60-years-too-soon

  6. https://towardsdatascience.com/what-the-hell-is-perceptron-626217814f53

  7. https://en.wikipedia.org/wiki/Artificial_neuron

  8. https://www.youtube.com/watch?v=kFcviv7p2_s

  9. http://cs231n.github.io/assets/conv-demo/index.html

  10. Savage, Neil. ‘How AI and Neuroscience Drive Each Other Forwards’. Nature 571, no. 7766 (24 July 2019): S15–17. https://doi.org/10.1038/d41586-019-02212-4.

  11. La plus belle histoire de l'intelligence,S. Dehaene, Y. Le Cun, J. Girardon, Robert Laffont, 2018.

  12. Hassabis, Demis, Dharshan Kumaran, Christopher Summerfield, and Matthew Botvinick. ‘Neuroscience-Inspired Artificial Intelligence’. Neuron 95, no. 2 (19 July 2017): 245–58. https://doi.org/10.1016/j.neuron.2017.06.011.

  13. ‘Intelligence artificielle : du Perceptron au premier Macintosh, la préhistoire d’une révolution’. Le Monde.fr, 17 July 2018. https://www.lemonde.fr/series-d-ete-2018-long-format/article/2018/07/17/du-perceptron-au-premier-macintosh-la-prehistoire-d-une-revolution_5332451_5325928.html.

  14. https://towardsdatascience.com/the-fascinating-relationship-between-ai-and-neuroscience-89189218bb05

  15. https://theconversation.com/neuroscience-and-artificial-intelligence-can-help-improve-each-other-110869