Les machines ont-elles la capacité de penser ?
La question peut sembler simple, mais la nature introspective innée de l'homme nous a permis de comprendre en profondeur le concept de la pensée. Cependant, y répondre sans l'influence de nos expériences personnelles et subjectives - comme la voix dans notre esprit qui raconte nos pensées - nécessite une définition formelle de ce qu'est réellement la pensée.
L'homme est depuis longtemps fasciné par la construction d'objets qui imitent le comportement animal et humain - des jouets qui simulent le chant et le vol des oiseaux à l'automate joueur d'échecs de Leonardo Torres, El Ajedrecista, en 1912.
Toutefois, il existe une différence marquée entre les machines qui simulent les caractéristiques physiques et celles qui simulent les caractéristiques intellectuelles des êtres humains.
Histoire Les étapes qui ont conduit à l'IA et à la Machine Learning
Bien que les développements qui ont permis d'aborder cette question de manière plus formelle soient trop nombreux pour être énumérés ici de manière exhaustive, il convient de noter quelques grandes étapes :
En mathématiques et en logique :
- Le développement de la logique moderne par Gottlob Frege à la fin du 19e siècle
- Principia Mathematica, publié en 1910 par Bertrand Russell et Alfred Whitehead, qui tente de démontrer que les mathématiques sont réductibles à la logique symbolique.
- L'introduction par David Hilbert du problème de l'Entscheidungsproblem, qui demande une méthode permettant de prendre n'importe quelle proposition mathématique (logique) et, à partir d'un ensemble d'axiomes, d'en déterminer la validité.
- Les théorèmes d'incomplétude de Gödel en 1931, qui montrent qu'aucun système formel suffisamment expressif ne peut être à la fois complet et cohérent.
- Introduction par Claude Shannon du domaine de la théorie de l'information en 1948
En psychologie et en neurosciences (apprentissage chez l'animal et chez l'homme)
- Le conditionnement classique et opérant des behavioristes tels que Ivan Pavlov et B.F. Skinner
- La notion de modèles mentaux de Kenneth Craik (1943) et leur utilisation dans le raisonnement humain
- Théories de la plasticité synaptique et neuronale proposées par Donald Hebb en 1949
- L'organisation neuronale de l'ordre sériel dans le comportement par Karl Lashley 1951
En ingénierie
- Le domaine de la cybernétique, introduit par Norbert Wiener en 1948 pour étudier les systèmes de contrôle avec rétroaction environnementale.
- La programmation dynamique et sa relation avec la théorie du contrôle optimal, étudiée par Richard Bellman, entre autres, en 1953.
McCullough et Pitts et le premier réseau neuronal
L'introduction du premier réseau neuronal par Warren McCullough et Walter Pitts dans leur article fondateur, A Logical Calculus of the Ideas Immanent in Nervous Activity(Un calcul logique des idées immanentes à l'activité nerveuse), est une évolution majeure qui s'est produite après la machine de Turing et qui a été inspirée en partie par celle-ci. En fait, les travaux de McCullough et Pitts ont sans doute eu une influence bien plus grande sur les premiers chercheurs en intelligence artificielle (IA) que les travaux de Turing.
L'histoire de la collaboration entre McCullough et Pitts est elle-même fascinante1. Une légende urbaine veut que le film Good Will Hunting soit basé sur la vie de Pitts.
Il est presque aussi étonnant de constater que le premier réseau neuronal a été développé en 1943, contrairement à l'image que l'on se fait aujourd'hui de l'apprentissage en profondeur, qui est une percée technologique plus récente.
S'appuyant sur la logique propositionnelle des Principia Mathematica de Russell et Whitehead, et sur leurs connaissances en neuroanatomie, McCullough et Pitts ont élaboré une théorie sur la manière dont les neurones peuvent être interconnectés par le biais d'un ensemble de poids synaptiques, de manière à recréer le fonctionnement des portes logiques.
Avec un ensemble de portes de ce type, il est possible de construire un réseau neuronal pour calculer les valeurs de vérité des phrases de propositions logiques arbitraires.
Leur modèle simplifiait à l'extrême la structure et la fonction des neurones et ne pouvait ni apprendre ni s'adapter (les poids synaptiques devaient être réglés à la main). Cependant, il a inspiré l'architecture informatique de John von Neumann et a été une grande source d'inspiration pour les chercheurs qui allaient plus tard introduire l'expression " intelligence artificielle".
AI : L'atelier de Dartmouth qui a donné son nom à tout cela
L'expression " intelligence artificielle " a été inventée pour la première fois par John McCarthy en 1955, avant d'être remplacée par d'autres expressions telles que "machine intelligente", "machines pensantes" et "cybernétique".
Il tentait de décrire les plans d'un atelier d'été qui rassemblerait un petit groupe de chercheurs de divers horizons qui étudiaient des concepts liés à l'intelligence des machines. L'objectif décrit par McCarthy, ainsi que par Claude Shannon, Marvin Minsky et Nathan Rochester, dans leur proposition d'atelier, était défini comme suit :
L'étude se fondera sur la conjecture que chaque aspect de l'apprentissage ou toute autre caractéristique de l'intelligence peut en principe être décrit avec une telle précision qu'une machine peut être fabriquée pour le simuler. On tentera de trouver comment faire en sorte que les machines utilisent le langage, forment des abstractions et des concepts, résolvent des types de problèmes aujourd'hui réservés aux humains et s'améliorent elles-mêmes.
Le nom donné par McCarthy était en partie dû à un désir de différencier le domaine naissant qu'ils étaient en train de créer, de la myriade de domaines dont chacun des chercheurs était issu. Il convient de noter que McCarthy voulait également éviter le titre de cybernétique par crainte d'avoir à traiter avec un Norbert Wiener autoritaire2.
Néanmoins, la proposition contenait sept thèmes et un appel aux chercheurs individuels pour qu'ils proposent leurs propres sujets. Parmi ces thèmes figuraient "Comment programmer un ordinateur pour qu'il utilise un langage ? "Réseaux de neurones", "Auto-amélioration" et "Abstractions", qui fait référence à l'apprentissage d'abstractions à partir d'entrées sensorielles.
Les thèmes abordés lors de l'atelier allaient largement façonner l'orientation future de l'IA, réunissant des chercheurs de domaines disparates autour d'objectifs communs et créant des divisions acrimonieuses entre les chercheurs qui n'étaient pas d'accord sur la meilleure méthode pour atteindre ces objectifs.
Développement de l'IA
Depuis l'atelier de Dartmouth, la progression de l'IA a vu différentes techniques se développer et s'affaiblir. Par exemple, la révolution actuelle de l'apprentissage profond est en fait la troisième période de popularité relative des réseaux neuronaux.
La première période, des années 1940 aux années 1960, a commencé avec l'invention des réseaux neuronaux par McCullough et Pitts et s'est prolongée par le développement du perceptron.
Le perceptron est un réseau neuronal simple mis au point par Frank Rosenblatt en 1957, capable de s'adapter et d'apprendre, et de réaliser des formes simples de reconnaissance optique de caractères.
Malgré leurs capacités prometteuses, les réseaux neuronaux ont été mis à mort en tant que domaine lorsque Marvin Minsky, l'un des premiers partisans des réseaux neuronaux, et Seymour Papert ont publié leur livre, Perceptrons, en 1969.
Ils y détaillent les limites du perceptron de Rosenblatt en prouvant qu'il est incapable d'apprendre des solutions à des classes entières de problèmes mathématiques. Le plus célèbre d'entre eux était la fonction XOR, pour laquelle un réseau devait apprendre à produire le résultat d'un "ou exclusif" sur deux entrées.
Bien que l'on se soit rendu compte par la suite que cette limitation pouvait être facilement surmontée avec des changements mineurs comme l'utilisation de fonctions de seuil non linéaires, le livre a été suffisamment convaincant pour éliminer le financement et l'intérêt pour les algorithmes d'apprentissage inspirés par le cerveau.
Le vide laissé par la disparition des réseaux neuronaux a été comblé par ce que l'on appellera plus tard l'IA à l'ancienne (GOFAI). Les techniques qui définissaient la GOFAI relevaient essentiellement de la logique symbolique. Cela contraste avec le traitement sub-symbolique d'un réseau neuronal, où le traitement est réparti sur de nombreux neurones ou nœuds, et où les représentations peuvent être distribuées et continues.
Le GOFAI utilisait des règles de production, telles que le principe "si-alors", et des techniques de recherche permettant d'élaborer, d'évaluer et de comparer les hypothèses possibles concernant les actions et leurs conséquences. Des systèmes experts ont été mis au point pour tenter de formaliser les connaissances des experts en la matière sous la forme de représentations adaptées aux ordinateurs et aux algorithmes.
Malgré le succès du GOFAI, la tendance à l'IA symbolique s'est heurtée à la résistance du premier renouveau des réseaux neuronaux à la fin des années 1970 et dans les années 1980. Au cours de cette période, ils étaient connus sous le nom de systèmes connexionnistes en raison de leurs systèmes de neurones largement interconnectés.
Ce renouveau est principalement dû à l'introduction de techniques telles que la théorie de la résonance adaptative (ART), un réseau neuronal biologiquement plausible et la rétropropagation. Il s'agit d'un algorithme d'apprentissage qui adapte les poids d'un réseau neuronal artificiel et qui montre comment une solution au problème XOR peut être facilement apprise.
Cette ère a été inaugurée par un livre de James McClelland et David Rumelhart intitulé Parallel Distributed Processing : Explorations in the Microstructure of Cognition. Bien que très technique, ce livre a connu un grand succès et a fait l'objet d'un article dans le New York Times Book Review.
Malgré cette nouvelle gloire, la deuxième ère de popularité des réseaux neuronaux a également été de courte durée en raison des limitations de la puissance de calcul et de la rareté des données permettant d'entraîner les modèles.
En conséquence, les réseaux neuronaux ont été limités à des problèmes-jouets, ce qui les a exposés à la critique des partisans des approches symboliques. Un deuxième hiver de l'IA allait s'installer et durer jusqu'au début des années 2000.
La révolution actuelle de l'apprentissage profond a fait passer aux réseaux neuronaux leur troisième acte. Des développements tels que le modèle de mémoire à long terme (LSTM) mis au point en 1997 par Hochreiter et Schmidhuber, ainsi que l'introduction en 2006 par Hinton des réseaux de croyance profonde (DBN), ont montré comment surmonter certaines limitations des modèles précédents.
Grâce à l'augmentation de la puissance de calcul et des unités de traitement graphique (GPU), ainsi qu'à la disponibilité toujours croissante des données, les modèles d'apprentissage profond ont commencé à enregistrer des améliorations spectaculaires des taux d'erreur pour les tâches d'apprentissage automatique les plus courantes.
Les progrès soudains réalisés par les réseaux neuronaux dans les domaines de la reconnaissance vocale, de la vision par ordinateur et du traitement du langage naturel ont eu un impact considérable. Google, Facebook, Microsoft et d'autres grandes entreprises fortement intéressées par le traitement de la parole, des images et des données textuelles ont commencé à investir des ressources importantes dans la recherche et le développement, ce qui a accéléré le rythme de développement de l'IA.