Avec l'iPhone 4S, Apple vient de changer à nouveau le paradigme de son interface tactile d'une manière éclatante. En effet, pour la première fois dans l'histoire de l'informatique, un véritable mode de contrôle en langage totalement naturel vient d'être intégré de base dans un appareil grand public.
Il pourra être objecté qu'il existait déjà des modules de commande vocale précédemment, notamment dans Android, Windows ou Mac OS X, mais ce serait hors de propos : Siri ne propose pas un simple jeu de commandes vocales précises à effectuer pour communiquer avec l'appareil, mais offre une formulation libre (pas de « mots-clef » à prononcer), et mieux encore, instaure un véritable dialogue avec la machine par le biais d'une intelligence artificielle. En somme, Siri est à la commande vocale ce que l'interface graphique est à la ligne de commande : fini le vocabulaire à apprendre (autrefois les commandes textuelles), vous communiquez avec l'appareil de manière intuitive et simple.
De fait, la technologie Siri tient d'autant plus de la prouesse qu'elle résout un épineux problème qui freinait de longue date l'adoption des systèmes logiques d'interprétation. Le Newton avait beau proposer un système de reconnaissance de l'écriture cursive incroyablement avancé, les inévitables erreurs d'interprétation étaient immanquablement source de frustration pour l'utilisateur. Malgré tout, les quiproquos sont monnaie courante entre êtres humains, mais bénéficient de notre part d'une bien meilleure tolérance (lire : Pour quelques neurones de plus).
Nous avions évoqué cette question lors de notre interview du professeur Randall Davis du MIT (lire MIT : à la croisée de l'intelligence artificielle et des nouvelles interfaces), et voici l'explication qu'il donnait de cette problématique :
La raison pour laquelle les quiproquos entre personnes ne semblent pas aussi embêtantes, c'est que vous avez des conversations avec les gens. Imaginez si vous aviez un assistant et que la seule manière de communiquer avec lui soit de dire quelque chose, il ferait ce qu'il croit avoir compris que vous vouliez dire, mais se tromperait, et bien, il vous faudrait l'arrêter, tout recommencer, lui redire ce que vous vouliez, ce serait ridicule, ça n'est pas comme cela que nous fonctionnons avec les gens, et ça n'est pas comme cela que nous devrions fonctionner avec les machines. Donc, il y a du travail dans ce domaine, et on a une meilleure compréhension de la manière dont l'ordinateur peut être un partenaire facile à vivre dans la vie de tous les jours, ce qui rendra les malentendus plus faciles à tolérer.
Et à partir du moment où vous pouvez tolérer les malentendus, il devient bien plus facile de parler. La raison pour laquelle il est si difficile de travailler avec les ordinateurs, c'est qu'ils prennent absolument tout au pied de la lettre, et vous devez être exhaustif, complet et précis. Je n'ai pas envie d'être exhaustif, complet et précis, c'est trop embêtant. J'ai envie d'interagir de la façon dont j'interagis normalement avec un autre être humain. Je voudrais que la machine réponde comme une autre personne le ferait, ce qui pourrait être en disant "j'ai compris cette partie, mais pas celle-là".
Et c'est précisément le modèle que suit Siri : que votre demande soit incomplète ou équivoque, et Siri vous demandera des précisions pour s'assurer de l'intention derrière l'ordre. Ne nous y méprenons pas : il s'agit là de rien de moins que le Graal de l'interaction homme-machine. C'est précisément l'un des champs de recherche que le professeur Davis étudie au MIT en ce moment même, et voilà qu'Apple propose une solution clef-en-main dans un appareil de consommation de masse !
Pour bien comprendre les enjeux de Siri, il faut remonter à sa genèse : Apple a racheté la société Siri en avril 2010, après qu'elle a mis en vente son application sur l'App Store (lire : Assistant iOS 5 : « un événement qui change tout »). Mais celle-ci est née d'un projet financé par le DARPA, lui-même une émanation du Pentagone (à qui l'on doit rien de moins que le GPS, Internet, parmi bien d'autres).
Le projet CALO (pour "Cognitive Assistant that Learns and Organizes", assistant cognitif qui apprend et organise) a réuni pas moins de 300 experts du monde entier pendant cinq ans à partir de 2003, et fut piloté par un des plus puissants instituts de recherche privés de la Silicon Valley, le SRI (Standford Research Institute), où sont nés les premiers travaux sur l'interface graphique et la souris. Adam Cheyer, référence mondiale en matière d'interfaces homme-machine et d'intelligence artificielle, était la tête pensante de SRI, et depuis l'acquisition de Siri par Apple, il est devenu l'un des cadres dirigeants de l'ingénierie du groupe dédié à l'iPhone.
La « vallée dérangeante »
Un phénomène étrange a été observé dans le domaine des images de synthèse et de la robotique : à mesure qu'on approche d'un certain réalisme de la représentation humaine, les images suscitent une réaction de rejet de la part des spectateurs, parce que l'être que nous voyons semble incroyablement humain, mais quelque chose d'indicible, dans son apparence ou dans sa façon de se mouvoir, donne l'impression d'un « cadavre en mouvement » (lire L'image de synthèse, d'hier à demain). Cette « vallée dérangeante » connaît également un corollaire lorsque nous sommes confrontés à une interaction vocale avec la machine. Vous en avez tous fait l'expérience : qui n'a pas été exaspéré par ces boîtes vocales interactives, qui au lieu de vous demander de presser une touche sur le clavier téléphonique, vous demandent de prononcer des mots-clefs ? Le système se voulait plus naturel, mais n'a fait que souligner son inhumanité : on se sent profondément stupide à devoir bêtement répéter à voix haute des mots-clefs à une machine qui de toute évidence n'en comprend pas le sens.
Il faut espérer que cette exaspération n'aura pas cours avec Siri, mais le système a toutes les chances pour lui : d'abord parce qu'il ne contraint pas l'humain à un vocabulaire limité et précis de mots-clefs. Ainsi, vous lui donnez des ordres librement, sans avoir à réfléchir à la formulation, aussi spontanément que vous le feriez avec un être humain. Ensuite, parce qu'il apporte un véritable dialogue, vous demandant des compléments ou des précisions le cas échéant. D'autre part, pour peu que sa compréhension soit efficace, et elle semble redoutable, nous n'aurons plus ce sentiment de vacuité qui vient en s'adressant à une « bête machine ».
Mais c'est surtout les avantages indéniables qu'apporte Siri qui nous motiveront à passer outre ce sentiment initial. « Réveille-moi dans 20 minutes » est un ordre sans commune mesure avec la manière dont nous avons eu jusqu'ici à régler un réveil sur l'iPhone. C'est beaucoup plus rapide et efficace, et c'est comme cela que nous sommes habitués à communiquer. Siri offre la voie de la moindre résistance, c'est donc tout naturellement qu'elle gagnera notre préférence.
L'ouverture d'une nouvelle voie
Pour aussi impressionnante qu'elle soit, la technologie Siri n'en est qu'à ses tout débuts. De nouvelles catégories d'ordres feront leur apparition au fur et à mesure, et on imagine sans mal qu'Apple ouvrira son accès aux applications de tierce partie. Mieux encore, si Siri est déjà en mesure de taper le courrier que vous lui dictez, elle ressemblera de plus en plus à une secrétaire particulière : ses capacités d'interaction avec l'être humain la vouent à interagir avec d'autres personnes en votre nom.
Le Knowledge Navigator, un concept d'Apple (et cheval de bataille de John Sculley) en 1987. Date de réalisation prévue ? Septembre 2011. À un mois près, Siri y arrive… presque.
Comme elle est déjà dans votre téléphone, elle pourra prendre vos messages et filtrer vos appels en fonction de votre disponibilité et de l'importance de ceux-ci, ou s'occuper en votre nom de vos réservations à voix haute auprès d'un autre être humain. Il faudra encore quelque temps pour que Siri donne sa pleine mesure, mais on le devine sans mal : Apple tient ici un vaste champ de prospection qui faisait figure de science-fiction il y a encore peu de temps.