La pile des articles de recherche d’Apple dans le domaine de l’intelligence artificielle continue de grossir. Le dernier en date, publié fin mars, décrit un système destiné à améliorer la compréhension du contexte par un assistant conversationnel — vous avez dit Siri ?
ReALM, pour Reference Resolution As Language Modeling, est un grand modèle de langage spécialisé dans l’analyse des correspondances entre les éléments et le sous-texte. Concrètement, cette technologie est capable d’identifier des informations présentes sur une page web ou dans une application et d’associer ces infos entre elles.
« Permettre à l'utilisateur de poser des questions sur ce qu'il voit à l'écran est une étape cruciale pour garantir une expérience vraiment mains libres avec les assistants vocaux », écrivent les chercheurs d’Apple. Imaginez que vous visitiez le site web d’un restaurant sur lequel se trouve son numéro de téléphone et que vous demandiez ensuite à Siri d’appeler cet établissement. C’est une utilisation potentielle de ReALM, qui se charge d’encoder chaque élément identifié comme du texte, mise en avant dans l’article scientifique.
Mais on pourrait sûrement pousser l’utilisation en demandant à Siri de lister tous les plats qui contiennent du poisson, par exemple. Analyser en continu le contenu pour interagir ensuite avec, c’est l’idée derrière Rewind, une application Mac qui enregistre tout ce qui se trouve à l’écran pour pouvoir ensuite fouiller dans l’historique avec l’aide de GPT-4.
En parlant de GPT-4, les savants d’Apple assurent que leur invention fait aussi bien, voire mieux, que le modèle le plus avancé d’OpenAI dans ce cas d’usage de mise en contexte. Et de conclure que « ReaLM [est] un choix idéal pour un système pratique de résolution de références pouvant fonctionner sur l'appareil sans compromettre les performances. » Y’a plus qu’à !
Source : VentureBeat