Nous vous parlons régulièrement de Whisper, un logiciel open source conçu par OpenAI pour transcrire fidèlement de l'audio en texte. Et bien ce programme pourrait être intégré à VLC pour proposer des fonctions de transcription plus évoluée.
Le projet en cours se base sur whisper.cpp, une implémentation en C/C++ qui a gagné récemment des optimisations pour les GPU Apple. Il y a évidemment quelques (grosses) étapes à franchir : Whisper se base sur des modèles qui peuvent être assez volumineux et a besoin d'une dizaine de secondes d'audio au minimum pour fonctionner, ce qui nécessite quelques ajustements dans le décodage des vidéos. Pour le moment, l'implémentation nécessite de fournir un modèle et pose quelques soucis à la compilation, pour une raison simple : Whisper nécessite macOS 13 au minimum et VLC est compilé pour des versions plus anciennes de macOS.
Les différents essais menés par Gabriel Lafond-Thenaille n'amèneront pas nécessairement une intégration dans VLC dans le futur, mais l'idée reste intéressante pour amener de nouvelles fonctions dans le logiciel libre.