Mmeslay est un projet de reconnaissance vocale en kabyle STT (SpeechToText ou Voice recognition) initié il y a quelques années par Aomer Gaya Ouldali en collaboration avec Mohand Belkacem.
Maintenant, il est possible de le tester en ligne et de tenter une retranscription de votre voix en kabyle : vous prononcez une phrase ou dictez un texte ou vous enregistrez votre voix dans un format audio et vous le transférez sur l'instance de démo de Mmeslay en ligne sur HugginFace; vous obtiendrez une transcription en mode texte de votre message vocal avec un taux réduit d'erreurs.
Adresse de la démo : https://huggingface.co/spaces/g1ya/Mmeslay
Le projet fonctionne sous une forme hybride de traitement : un modèle acoustique accompagné d'un modèle lexical.
Nous n'avons pas encore testé côté "language switching" ni concernant les nouveaux mots qui ne figurent pas dans un lexique. Mais grossomodo, il est fonctionnel.
Maintenant, on pourrait imaginer un système où lors de l'obtention de la transcription, on pourra utiliser une instance LibreTranslate afin de traduire automatiquement la transcription obtenue en kabyle vers l'anglais ou le japonnais.
LibreTranslate : https://huggingface.co/spaces/Imsidag-community/LibreTranslate_Kabyle
Code source du projet Mmeslay : https://github.com/G1ya777/Mmeslay_backend-CLI
A propos de l'auteur : https://g1ya777.github.io/portfolio/

Aucun commentaire:
Enregistrer un commentaire