28 décembre 2025

Kabyle OCR - Optical character recognition

 Jusqu'à récemment, il n'existait aucun modèle qui permettait de faire de la reconnaissance optique de caractères des textes rédigés en kabyle, c'est à dire, en utilisant des caractères latins, notamment pour la reconnaissance des caractères suivants : ẓẒ, ṛṚ, ṭṚ, ɛƐ, ɣƔ, ṣṢ, ḍḌ, ǧǦ, ḥḤ, čČ sur les documents scannés aplatis (pdf aplatis, captures d'écran, anciens documents scannés, images scannées provenant de romans ou de livres, ...)

tesseract-ocr

 

 Jusqu'à ce que Bouaziz Aït Driss publie son modèle qu'il a entraîné le 07 décembre 2025. 

C'est un modèle pour tesseract-ocr, disponible publiquement et utilisable sous Linux comme sous Windows.

 Lien Github : https://github.com/Bouaziz-aitd/Kab_Taqbaylit_Tesseract_OCR

Lien Hugging Face : https://huggingface.co/AitBAD/kab-Taqbaylit-Tesseract-ocr 

    Bien que le Computer Science Departement de l'Université de Tizi Ouzou avait déclaré que des étudiants ont pu développé un modèle OCR en kabyle en novembre 2024, aucune trace du projet, malheureusement, n'a été rendue publique sur aucune forge logicielle.

La vidéo de l'Université de Tizi Ouzou : https://www.youtube.com/watch?v=drhr2v3lLtY 

Notons néanmoins, que Google via son service Cloud Vision arrivait tout de même à faire de l'OCR en kabyle. Ceci dit, leur service demeure commercial et n'est pas à la portée de tout le monde.

Langues prises en charge par Google Cloud Vision : https://docs.cloud.google.com/vision/docs/languages 

Kabyle OCR - Optical character recognition

 Jusqu'à récemment, il n'existait aucun modèle qui permettait de faire de la reconnaissance optique de caractères des textes rédigés...

Mastodon