ilboursa arabic version ilboursa

InstaDeep et iCompass annoncent TunBERT, le premier système d’Intelligence Artificielle pour le dialecte tunisien

ISIN : GH0000000078 - Ticker : FML.gh
La bourse d'Accra Ferme dans 2h59min

InstaDeep et iCompass révèlent aujourd'hui leur collaboration sur un modèle de traitement automatique des langues (TAL) pour les langues sous-représentées. Déployant les dernières avancées en matière d'IA et d'apprentissage automatique (ML), ces efforts visent à élargir et renforcer la recherche en IA dans l'écosystème technologique tunisien.

Le projet consiste au développement d'un modèle de traitement du langage naturel pour le dialecte tunisien, TunBERT, ainsi que son évaluation sur plusieurs problèmes comme l'analyse de sentiments, la classification de dialecte, la compréhension écrite, ou encore la réponse aux questions.

“Nous sommes ravis de dévoiler TunBert, un projet de recherche né d'une collaboration étroite entre iCompass et InstaDeep, et qui offre au dialecte tunisien une technologie de pointe. Ce travail illustre également le niveau d'excellence auquel peut aspirer l'écosystème technologique tunisien grâce à des collaborations entre les startups leaders en IA.”, dit Karim Beguir, PDG et Co-fondateur d'InstaDeep.

Renforcer les langues sous-représentées

Les modèles de Traitement Automatique du Langage (TAL) tels que le BERT (Représentations d'encodeur bidirectionnel à partir de transformateurs) sont devenus une référence pour la compréhension et traitement du langage naturel. Au vu de leur performance, ces modèles ont été appliqués sur les langues indo-européennes telles que l'anglais, le français, l'allemand, etc., mais les travaux de recherche sur des langues sous-représentées restent rares, ou embryonnaires.

Travaillant ensemble, les équipes d'ingénieurs chercheurs d'iCompass et d'InstaDeep ont développé et amélioré le code de ce modèle pour le dialecte tunisien, avec une série d'expériences réussies. " Cette collaboration fructueuse vise à faire avancer la recherche en IA dans le domaine émergent et important du TAL et des modèles de langage. Notre objectif ultime est de soutenir les talents tunisiens et de favoriser un environnement dans lequel l'innovation peut rayonner, et ensemble pousser plus loin les frontières du possible ", déclare le Dr Hatem Haddad, CTO et Co-fondateur d'iCompass.

Boîte à Outils NEMO

Le modèle TunBERT repose sur le toolkit NeMo de NVIDIA, intégrant une version optimisée du modèle BERT. L'équipe de recherche a adapté et affiné le réseau de neurones sous-jacent pour obtenir un modèle de TAL pré-entraîné sur un large corpus du dialecte tunisien. L'utilisation de plusieurs cartes graphiques NVIDIA Tesla V100 a accéléré de manière significative les étapes de pré-entraînement et de raffinement, avec une convergence optimale et distribuée du modèle.

Cette implémentation a permis un apprentissage plus efficace, grâce notamment à une combinaison du Tensor Core Mixed Precision et NeMo. Ainsi, les modèles de représentation contextuelle du texte ont assimilé une vectorization performante (“embedding”) du langage naturel, le rendant compréhensible par la machine et permettant des gains de performance significatifs. La comparaison des résultats avec d'une part le modèle BERT optimisé de NVIDIA et d'autre part le modèle BERT original montre que la version optimisée de NVIDIA fonctionne mieux sur les différentes fonctions en aval du modèle, pour une puissance de calcul équivalente.

NVIDIA GTC

InstaDeep, membre de NVIDIA Inception - un programme d'accélération dédié aux startups en IA, a été sélectionnée pour présenter ses travaux de recherche lors de la prochaine édition du GPU Technology Conference (GTC). Nourchene Ferchichi (InstaDeep) et Dr. Hatem Haddad (iCompass) reviendront sur cette réalisation dans un talk intitulé " Construire un modèle de représentation de texte contextualisé pré-formé pour les langues sous-représentées : cas d'utilisation du dialecte tunisien ". La conférence GTC sera en ligne cette année et aura lieu du 12 au 16 Avril 2021. L'inscription est gratuite ici.

Publié le 16/03/21 16:37

SOYEZ LE PREMIER A REAGIR A CET ARTICLE

Pour poster un commentaire, merci de vous identifier.

6T9qJpQp08Rggqbuqv7af6dAfwi7-9r0Iu1mKfJ_iyw False