ilboursa.com

InstaDeep et iCompass annoncent TunBERT, le premier système d’Intelligence Artificielle pour le dialecte tunisien

ISIN : GH0000000078 - Ticker : FML.gh

InstaDeep et iCompass révèlent aujourd'hui leur collaboration sur un modèle de traitement automatique des langues (TAL) pour les langues sous-représentées. Déployant les dernières avancées en matière d'IA et d'apprentissage automatique (ML), ces efforts visent à élargir et renforcer la recherche en IA dans l'écosystème technologique tunisien.

Le projet consiste au développement d'un modèle de traitement du langage naturel pour le dialecte tunisien, TunBERT, ainsi que son évaluation sur plusieurs problèmes comme l'analyse de sentiments, la classification de dialecte, la compréhension écrite, ou encore la réponse aux questions.

“Nous sommes ravis de dévoiler TunBert, un projet de recherche né d'une collaboration étroite entre iCompass et InstaDeep, et qui offre au dialecte tunisien une technologie de pointe. Ce travail illustre également le niveau d'excellence auquel peut aspirer l'écosystème technologique tunisien grâce à des collaborations entre les startups leaders en IA.”, dit Karim Beguir, PDG et Co-fondateur d'InstaDeep.

Renforcer les langues sous-représentées

Les modèles de Traitement Automatique du Langage (TAL) tels que le BERT (Représentations d'encodeur bidirectionnel à partir de transformateurs) sont devenus une référence pour la compréhension et traitement du langage naturel. Au vu de leur performance, ces modèles ont été appliqués sur les langues indo-européennes telles que l'anglais, le français, l'allemand, etc., mais les travaux de recherche sur des langues sous-représentées restent rares, ou embryonnaires.

Travaillant ensemble, les équipes d'ingénieurs chercheurs d'iCompass et d'InstaDeep ont développé et amélioré le code de ce modèle pour le dialecte tunisien, avec une série d'expériences réussies. " Cette collaboration fructueuse vise à faire avancer la recherche en IA dans le domaine émergent et important du TAL et des modèles de langage. Notre objectif ultime est de soutenir les talents tunisiens et de favoriser un environnement dans lequel l'innovation peut rayonner, et ensemble pousser plus loin les frontières du possible ", déclare le Dr Hatem Haddad, CTO et Co-fondateur d'iCompass.

Boîte à Outils NEMO

Le modèle TunBERT repose sur le toolkit NeMo de NVIDIA, intégrant une version optimisée du modèle BERT. L'équipe de recherche a adapté et affiné le réseau de neurones sous-jacent pour obtenir un modèle de TAL pré-entraîné sur un large corpus du dialecte tunisien. L'utilisation de plusieurs cartes graphiques NVIDIA Tesla V100 a accéléré de manière significative les étapes de pré-entraînement et de raffinement, avec une convergence optimale et distribuée du modèle.

Cette implémentation a permis un apprentissage plus efficace, grâce notamment à une combinaison du Tensor Core Mixed Precision et NeMo. Ainsi, les modèles de représentation contextuelle du texte ont assimilé une vectorization performante (“embedding”) du langage naturel, le rendant compréhensible par la machine et permettant des gains de performance significatifs. La comparaison des résultats avec d'une part le modèle BERT optimisé de NVIDIA et d'autre part le modèle BERT original montre que la version optimisée de NVIDIA fonctionne mieux sur les différentes fonctions en aval du modèle, pour une puissance de calcul équivalente.

NVIDIA GTC

InstaDeep, membre de NVIDIA Inception - un programme d'accélération dédié aux startups en IA, a été sélectionnée pour présenter ses travaux de recherche lors de la prochaine édition du GPU Technology Conference (GTC). Nourchene Ferchichi (InstaDeep) et Dr. Hatem Haddad (iCompass) reviendront sur cette réalisation dans un talk intitulé " Construire un modèle de représentation de texte contextualisé pré-formé pour les langues sous-représentées : cas d'utilisation du dialecte tunisien ". La conférence GTC sera en ligne cette année et aura lieu du 12 au 16 Avril 2021. L'inscription est gratuite ici.

Publié le 16/03/21 16:37

Vous avez aimé cet article ? Partagez-le avec vos amis en cliquant sur les boutons ci-dessous :

ACTUALITES RELATIVES
22/08/2023 S'appuyant sur une longue tradition d'excellence, Castrol vient de dévoiler son nouveau lubrifiant Castrol MAGNATEC basé sur la technologie DUALOCK
21/05/2023 Télécharger 1xbet - Nouvelle Version APK 2023
20/05/2023 SONOBRA Group lance en Tunisie une boisson inédite sous la marque SUNSET® HARD SELTZER
10/05/2023 Huawei lance une nouvelle gamme de produits lors d'un événement de lancement de produits phares dans la région Moyen Orient & Afrique
10/05/2023 Qualcomm annonce les équipes présélectionnées pour le 1er programme de mentorat Qualcomm® Make in Africa
03/05/2023 Huawei facilite l'accès à une large gamme de produits pendant la saison de printemps
20/04/2023 Nouvelair relie Sfax et Paris
18/04/2023 Le Royaume-Uni incite les fumeurs à utiliser la vape pour arrêter de fumer