Résumé:
L’utilisation des systèmes informatiques intelligents pour l’accès aux ressources numériques est incontournable dans notre quotidien. En effet, ces systèmes sont utilisés en large échelle comme les Web ainsi que dans les systèmes fermés. Cependant, l’extension de ces systèmes vers l’exploitation des ressources numériques complexes tels que l’image, parole et multimédia est fortement sollicitée. Dans ce contexte, nous présentons dans ce mémoire une étude pour l’intégration des nouvelles techniques relatives aux indexations sémantiques des ressources numériques pour les systèmes de recherche d’information. Dans ce travail, nous avons étudié les possibilités d’intégration des techniques de « Deep Learning » et « Word Embedding » dans le processus d’indexation sémantique pour les résultats des transcriptions automatiques du contenu des ressources parlées. Dans ce cadre, nous avons présenté principalement une contribution pour l'utilisation de la représentation vectorielle sémantique « Word2Vec » avec ces approches de calculs de similarités dans le processus d’indexation sémantique basée sur un modèle « Deep Learning ». Cependant, pour la validation nous avons évalué cette approche avec un classifieur convolutionnel « CNN » dans le but de mesurer l’impact de la stratégie d’indexation proposée. Les expérimentations sont effectuées sur un extrait du corpus TED des ressources et les résultats obtenus à l’aide de l’algorithme « word2vec » sont encourageants.