Résumé:
Notre travail décrit un système de classification des textes arabes et coranique en
fonction des similarités. Nous avons utilisé des techniques d’apprentissage automatique
dans lesquelles nous avons appliqué de nombreux filtres et classificateurs. Les meilleurs
résultats ont été obtenus en utilisant l'algorithme LSTM (Long Short-Term Memory),
avec une exactitude de l’ordre de 86,67%, une perte de 21,27%, cela sans enlever le
TASHKEEL. Et avec le TASHKEEL ont obtient une exactitude de l’ordre de 100%,
une perte de 17,8%. Nous avons observé que les diacritiques peuvent avoir un impact
négatif sur l’exactitude et la perte s’ils sont utilisés avec la technique de "Word
Tokenizer" dans la phase de prétraitement