Résumé:
Le Deep Learning (DL) est au coeur de l'essor actuel de l'intelligence artificielle. Il est partout, allant de la prévision du trafic au diagnostic médical, en passant par la conduite autonome. Cependant, la vulnérabilité de sécurité des algorithmes DL aux attaques contradictoires sous la forme de perturbations subtiles des entrées qui conduisent un modèle à prédire des sorties incorrectes a été largement reconnue. Pour les images, de telles perturbations sont souvent trop petites pour être perceptibles, mais elles trompent complètement les modèles d'apprentissage en profondeur. Les attaques adverses constituent une menace sérieuse pour le succès de l'apprentissage en profondeur dans les problèmes du monde réel. Par exemple, en plaçant quelques petits autocollants au sol, les chercheurs ont montré qu'ils pouvaient amener une voiture autonome à se déplacer dans la voie de circulation opposée. D'autres études ont montré qu'apporter des modifications imperceptibles à une image peut amener un système d'analyse médicale à classer un grain de beauté bénin comme malin, et que des morceaux de ruban adhésif peuvent tromper un système de vision par ordinateur en classant à tort un panneau d'arrêt comme un panneau de limitation de vitesse. Par conséquent, les techniques d'attaque et de défense contradictoires ont attiré de plus en plus l'attention des communautés de l'apprentissage automatique et de la sécurité, et sont devenues un sujet de recherche brûlant ces dernières années. Dans ce mémoire, nous présentons d'abord les fondements théoriques, les algorithmes et les applications des techniques d'attaque contradictoire. Dans le cadre de la taxonomie, les applications des exemples contradictoires sont étudiées. Nous décrivons ensuite quelques efforts de recherche sur les techniques de défense, qui couvrent la large frontière du domaine.