Les méthodes d’apprentissage statistique et de machine learning occupent une place de plus en plus importante dans de nombreux domaines. Au delà des performances pratiques et de l’utilisation de ces méthodes sous forme de « boîte noire », un des enjeux actuels est la compréhension fine du fonctionnement de ces différentes approches. L’objectif de cet majeure est de proposer un panorama sur la construction et le fonctionnement de ces méthodes.
Les cours de cette majeure sont associés à
– une séquence de remise à niveau
– un tronc commun au premier semestre
– deux autres cours à choisir parmi ceux proposés dans les autres majeures (voir la page d’accueil pour la liste complète).
Réseaux de neurones
L’objectif de ce cours est double:
- Présenter les principes des modèles de réseaux neuronaux profonds, ainsi que les moyens de les implémenter pour résoudre des problèmes de classification et régression.
- Proposer un aperçu des bases mathématiques des techniques d’apprentissage modernes basée sur ces réseaux.
Le cours commencera avec la propriété d’approximation universelle des réseaux de neurones. Nous verrons ensuite pourquoi la profondeur améliore la capacité des réseaux à donner des approximations précises de fonctions pour un budget de calcul donné.
Des outils permettant de traiter les problèmes d’apprentissages rencontrés dans l’entrainement de ces réseaux sur de grands jeux de données seront proposés, et des éléments de convergence seront discutés.
Finalement, des résultats statistiques sur les garantie en généralisation des réseaux de neurones profonds seront présentés, à la fois dans des scénarios (classique) de sous-apprentissage, mais aussi dans le cas de sur-apprentissage conduisant au phénomène de ‘double descente’.
Parcimonie et grande dimension
La parcimonie et la convexité sont des phénomènes importants et récurrents en Machine Learning et en statistique. Dans ce cours, on s’intéressera à la théorie mathématiques associées à des méthodes performantes basées sur des relaxations convexes: méthodes de régularisation L1 en statistique et traitement de signal, minimisation de la norme nucléaire en complétion de matrice, K-means et clustering de graphes. Toutes ces approches sont dites ‘Semi-Definite representable (SDP)’ et utilisables en pratiques. La partie théorique du cours portera sur les performances de ces approches et des algorithmes associées sous une hyptohèse de parcimonie. La partie pratique présentera les solvers SDP classiques pour ces types de problèmes d’apprentissage.
Mots-clés: régularisation L1; Complétion de matrices; K-Means; Clustering de graphes; Semi-Definite Programming;
Graphes et réseaux écologiques
Un graphe, dont les origines remontent au 16ème siècle, est un objet mathématique particulièrement utilisé depuis l’émergence de l’étude des réseaux, c’est à dire l’étude de relations entre des entités que l’on peut modéliser par un graphe. Depuis les réseaux sociaux jusqu’au réseau internet, l’objet graphe est prépondérant dans l’analyse de nombreux jeux de données. Or, les relations dans les écosystèmes, depuis les relations entre espèces (prédation, interaction entre plantes et pollinisateurs, etc…) jusqu’aux relations sociales entre individus (socialité chez les primates, etc…), offrent un champ d’application de la modélisation par graphe et de l’étude des réseaux.
Dans ce cours, nous découvrirons le cadre conceptuel hérité de la théorie des graphes et de la science des réseaux, pour découvrir des problématiques de recherche moderne autour de l’étude des écosystèmes. Ce cours convoquera des méthodes des mathématiques discrètes, des statistiques et du machine learning.
Le cours sera partagé entre des ‘études de cas en écologie’ et des ‘éléments théoriques’.
Eléments théoriques: Bases / définitions (graphe, chemin, etc…) – Métriques – Techniques de clustering – Méthodes spectrales – Modèles de graphes aléatoires – Modèles graphiques (inférence de graphes) – Traitement de signal sur graphe – Graphes multi-couches (temps, espace, type de liens) – Techniques d’embedding (optionnel)
Etude de cas sur données réelles : Réseau de contact entre animaux. Réseau d’interaction entre espèces en milieu marin et/ou montagnard. Réflexion sur la pertinence de la prise en compte d’un graphe pour le maintien de la biodiversité.
Transport optimal pour l’apprentissage
Le but du cours est de présenter les grandes lignes de la théorie du transport optimal et certaines de ses applications en sciences des données.
Une première partie du cours détaillera le problème de Monge-Kantorovich, sa formulation comme problème de programmation linéaire et l’utilisation de la dualité convexe, ainsi que les distances (dites distances de Wasserstein) que le transport optimal permet de définir sur l’espace des mesures de probabilité. Les géodésiques et les barycentres dans l’espace de Wasserstein, de grande importance dans l’interpolation et la comparaison des données, seront introduits également.
Une deuxième partie du cours se concentrera sur les méthodes numériques pour la résolution des problèmes de transport optimal, avec une attention particulière aux méthodes les mieux adaptées à la grande dimension et aux données non-structurées, en particulier l’algorithme de Sinkhorn.
Enfin, la troisième partie du cours présentera un choix d’applications du transport et des distances de Wasserstein en apprentissage, dont on cite comme exemples les Wasserstein GANs, l’apprentissage par transfert, les modèles de génération de données,…