METHODES MATHEMATIQUES POUR LE TEXT MINING – Master Mathématiques Appliquées, Statistique

Analyse automatique de textes (text mining):

réponses ouvertes à des questionnaires, entretiens, littérature scientifique, réseaux sociaux par extraction des correspondances de Galois (treillis des itemsets fréquents) et allocation latente de Dirichlet (LDA),

Nous utilisons une représentation en sac de mots focalisée sur l’étude des co-occurrences et les fréquences des termes. Cette approche est adaptée à l’étude des textes courts tels que les réponses ouvertes à un questionnaire ou les commentaires sur les réseaux sociaux qui ne comportent qu’un nombre réduit d’affirmations. Ces hypothèses nous permettent d’appliquer le concept d’échangeabilité mis en exergue par De Finetti (https://journals.openedition.org/msh/6793) ce qui permet de supposer l’existence d’une variable latente multinomiale explicative des dépendances entre termes.

L’ensemble des associations caractéristiques d’un concept constitue un treillis de correspondance de Galois. Celui-ci admet une base générative canonique calculable en temps polynomial mais instable vis-à-vis des seuils de fréquences utilisés (https://journals.openedition.org/msh/6793). Les modèles de Dirichlet permettent d’en extraire des résumés plus stables, mais ne peuvent pas être calculés de manière exacte. Il est nécessaire en particulier d’estimer le nombre de modalités de la variable multinomiale latente (https://www.cairn.info/revue-document-numerique-2014-1-page-61.htm).

Le déroulement de cet enseignement en 10 séances de 3h:

Modèles de représentation du texte pour son analyse automatique.
Mise en œuvre avec Keras et TensorFlow dans un environnement Rstudio
Introduction aux treillis de Galois
Application à l’analyse formelle de concepts
Théorème d’existence d’une base canonique d’implications
Application avec la bibliothèque R arules
Introduction à l’analyse implicative Bayésienne multivariée
Concept d’échangeabilité de De Finetti
Mise en œuvre de l’allocation latente de Dirichlet (LDA) avec les bibliothèques R topicsmodels et ldatuning
Approximation du LDA par inférence variationnelle stochastique avec TensorFlow.

L’ensemble des travaux pratiques se dérouleront sur serveur dédié au Deep Learning dans un environnement Rstudio (https://tensorflow.rstudio.com/)