METHODES MATHEMATIQUES POUR LE TEXT MINING

Analyse automatique de textes (text mining):

réponses ouvertes à des questionnaires, entretiens, littérature scientifique, réseaux sociaux par extraction des correspondances de Galois (treillis des itemsets fréquents) et allocation latente de Dirichlet (LDA),

Nous utilisons une représentation en sac de mots focalisée sur l’étude des co-occurrences et les fréquences des termes. Cette approche est adaptée à l’étude des textes courts tels que les réponses ouvertes à un questionnaire ou les commentaires sur les réseaux sociaux qui ne comportent qu’un nombre réduit d’affirmations. Ces hypothèses nous permettent d’appliquer le concept d’échangeabilité mis en exergue par De Finetti (https://journals.openedition.org/msh/6793) ce qui permet de supposer l’existence d’une variable latente multinomiale explicative des dépendances entre termes.

L’ensemble des associations caractéristiques d’un concept constitue un treillis de correspondance de Galois. Celui-ci admet une base générative canonique calculable en temps polynomial mais instable vis-à-vis des seuils de fréquences utilisés (https://journals.openedition.org/msh/6793). Les modèles de Dirichlet permettent d’en extraire des résumés plus stables, mais ne peuvent pas être calculés de manière exacte. Il est nécessaire en particulier d’estimer le nombre de modalités de la variable multinomiale latente (https://www.cairn.info/revue-document-numerique-2014-1-page-61.htm).

Le déroulement de cet enseignement en 10 séances de 3h:

  1. Modèles de représentation du texte pour son analyse automatique.
  2. Mise en œuvre avec Keras et TensorFlow dans un environnement Rstudio
  3. Introduction aux treillis de Galois
  4. Application à l’analyse formelle de concepts
  5. Théorème d’existence d’une base canonique d’implications
  6. Application avec la bibliothèque R arules
  7. Introduction à l’analyse implicative Bayésienne multivariée
  8. Concept d’échangeabilité de De Finetti
  9. Mise en œuvre de l’allocation latente de Dirichlet (LDA) avec les bibliothèques R topicsmodels et ldatuning
  10. Approximation du LDA par inférence variationnelle stochastique avec TensorFlow.

L’ensemble des travaux pratiques se dérouleront sur serveur dédié au Deep Learning dans un environnement Rstudio (https://tensorflow.rstudio.com/)