Contexte

 

Mes travaux de recherche se situent dans le domaine de l’apprentissage numérique (statistique et connexionniste) et de la fouille de données. Plus précisément, je m’intéresse à l’apprentissage non supervisé (Clustering) à partir de données de différents types et différentes structures. Mon attention s’est portée sur la révision des méthodes de classification non supervisée à base de prototypes. J’effectue mes recherches au Laboratoire d’Informatique de Paris Nord (LIPN – UMR 7030 CNRS), à l’Université Paris 13.

Mes travaux actuels s’inscrivent dans le cadre général des algorithmes d’analyse des données complexes. Je continue à explorer et enrichir les thématiques de recherche suivantes :
• L’apprentissage collaboratif non-supervisée;

• L’apprentissage non-supervisé pour la transformation d’espace
• Intégration de connaissances ontologiques en apprentissage non-supervisé
• Transformation de l’espace de description en utilisant des methodes de type SNE et t-SNE
• Apprentissage quantique


Ces modélès proposées dans mes recherches ont été utilisée dans divers projets pour :
• Classification des images
• Detection de la fraude à la carte bancaire
• Systèmes de recommendation
• Analyse des émotions et opinions
• Segementation des images satelitaires


Mes recherches actuelles se situent dans l’un des axes de l’équipe A3 qui est l’Apprentissage collaboratif et incrémental non supervisé.Cet axe comporte plusieurs directions:
• Collaboration verticale, horizontale, directionnelle
• Apprentissage avec mémoire, par transfert, à partir de flux de données
• Apprentissage collaboratif par contraintes
• Apprentissage évolutif
• Sélection non supervisée de variables

 

Encadrement doctoral et scientifique
2021 – present : Thèse deposé à l’ANRT (Directeur de thèse)
Doctorant : Yasser KHALAFAOUI
Sujet de thèse : Emotional Response Recommendation for context-aware affective systems


2021 – present : Thèse deposé à l’ANRT (Directeur de thèse)
Doctorant : Maha BENFARES
Sujet de thèse : Apprentissage non supervisé profond de représentations de données évolutives

 

2019 – present : Thèse (participation au co-encadrement)
Doctorant : Marc CHEVALLIER
Sujet de thèse : L’Apprentissage Artificiel au service de la qualité de données : détection de contraintes


2019 – present : Thèse (participation au co-encadrement)
Doctorant : Ahmed Zaiou
Sujet de thèse : Exploring Risk Analysis Using Quantum Algorithms


2016 : PostDoctorat (participation au co-encadrement)
Post-Doc : Antoine Lachaud
Sujet : Apprentissage Topologique Collaboratif


2013-2014 : PostDoctorat (participation au co-encadrement)
Post-Doc : Mohamed Hindawi
Sujet : Clustering Collaboratif Vertical


2017 – 2020 : Thèse (participation au co-encadrement)
Doctorante : Benlamine Kaoutar
Sujet de thèse : Apprentissage non supervisé quantique de représentations de données évolutives


2014 – 2019 : Thèse (participation au co-encadrement)
Doctorant : Falih Issam
Sujet de thèse : Algorithmes efficaces pour l’analyse de grands graphes multiplex


2013 – 2017 : Thèse (participation au co-encadrement)
Doctorant : Hatim Chahdi
Sujet de thèse : Qualité des données et des connaissances et contrôle de l’apprentissage collaboratif


2010 – 2014 : Thèse (participation au co-encadrement)
Doctorant : Mohamad Ghassany
Sujet de thèse : Contributions To Collaborative Clustering
 

2020 : Stage d’initiation à la recherche M2Recherche
Stagiaire : Yassine Akrach
Durée : 4 mois
Sujet de stage : Few-Shot Learning for Text data


2019 : Stage d’initiation à la recherche M2Recherche
Stagiaire : Ahmed ZAIOU
Durée : 6 mois
Sujet de stage : Apprentissage artificiel non-superrvisé quantique


2018 : Stage d’initiation à la recherche M2Recherche
Stagiaire : Sofiya KOBYLYANSKAYA
Durée : 6 mois
Sujet de stage : Analyse statistique des données linguistiques, détection des sentiments à partir des textes


2017 : Stage d’initiation à la recherche M2Recherche
Stagiaire : Svitlana Kalashnyk
Durée : 6 mois
Sujet de stage : Apprentissage à base de reseuax de neuronnes pour le traitement de données textuelles


2016 : Stage d’initiation à la recherche M2Recherche
Stagiaire : Taofik Lawal
Durée : 6 mois
Sujet de stage : Détection des Opinions à partir de données “tweets”


2013 : Stage d’initiation à la recherche M2Recherche
Stagiaire : Aboubakr Taleb
Durée : 6 mois
Sujet de stage : Apprentissage Incrémental appliqué au flux de données


2012 : Stage d’initiation à la recherche M2Recherche
Stagiaire: Bartcus Marius
Durée : 5 mois

Sujet de stage : Factorisation matricielle pour l’apprentissage par transfert


2011 : Stage d’initiation à la recherche M2Recherche
Stagiaire : Altinisik N.
Durée : 5 mois
Sujet de stage : Classification non supervisée distribuée et directionnelle


2009 : Stage d’initiation à la recherche M2Recherche
Stagiaire : Kahina Aouicha
Durée : 5 mois (stage en cours)
Sujet de stage : L’anonymat et la Classification non-supervise collaborative.


2008 : Stage d’initiation à la recherche M2Recherche
Stagiaire : Massinissa Chelli
Durée : 5 mois
Sujet de stage : Discrétisation de données à travers une pondération locale en apprentissage non-supervisé.


Rayonnement

 

Membre de Sociétes Scientifiques
1. IEEE, http://www.ieeefrance.org/
2. International Neural Network Society (INNS)
3. Société Francophone de la Classification (SFC), http://www.sfc-classification.net/
4. Société Française de la Statistique (SFDS), http://www.sfds.asso.fr/
5. Membre fondateur du groupe INNS – Autonomous Machine Learning (AML), http://autonomoussystems.

 

Collaborations scientifiques
1. Collaboration avecWashington State University (Ellensbourg, USA) - co-encadrement et professeur invité
2. Collaboration avec l’Université de Kobe (Japon), à partir de 2011,

3. Collaborations dans le cadre du PRES Sorbonne Paris Cité avec LIPADE, l’Université Paris Descartes et le SYLED, Université Sorbonne Nouvelle ;
4. Collaboration avec le laboratoire “HUMAN LANGUAGE ENGINEERING LABORATORY”, Université Technique de Moldavie, Chisinau, Moldavie, à partir de 2011;
5. Collaborations avec Tokyo Institute of Technology, Japan et le Department of Electrical and Electronic Engineering at Graduate Scool of Engineering, Kobe Univerity, Kobe, Japan (co-organisations de plusieurs manifestations)
6. Collaborations avec Middlesex University, London, UK, avec Charles Sturt University, Bathurst, Australia, avec Bournemouth University, Dorset, UK.
7. Collaboration avec Transylvania University (Brasov, Roumanie) : organisation d’une ecole d’été et une Projet AUF commun;

 

Invitation dans des universités étrangères
1. Professeur invité à l’Université Technique de Moldavie, septembre 2020 (Projet AUF)
2. Séjour scientifique à Ellensburg State University, WA, USA, mai-juin 2017
3. Séjour scientifique à l’Université de Kobe (Japon), mars 2016,
4. Invitations pour un séjour scientifique à Vyatka State University, Kirov (Russie), mars 2013;
5. Séjour scientifique à l’Université Technique de Moldavie (septembre 2011), laboratoire LILU, Moldavie: travaux sur la reconnaissance automatique de la parole;
6. Invitation à l’Université Washington University in St. Louis, ‘Division of Bioinformatics and Outcomes Research, Department of Radiaiton Oncology’, USA, juin 2009;

 

Comités de rédaction
1. Transactions on Neural Networks, à partir de 2017
2. Journal Kowledge and Information Systems, à partir de 2015,
3. Journal of Neural Networks, à partir de 2012
4. Conférences IJCNN, WCCI, ICONIP, AICIT, KDIR, SFC, Cap, EGC.

 

Valorisation et responsabilités scientifiques
Résponsabilités scientifiques :
2016 - 2021 Membre du Comité d’Experts section 27 de l’Université Paris 13
2016 - présent Membre de la Commission Relations Internationales du LIPN CNRS UMR 7030
- Co-organisateur d’une ecole d’été internationale et plusieurs ateliers internationaux
- Réalisation de logiciel de recherche : En collaboration avec THALES S.A. j’ai participé au développement d’un système de recherche d’information visuelle.
- Concours International : Participation au Challenge Internationale sur l’Apprentissage non supervisé et par Transfert (Unsupervised and Transfer Learning Challenge) classé 5ième: http://www.causality.inf.ethz.ch/unsupervised-learning.php?page=results#cont
- Responsable du Groupe de Travail International ‘Autonomous Machine Leanring Special Interest Group’ (dans le cadre de la société INNS) qui compte plus de 100 membres (depuis sa création en 2010).
- Renforcement d’un nouvel axe de recherche dans l’équipede recherche A3 de LIPN : Apprentissage non supervisé collaboratif et évolutif
 

Tutoriels :
1. Topological and Graph clustering, International Joint Conference on Neural Networks, IJCNN 2017, Alaska USA
2. Topological and Graph-based clustering : Recent algorithmic advances, (Tutorial) - 23th International conference on neural information Processing (ICONIP 2016), 19 October, Kyoto : R. Kanawati, N. Grozavu
3. Tutoriel ‘Topological Collaborative Learning’ at 2nd ALML workshop, Kilarney, Ireland : N. Grozavu

 

Organisation de manifestations scientifiques
1. Organisation du 6eme edition du workshop ALML2020 (International Workshop on Advances in Learning from/with Multiple Learners), IJCNN’20, Edinbourg – Scotland, July 2020, Online
2. Organisation du workshop Machine Learning : methods and applications, ECCO’19, Chisinau – Moldova, October 2019

3. Organisation du 5eme edition du workshop ALML2019 (International Workshop on Advances in Learning from/with Multiple Learners), IJCNN’19, Budapesta – Hungary, July 2019
4. Co-organisation de l’ecole d’été internationale Machine Learning and Applications, Brasov – Romania, July 2019
5. Organisation du workshop ALML2018 (InternationalWorkshop on Advances in Learning from/with Multiple Learners), WCCI - World Congres on Computational Intelligence 2018, Rio de Janeiro – Bresil, July 2018
6. Organisation du workshop ALML2017 (InternationalWorkshop on Advances in Learning from/with Multiple Learners), IJCNN’17, Alaska – USA, Mai 2017
7. Membre du Comité d’Organisation de la Conférence AAFD-SFC, 2016 – Marrakesh (Maroc)
8. Organisation de la Session Spéciale “Topological and Graph Based Clustering Methods”, ICONIP 2016
9. Organisation du workshop ALML2014 et ALML2016 (International Workshop on Advances in Learning from/with Multiple Learners)
10. Membre du comité d’organisation de la Session Spéciale “Special Session on Active Learning and Experimental Design (ALED)”, IJCNN 2013.
11. Organisation de la Session Spéciale “Incremental Machine Learning: Methods and Applications (IML’2013)”, International Joint Conference on Neural Networks, Dallas, USA, 2013;
12. Organisation de la Session Spéciale “Co-Clustering of Large and High Dimensional Data”, International Conference on Neural Information Processing, Doha, Qatar;
13. Organisation de la Session Spéciale “WCCI 2012 Special Session on Nonnegative Matrix factorization paradigm for unsupervised learning”, World Congress on Computational Intelligence 2012, Australia
14. Co-organisation de la Session Spéciale ‘Combining Multiple Learners’ à ICONIP 2011 (2011 International Conference on Neural Information Processing ), Shanghai, China: http://iconip2011.sjtu.edu.cn/S8.html
15. Organisation de la session spéciale “Automated Supervised and Unsupervised Learning" à IJCNN 2011 (International Joint Conference on Neural Networks), San José, USA: http://www.ijcnn2011.org/special_section.php

16. Organisation de la session spéciale pour la conférence ICNNAI (International Conference on Neural Networks and Artificial Intelligence), 2010: Incremental Topological Learning Models and Dimensional Reduction (https://sites.google.com/site/itlmdm/).
17. Membre du comité d’organisation de l’école d’hiver sur le thème “ Apprentissage Statistique et Data Mining ” (http://sites.google.com/site/ecoleegc/), Hammamet, Tunisie 2010;

 

Membre de comités de sélection
1. Membre du comité de sélection du poste de MCF (section 27) au département d’Informatique,
Institut Galilée, Université Paris 13, 2013, (27MCF0242)
2. Membre de la commission ad hoc du poste PRAG (math-info) au département GMP,
l’IUT de Saint-Denis, Université Paris 13, (CMP: PRCE 0410)
3. Membre du comité de sélection du poste de MCF (section 26) au département IMATH,
équipe pédagogique SB (Statistique et Bioinformatique), CNAM, 2012, (27MCF4043)


Membre du comité éditorial et de programme
1. Membre du comité éditorial du “Journal of Pattern Recognition In Physics” (http://www.patternrecognition-
in-physics.net)
2. AICIT conférences (http://www.aicit.org/)
3. World Congress on Computational Intelligence
4. International Joint Conference on Neural Networks

 

 

Participation à des projets de recherche

Projet industriel avec ALTECA (2021-2024) - Responsable du Projet
Titre : Emotional Response Recommendation for context-aware affective systems.
Dans un monde où de plus en plus d’entreprises se tournent vers l’automatisation de leurs services, notamment autour de la relation client, l’expression de sentiments et d’émotions dans la génération de réponses améliore grandement l’engagement et la satisfaction de l’utilisateur. Nous proposons donc d’étudier une solution pour aider à la génération de réponses semblables à celles des humains par des systèmes capables de détecter dans un premier temps l’émotion de la personne en face soit à travers la voix, la vidéo ou le texte puis d’identifier l’émotion la plus appropriée à adopter (empathie) et enfin générer la réponse associée.

 

Projet industriel avec Fi Group (2021-2024) - Responsable du Projet
Titre : Apprentissage non supervisé profond de représentations de données évolutives
La problématique de ce sujet de recherche, s’inscrit dans le cadre de la modélisation de
données multimodales complexes et dépendantes évoluant dans le temps, notamment
de données textuelles hétérogènes en utilisant également des approches de clustering
évolutif. L’objectif de cette étude est d’explorer et d’étendre les techniques de
réduction de dimension complexes réalisées par des réseaux profonds pour les combiner
à des approches statistiques de modélisation séquentielle afin de concevoir des
systèmes de modélisation, prédiction, segmentation (clustering), et génération de données
complexes évolutives. On envisagera les différentes possibilités offertes par des
modèles profonds. Une première piste sera d’adapter les réseaux de neurones à poids
partagés, assez populaires il y a une dizaine d’années pour la reconnaissance de la
parole. L’extension de ce type de modèles par la multiplication des couches est assez
naturelle, bien qu’elle pose des questions non triviales. Egalement, on peut envisager
des modèles hybrides à base de factorisation matricielle et réseaux profonds, ces
derniers calculant un état du processus par une réduction de dimension non linéaire,
les méthodes matricielles spécifiant l’architecture.
Projet AUF : Modèles intelligents pour améliorer le processus d’apprentissage
(2019-2021) - Porteur du Projet
Ce projet de recherche vise à proposer une approche innovante permettant une analyse
de données textuelles et vidéos émotionnelles pour l’évaluation des cours en ligne
(MOOC) en rassemblant une équipe multidisciplinaire constituée essentiellement de
jeunes chercheurs. Il s’agira d’identifier et d’analyser automatiquement l’état cognitif
et émotionnel des étudiants qui suivent un MOOC par l’intermédiaire d’un espace
d’expression textuelle associé au MOOC. L’originalité du projet consiste à combiner
des connaissances issues de la psychologie cognitive à la puissance des méthodes
d’apprentissage automatiques afin de prendre en compte les phénomènes contextuels
dans l’expression écrite libre dans le but de détecter les effets directs du cours en ligne
sur les étudiants.
Projet industriel avec l’entreprise Synaltic (2019-2022) - co-responsable du Projet
Titre : L’Apprentissage Artificiel au service de la qualité de données
Ce projet de recherche (dans le cadre de la thèse CIFRE avec l’entreprise Synaltic)
propose une approche novatrice, s’appuyant sur l’intelligence artificielle, une découverte
des contraintes sur les données sera développée avec comme objectif de pouvoir
corriger les données (des algorithmes de correction efficaces existent déjà mais nécessitent
des informations qui pour l’instant ne peuvent être fournies que de manière
humaine).

 

ANR Pro-TEXT (2019-2023) - co-Porteur local
Pro-TEXT (Processes of Textualization: Linguistic, Psycholinguistic, and Machine
Learning Modeling) is an innovative interdisciplinary project putting under scrutiny
a new research object, the dynamics of the textualisation process. The aim is to
elucidate the way a complex and globally constrained unit, the text, is built out of
simple and locally constrained linguistic units. For this, we will conduct pioneering
research on the recurrent features of bursts of writing in French (a burst is a linguistic
sequence produced between two pauses, e.g.: [pause] une cousine qui [pause] peut venir
partager du temps avec elle pendant [pause] le [pause] w [pause] eek [pause] – [pause]
end. [pause]). We will combine multi-parametric linguistic description, behavioural
data (pauses, chronometry), and machine learning algorithms. This approach will
lead to a comprehensive linguistic analysis by providing insights into the relation
between incremental regularities of the textualisation process and the cognitive and
contextual constraints of language performance. Furthermore, the Pro-TEXT project
will develop methods and tools to model these regularities and provide evidence about
patterns of text processing.
PEPS-CNRS MultiText (2017-2018) - co-Porteur du projet
Le Projet que j’ai co-dirigé avec M. Guénaël Cabanes porte sur Apprentissage Artificiel
Multi-Vues pour l’Analyse de Textes. La fouille de textes suscite une forte attention
ces dernières années en raison des grands volumes de données disponibles, les applications
de tchats ou encore les forums web. L’analyse de ces données présente de
nombreuses difficultés liées à la fois à leur important volume, mais surtout à leur
caractère hétérogène et distribué. Ce projet s’inscrit dans la dynamique actuelle
d’analyse de données issues de différent sources et a pour objectif de combiner des techniques
d’analyse de données dynamiques et multi-vues avec des techniques d’analyse
d’émotions et d’expressions dans les corpus de textes. L’objectif de ce projet est de
mettre au point des méthodes d’apprentissage non-supervisé efficace pour l’analyse
de ces données, de façon à détecter de façon dynamique des tendances ou des changements
comportementaux.
ANR COCLICO (2012-2016)
Le projet COLCICO (COllaboration, CLassification, Incrémentalité et COnnaissances)
est un projet de recherche visant à étudier et proposer une méthode générique innovante
permettant une analyse multi-échelle de grands volumes de données spatiotemporelles
fournies en continue de qualité très variable, mettant en oeuvre une approche
multi stratégie incrémentale dans laquelle la collaboration entre les différentes
méthodes de fouille de données sera guidée par des connaissances à la fois du domaine
thématique (Géosciences, Géographie) formalisées en ontologies et du domaine

de l’analyse (connaissances sur les méthodes), et garantissant un objectif de qualité
finale prenant en compte à la fois la qualité des données et celles des connaissances.
FUI HERMES (2012-2015)
Membre du Comité Scientifique de HERMES et responsable de la tache de ‘Derive de
concepts’ Le projet HERMES (RELATION CLIENT PERSONNALISEE ET CONTEXTUALISEE)
a pour objectif de construire une plate forme de marketing contextuel
générique, modulaire, industrialisée et automatisée capable :
1. D’extraire des données provenant de tous les canaux (caisse, web, email, centre
d’appel, réseaux sociaux, devices ... )
2. De déterminer les contextes d’achat du client ainsi que les canaux pertinents
d’interaction avec ce client
3. De communiquer avec les systèmes opérationnels sur tous les canaux (notamment
avec les devices en magasin et les réseaux sociaux ... )
PEPS-CNRS AIDEM (2012-2014) - Porteur du projet
AIDEM est un projet de recherche visant à proposer une méthode innovante permettant
une analyse de grands volumes de données textuelles émotionnelles en temps réel
issus des forums de discussions. Ce projet a aussi comme but la détection et la caractérisation
de l’évolution temporelle des émotions (la caractérisation de bi-clusters
évolutifs). L’originalité du projet consiste à proposer des méthodes incrémentales susceptibles
de prendre en compte, d’une part, les dynamiques du discours et, d’autre
part, les phénomènes contextuels. Il s’agira par exemple d’identifier des constellations
émotionnelles et d’étudier leur évolution au fil d’un forum de discussions.
JCJC INS2I 2015 A3FD (2015) - Porteur du projet
A3FD est un projet de recherche visant à proposer des méthodes innovantes pour
l’analyse autonome de grands volumes de données temporelles en rassemblant une
équipe constituée de deux jeunes chercheurs. Ces méthodes devront permettre la
détection et la caractérisation de l’évolution temporelle des clusters en choisissant de
manière autonome les valeurs optimales des paramètres des algorithmes. Ce type
de méthodes n’existe pas actuellement malgré un besoin important. Nous validerons
les méthodes proposées sur des données applicatives réelles pour l’identification de
groupes d’opinions et d’expressions émotionnelles à partir de données de types tweets
et l’étude de leur évolution dans le temps.
ANR E-FRAUD BOX (2010-2013)
Le projet E-fraud Box vise à développer une boîte à outils intégrée, dédiée à la détection
et à l’investigation de la fraude à la carte bancaire sur Internet. Cette boîte à

outils est basée sur : des algorithmes d’apprentissage capables de modéliser les comportements
frauduleux, de suivre la dynamique de la fraude dans le temps et d’étudier
les interactions entre les transactions. des moteurs de détection et d’investigation de
la fraude combinant les résultats des modèles. Les moteurs seront utilisés pour :
construire des faisceaux d’indice caractérisant des comportements frauduleux et des
scénarios de fraude, identifier les nouveaux modes opératoires des fraudeurs.
ANR CADI (2008-2010)
Le projet CADI (Composants Avancés pour la Distribution) vise à produire un prototype
de composants logiciels pour la Distribution, tant brick-and-mortar (magasins)
que vente en ligne (site de e-commerce). Nos recherches se situent dans les axes:
Analyse de comportement d’achat et l’Analyse des communautés.
ANR Infom@gic (2007-2010)
Infom@gic, un projet sur une période de trois ans, a eu le but de mettre en place un laboratoire
industriel de sélection, de tests, d’intégration et de validation d’applications
opérationnelles des meilleures technologies franciliennes dans le domaine de l’ingénierie
des connaissances. Ce laboratoire s’appuie sur une plate-forme commune qui couvre
les grands domaines de l’analyse d’information quelles que soient les sources (données
structurées, texte, images et sons) :
– la recherche et l’indexation;
– l’extraction de connaissances;
– la fusion d’informations multimédias.
Elle inclue des applications pour les secteurs de l’e-Education et de la gestion des
patrimoines culturels numériques. Notre rôle: Nos recherches dans le cadre du ce
projet se situent dans l’axe ‘Fusion d’information multimodales’.