Doctorants 1ère année

Student: Maha ELBAYAD
Advisor: Laurent BESACIER, Jakob VERBEEK
Title: Cross-lingual image captioning using recurrent neural networks and attention models
Summary:
Keywords: Deep learning, recurrent neural networks, caption generation, sequence-to-sequence

Student: Loïc VIAL
Advisor: Benjamin LECOUTEUX, Didier SCHWAB
Title: Modèles joints de clarification de texte et de traduction automatique statistique
Summary:
Keywords: désambiguïsation lexicale, clarification de texte, traduction automatique statistique

Student:' Thi Thanh Quynh NGUYEN
Advisor: Christophe BOBINEAU, Nourredine HASJSAID, Vincent DEBUSSCHÈRE
Title: integration du renouvelable dans les reseaux electriques vietnamiens par le developpement de solutions Smart Grids : orientation vers le milieu urbain et les smart City
Summary:
Keywords:

Student: Asma ZGOLLI
Advisor: Christine COLLET, Houssem CHIHOUB
Title: Gestion des métadonnées dans un système de gestion de données pour les smart grids
Summary:
Keywords: Meta-données, Data lakes, Découvertes et transformation de schémas

Student:' Seydou DOUMBIA
Advisor: Marie-Christine FAUVET, Lorraine GOEURIO
Title: Vers un système de recherche d'information médicale adapté à la langue, aux connaissances des utilisateurs
Summary:
Keywords: Recherche d'information médicale, RI multilingue, langues peu dotées

Student: Anuvabh DUTT
Advisor: Georges QUENOT, Denis PELLERIN
Title: Incremental learning for visual recognition
Summary:
Keywords: Deep learning, computer vision, machine learning

SLIDE

Pas d'étudiants cette année.

Student:' Aline MENIN
Advisor: Paule-Annick DAVOINE, Luciana NEDEL, Sonia CHARDONNEL
Title: Environnement géovisuel pour l'aide à l'analyse de données spatio-temporelles de mobilité individuelle
Summary:
Keywords: Données spatio-temporelles, Géovisualisation, Géomatique, Modèles d'interactions spatio-temporelles, mobilité des individus, dynamique urbaine

Student: Lina TORO
Advisor: Marlène VILLANOVA-OLIVER, Vincent BONNETERRE
Title: Développement d’un outil interactif de visualisation et d’analyse spatiale des données de santé au travail à des fins de vigilance sanitaire
Summary:
Keywords:

Student: Clément CHAGNAUD
Advisor: Paule-Annick DAVOINE, Elisabetta CARPITELLI, Philippe GARAT

Title: Méthodes et outils de géovisualisation et d'analyse spatiale exploratoire pour les humanités numériques: application aux données cartographiques anciennes de l’Atlas Linguistique de la France
Summary:
Keywords: Méthodes et outils de géovisualisation et d'analyse spatiale exploratoire pour les humanités numériques: application aux données cartographiques anciennes de l’Atlas Linguistique de la France

2016

Student: Yagmur CINAR
Advisor: Eric GAUSSIER, Parantapa GOSWAMI
Title: Contextualized information retrieval for support centers
Summary:
Keywords: contextualized information retrieval, time series analysis, dynamic information retrieval

Student: Simon MOURA
Advisor: Massih-reza AMINI
Title: Multi-target Learning and Applications
Summary:
Keywords: Multi-target Learning, Multi-task learning, multiclass classification, recommender systems / Machine learning, heterogeneous outputs, interdependent outputs

Student: Diana POPA
Advisor: Eric GAUSSIER, James HENDERSON
Title: Textual entailment through syntax-based tensor factorization
Summary:
Keywords:

Student: Vera SHALAEVA
Advisor: Ahlame DOUZAL, Cécile AMBLARD, Gilles BISSON
Title: Temporal Decision Trees for Time Series Analyzes
Summary: Our PhD thesis concerns the domain of Machine Learning and aim at designing Decision Tree algorithms adapted to handle with large temporal dataset. On the one hand, Time series (i.e. sequences of successive measurements made over a time interval) are observed in a growing number of domains: medicine (quantified self), biology (gene profile), engineering (energy consumption).... On the other hand, Decision Trees are an interesting approach providing a decision model with high level of interpretability for the users. Our goal is to improve the temporal decision tree in term of computational complexity, performance and interpretability. This PhD thesis is part of IKATS project that is a Research and Development project founded by the french government in the frame of PIA program.
Keywords: time-series, machine learning, classification, decision trees

Student: Sumit SIDANA
Advisor: Massih-reza AMINI
Title: Filtrage collaboratif en ligne: application à la publicité programmatique
Summary: "The web, they say, is leaving the era of search and entering one of discovery. What's the difference? Search is what you do when you are looking for something. Discovery is when something wonderful that you didn't know existed, or didn't know how to ask for, finds you." Internet and mobile advertising has become a major economic challenge for on-line advertising companies. Various challenges include mega-sparsity, user-adaptivity, user-cold start, Spam and scalability of solutions. In such a scenario, conventional collaborative filtering systems fail to perform optimally. We hope to design next generation of recommender systems by leveraging multi-target learning, learning to rank, probabilistic frameworks, deep learning and hybrid systems. We evaluate our algorithms on the data provided by Kelkoo, Purch and RecSys-2016 competition. In this talk we are going to discuss state of the art, data specificity, challenges and achievements.
Keywords: Publicité programmatique, Systèmes de recommandation, Apprendre à ranger, Apprentissage multi-cibles, Apprentissage automatique

Student: Saeed VARASTEH YAZDI
Advisor: Ahlame DOUZAL
Title: Representation Learning for time series Classification and Clustering
Summary: Supervised or unsupervised classification of multivariate time series arise in a natural way in a lot of domains, especially in emerging applications such as sensor networks, social networks, smart buildings or Internet of things. In real applications, temporal data originating from the same sources or measuring the same phenomenon are often noisy and tend to have extremely variable timing of their salient features. Temporal features may be irregular with dependencies that evolve in nature and on time. Finally, temporal data may exhibit extremely different global behaviors while sharing latent local features. Many machine learning algorithms are available to learn deep hierarchies and representations from structured data, principally from images. This thesis will address the problem of learning latent representations from multivariate temporal data. For this, we propose to study sparse coding and dictionary learning approaches and algorithms that rely on unsupervised feature learning and learning metrics to extract latent representations pertinent for multivariate time series classification and clustering.
Keywords: unsupervised feature learning, sparse coding, dictionary learning, time series classification

EXMO

Pas d'étudiants cette année.

Student: Liliya TSVETANOVA
Advisor: Patrick REIGNIER, Véronique AUBERGÉ
Title: Augmenter un robot de service de « glu » socio-affective : devenir compagnon, le robot médiateur dans l’isolement social des personnes âgées
Summary: Dès qu’un robot est introduit dans l’écosystème numérique de l’humain, quel que soit son rôle (le robot non-humanoïde et non-animaloïde Diya One de la société Partnering Robotics est purificateur d’air), le comportement du robot lié à sa tâche le fait percevoir implicitement communicant : le comportement multimodal (signaux émis, direction de la vision, proxémie, mouvements) inscrit le robot dans une augmentation de l’espace socio-relationnel de l’humain, lui donnant des fonctions socio-affectives. Cette thèse se situe dans le contexte de l’isolement social des personnes âgées, désentrainées à la dynamique des liens socio-affectifs, en particulier dans les institutions (EHPAD) où la communication endommagée est un problème dont les conséquences sont directes sur la santé physique et psychologique des personnes. Le but de cette thèse est de doter le robot Diya One d’une intelligence socio-relationnelle, construisant une « glu » socio-affective positive, contribuant comme médiateur au réentrainement des personnes âgées à la création et au maintien des liens communicatifs avec les personnes de leur environnement. La méthodologie suivie est fondamentalement expérimentale, en écologie réelle (méthodes Living Lab) par la mise en place de scénarios in situ pour le recueil de corpus évolutifs en magicien d’Oz « en immersion ». Ainsi seront co-construits, autour des personnes observées, par le partenariat des acteurs académiques, industriels et sociétaux, les comportements interactionnels et les dispositifs sensori-moteurs pour les compétences socio-affectives de Diya One dans ces situations d’isolement social.

A partir de ces corpus, les systèmes évolutifs d’interaction (reconnaissance de parole, mais aussi de micro-bruits, c’est-à-dire de valeurs d’attachement, et production de comportement sonore et visuelle-lumières, mouvement, etc.) seront des systèmes hybrides experts/machine learning, dont il s’agira de faire évoluer expérimentalement le degré d’hybridation et évaluer ses performances, entre zéro expertise (qui posent alors le problème du renforcement ou pas) et l’expertise la plus complète (donc la plus réductionniste) dérivée de l’analyse experte du corpus à partir des hypothèses théoriques sur la nature et la dynamique de la « glu » socio-relationnelle. La nature de ces modèles sera un focus important de cette thèse, sachant que l’adaptation de modèles état de l’art de reconnaissance vocale a déjà donné de premiers résultats encourageants (thèse de Yuko Sasa, système SASI). Les modèles privilégiés seront ceux qui permettent une interprétation des états appris (cf. travaux en ce sens sur les DNN par exemple). Ces modèles testés seront entrainés sur les données du corpus écologique, et leur évaluation sera menée en fonction aussi d’une interprétation éventuelle des contenus des modèles appris.
Keywords: robotique sociale, silver économie, Affective Computing, communication para-linguistique, expérimentation écologique, isolement social

Student: Mohamed-moneim ABDOURAHAMANE
Advisor: Hervé BLANCHON, Valérie BELLYNCK, Christian BOITET
Title: Comment équiper le comorien, une macro-langue très peu dotée sans aucunes ressources informatisées ni corpus écrit
Summary: La langue comorienne (shikomori—km), proche du swahili, est la langue nationale de l’Union des Comores. Les députés doivent savoir le lire, l’écrire et le parler, ainsi que l'une des deux autres langues officielles (le français et l’arabe). L’enseignement préélémentaire est en comorien, et ensuite l’enseignement est seulement en français. Hors de l’école, la grande majorité de la population ne parle que le comorien, si bien que les comorophones adultes ont souvent du mal à comprendre les documents officiels et professionnels.

En fait, le comorien est une macro-langue constituée de quatre dialectes (shingazidja—zdj, shindzuani-wni, shimwali-wlc, shimaoré-swb). Elle fait partie des langues très peu dotées, car il n’y a pas de ressources linguistiques ni d’outils la concernant : ni corpus, ni dictionnaires, ni correcteurs, ni systèmes de traduction automatique (TA). Elle est relativement proche du swahili, dont elle s’est séparée vers le XIII° siècle.

Nous avons deux objectifs principaux : (1) construire des applications utiles pour les comorophones, et (2) mettre les ressources et outils construits pour cela à disposition des chercheurs de la communauté scientifique (comme ceux de CST). En ce qui concerne les applications, nous visons d’abord la réalisation d’un outil de lecture active du français pour les comorophones, et ensuite la construction d’un système de TA français-comorien. Ces deux applications nécessitent d’abord la construction d’un corpus parallèle français-comorien, et d’un dictionnaire actif français-comorien.

La méthode actuelle utilisée pour construire des corpus parallèles pour d’autres couples de langues peu dotés (par exemple, français-swahili ou français-chinois) consiste à post-éditer (PE) en ligne les prétraductions produites par un système de TA existant. Mais on ne peut pas l’utiliser dans le cas du comorien, puisqu’aucun système de TA ne le traite. En attendant d’avoir construit un premier système de TA allant vers le comorien, nous utilisons des résultats de TA produits par Google Translate en swahili. Le swahili est employé ici non pas comme une langue pivot, mais comme une langue cible auxiliaire .

En utilisant l’environnement SECTra/iMAG de notre laboratoire, nous avons produit en 4 mois un corpus français-shingazidja formé de 40 articles du journal Alwatwan (1035 segments, 18394 mots, 74 pages standard de 250 mots). Nous visons d’arriver à environ 200 pages (50000 mots) fin 2016. Ce corpus parallèle est disponible gratuitement sur demande (par export depuis une iMAG liée au site comorien.imag.fr). S’ils le désirent, des chercheurs en CST peuvent dès maintenant ajouter d’autres langues, comme l’anglais et le swahili.

Parallèlement, nous avons commencé à extraire de ce corpus des correspondances lexicales bilingues, en vue de les stocker dans une base lexicale, d’y ajouter les données des dictionnaires et lexiques ouverts existants, puis d’en extraire les données utiles à toute application de lecture active.

En ce qui concerne l’évaluation de la qualité du corpus, il s’agit pour l’instant d’autoévaluation par l’unique post-éditeur, qui donne (dans SECTra) un score de qualité à chaque segment post-édité. Nous espérons que d’autres chercheurs amélioreront cette évaluation dans le futur, en relisant les couples (segment source, segment cible post-édité), en modifiant éventuellement la note, et éventuellement en améliorant eux-mêmes le résultat.
Keywords: équiper, construction, corpus parallèle, mise à disposition des ressources, lecture active, traduction automatique, français, comorien, swahili

Student: Marwa HADJ SALAH
Advisor: Hervé BLANCHON, Didier SCHWAB
Title: Acquisition, exploitation et enrichissement d’une ressource lexicale multilingue pour et par la clarification de texte
Summary: La clarification de texte est une tâche centrale du traitement automatique des langues. Il s'agit de lever un certain nombre d’ambiguïtés dont la désambiguïsation lexicale qui consiste à trouver pour un mot donné son sens le plus pertinent. Pour cela, elle exploite des ressources lexicales (bases lexicales, corpus, corpus annotés en sens, ...). Nous étudions comment réaliser de la clarification lorsque peu de ressources existent pour une langue donnée (langues dites peu dotées).
Keywords: clarification de texte, désambiguïsation lexicale, langue peu dotée

Student: Elina LEBLANC
Advisor: Hervé BLANCHON, Elena PIERAZZO
Title: Bibliothèques enrichies: les utilisateurs et leurs interfaces
Summary:
Keywords: Humanités numériques, Web collaboratif, Interfaces, Traitement automatique des langues naturelles, Bibliothèque numérique, Etudes d'usage

Student: Sylvain MAHE
Advisor: Patrick REIGNIER, Véronique AUBERGÉ, Ramesh CAUSSY
Titre: Émergence socio-communicative à partir des contraintes sensori-motrices actives et fonctionnelles d’une flottille de robots en immersion écologique
Title: Utilitary robots in a micro-society: emergence and control of socio-communicative interpretation mecanisms between humans and robots.
Résumé: Donner un rôle et une apparence non humanoïde à un robot élude les risques directs de la vallée de l’étrange. Cependant dès qu’une machine, même non humanoïde, est perçue comme une entité [[1]] - un robot – l’anthropomorphisation d’états mentaux, intentionnels et affectifs est inévitable ([[2]]). Ainsi les comportements du robot, directement induits par ses contraintes sensori-motrices et ses fonctions utilitaires, seront interprétés par les humains de l’environnement où se déplacent les robots. On peut supposer que ces interprétations, cad la personnalisation dynamique du robot, seront dépendantes du rôle rempli par le robot et par la nature et la diachronie de la relation qui s’établit, inévitablement également, entre le robot et l’humain1 (pas de rôle sans glu socio-affective, pas de glu sans rôle). Augmenter l’espace social d’une micro-société dédiée à une activité sociétale (une entreprise, un EPAHD etc) par une flottille de robots globalement identiques dans leurs fonctions, leurs formes et leur comportement, pose en plus le problème de la variation de personnalisation à l’intérieur d’un rôle : quelles micro-variations peuvent engendrent des perceptions majeures de différences de personnalisation.

Cette thèse a pour but de construire, à partir de corpus recueillis écologiquement in situ, un système capable de maintenir de manière optimale les fonctions utilitaires des Diya One, tout en contrôlant, par émergence depuis les interactions basses, les événements implicitement ou explicitement communicatifs en fonction des critères d’acceptabilité/intégration sociale/personnalisation exprimés in situ par les participants des expériences. Ainsi au-delà du rôle fonctionnel de Diya One, en incitant les personnes à interagir avec Diya One chacune dans leurs fonctions (hébergé, soignant, aidant), c’est un rôle tendant à la médiation socio-affective qui est attendu comme émergeant des ponts communicatifs bas établis par Diya One entre les personnes hébergées et le personnel accompagnant.
Mots-clefs: robotique sociale, silver economy, Affective Computing, communication para-linguistique, expérimentation écologique, machine learning, apprentissage développemental
Keywords: Social robotics, silver economy, Affective Computing, paralinguistic communication, ecological experimentation, machine learning, developmental learning

HADAS
Pas d'étudiants cette année.

Student: Maxime PORTAZ
Advisor: Jean-Pierre CHEVALLET, Philippe MULHEM
Title: Représentation compacte d'image pour la recherche d'instance en mobilité
Summary: La recherche d’instance dans le cas des images est décrite par : étant donné une image soumise par un utilisateur, le système doit déterminé si l’objet représenté est présent dans la collection. Cette thèse s’inscrit dans le cadre du projet GUIMUTEIC, qui vise à définir un casque audioguide destiné aux musées. Ce casque est équipé d’une caméra pour détecter l’objet que l’utilisateur regarde, afin de fournir la description correspondante.

Mon contexte de recherche est en mobilité, avec les contraintes que cela entraîne : la puissance de calcul et la mémoire sont limités. Dans ce contexte, il faut construire une représentation des images qui soit à la fois compacte et discriminante, afin d’obtenir de bons résultats.

Les méthodes actuelles de l’état de l’art de la recherche d’instances se découpent en deux catégories : celles à base de descripteurs ingéniérés ou de descripteurs appris. Le descripteur SIFT fait partie des descripteurs ingéniérés les plus performants existants. Il a cependant deux désavantages pour la mobilité : un temps de calcul et une occupation mémoire importante. Pour remédier au dernier problème, nous avons travaillé sur l’utilisation de sacs de mots de descripteur SIFT. Cette approche est compacte et offre une grande rapidité d’accès, mais perd en précision par rapport aux descripteurs SIFT seuls (CORIA 2016).

Il existe d’autre descripteurs ingéniérés plus légers et peu coûteux en calcul, comme les ORB (Oriented .... ). Nous obtenons avec ORB des résultats moins bon qu’avec les SIFT, mais leur faible taille évite l’utilisation des sacs de mots, et permet des vérifications géométriques.

Les réseaux de neurones profonds (Deep Learning), qui permettent d’apprendre des descriptions d’images, donnent les meilleurs résultats sur la reconnaissance de classe d’image. L’apprentissage de ces réseaux nécessite un grand nombre d’exemples, afin d’apprendre les nombreux (plusieurs millions) paramètres du réseau. Dans le cadre de recherche d’instance, le nombre d’exemple existant n’est pas suffisant, et le nombre de classe trop grand.

La première étape de mon travail a été de comparer ces approches à base de SIFT, sac de mots, ORB et Deep Leaning. Nous avons trouvé des résultats comparables avec les trois approches. La deuxième étape est de vérifier la faisabilité de ses algorithmes avec nos contraintes de mobilité. C’est le travail actuel, qui continuera tout le long de la thèse. D’autres approches à base de réseaux de neurones sont possibles, pour comparer directement des images entre elles, par un apprentissage sur la similarité des images. Ces approches seront étudiées en deuxième année de thèse.
Keywords: Recherche d'information, Vision par Ordinateur, Recherche d'instance

SLIDE

Pas d'étudiants cette année.

Étudiant / Student : Camille BERNARD
Encadrants / Advisors : Jérôme GENSEL, Marlène VILLANOVA-OLIVER, Hy DAO
Title : Spatio-temporal modeling and management of Territorial Statistical Information, within the Web of Data Context
Titre : Modélisation spatio-temporelle et gestion de l’information statistique territoriale à l’heure du Web des données
Résumé : Ce sujet a pour but de contribuer à la sémantisation de l’Information Statistique Territoriale (IST). L’IST est une information complexe, à la fois statistique et géographique, soumise à évolution. Les concepts (et leur définition) engagés lors de la création d’indicateurs statistiques évoluent dans le temps, de même que les méthodes de calcul de ces indicateurs. Egalement, à un même moment, ces méthodes de calcul peuvent varier d’un pays ou d’un organisme à un autre (par exemple, la méthode de calcul du taux de chômage). Enfin, les territoires, plus précisément les divisions territoriales (par exemple, les divisions administratives, électorales) évoluent dans le temps, entrainant des ruptures dans les séries temporelles statistiques. Or, les acteurs des territoires (statisticiens, décideurs politiques, acteurs de l’aménagement du territoire, citoyens…) ont besoin de séries temporelles longues pour analyser l’impact de politiques passées, prendre des décisions dans le présent et envisager le devenir d’un territoire via des scénarios. Dans le cadre de cette thèse, la proposition de nouvelles ontologies et algorithmes de traitement de l’IST est visée. Le couplage de ces outils, dans le paysage dessiné désormais par le Web des données et ses normes, contribuera à l’interopérabilité entre logiciels et améliorera l’échange et la compréhension des données statistiques territoriales et de leurs changements au cours du temps. L’ensemble de ces travaux permettra de doter l’Infrastructure de Données Spatiales STeDI (SpatioTemporal and evolving Data Infrastructure), développée au sein de l'équipe STeamer, d’un module de publication de l’IST dans le Web des données, mais aussi d’une interface d’analyse des données. Ainsi, les acteurs des territoires disposeront d’outils (cartographiques notamment) d’analyse de l’évolution de l’IST au cours du temps et pourront explorer les effets des redécoupages territoriaux en termes de redistribution des données statistiques.
Keywords : Territorial Statistical Information, Territory, Spatio-Temporal Ontology, Spatial Data Infrastructure, Web of Data, Decision Support
Mots-clefs : Information Statistique Territoriale, Territoire, Ontologie Spatio-temporelle, Infrastructure de Données Spatiales, Web des données, Aide à la decision

Student: Camille CAVALIERE
Advisor: Paule-annick DAVOINE, Noha IBRAHIM
Title: Analyse et géovisualisation de tweets pour l'identification de configurations spatiales
Summary: Cette thèse s'articule autour de l'extraction et de l'exploration de l'information contenue dans les tweets pour l'identification de configurations spatio-temporelles dans le contexte particulier des phénomènes météorologiques extrêmes. Twitter constitue une interface via laquelle les utilisateurs peuvent construire, diffuser et commenter de l'information dans de courts messages limités à 140 caractères. Envoyés depuis un Smartphone, ces messages sont susceptibles d'être géoréférencés, c'est-à-dire qu'il est possible d'accéder en temps réel à des informations d'intérêt sociétal qui concernent un espace particulier. Dans le contexte des phénomènes extrêmes, ils fournissent une source intarissable de données numériques de terrain centrées sur l'individu qui interagit avec son environnement perturbé par la survenue d'un événement inhabituel. Ces données offrent la possibilité de porter un nouveau regard sur les phénomènes géographiques et sociaux consécutifs à ces perturbations, construit en dehors des traditionnelles données institutionnelles et enquêtes de terrain qui produisent des données éparses et déconnectées du capteur essentiel que constitue l'individu dans la temporalité de la crise. Néanmoins, l'analyse spatiale des phénomènes géographiques et sociaux qui se produisent pendant ces événements, à partir des tweets, n'est pas sans problème : elle doit s’appuyer sur un contenu sémantique, de qualité variable, peu structuré et hétérogène qui doit être extrait des tweets. Ce contenu est difficilement identifiable et exploitable sans traitement préalable. L'exploitation cartographique des données de tweets est aussi un problème majeur, compte-tenu de la masse de données à traiter. En effet, les constructions cartographiques, qu’elles soient ou non intégrées dans des outils de géovisualisation, ne sont plus adaptées à la représentation de grandes masses de données et ne favorisent plus l’extraction de connaissances. En outre, le tweet n'est pas une donnée qui se suffit à elle-même : il ne représente qu'une partie de la population, on ne peut donc pas affirmer que les tweets capturent un événement dans sa globalité. C'est pourquoi les tweets doivent être recontextualisés à partir de jeux de données experts relatifs à la dynamique de l'événement. La recherche s'attachera donc à mettre en place des chaînes de traitement destinées à extraire du contenu sémantique pertinent, à l'exploiter conjointement avec des jeux de données officiels et à proposer des formes de visualisation cartographiques restituant l'affichage des tweets, de leur contenu et des éléments du contexte physique de crise.
Keywords: Médias sociaux, twitter, extraction d'informations spatio-temporelles, analyse spatiale, géomatique

2015

Student: Hesam AMOUALIAN
Advisor: Eric Gaussier, Mairanne Clausel, Massih-Reza Amini
Title: Latent Topic Models for Big Data
Summary: Numerous pieces of content are currently exchanged in social media, making them an important source of information. For example, people share, per month, 30 billion pieces of content on Facebook and over 5 billion tweets (see for example the site mashable.com). This importance is also reflected in the fact that, when searching for information online, 18% of the users directly search on social media sites (as Twitter, Facebook or blog sites), a proportion constantly growing. Searching, filtering, enriching and organizing this information, as well as being able to rapidly identify important new events, are major challenges faced by researchers from different communities, as information retrieval, data mining and machine learning.

Several approaches have been developed in the past to address these challenges, even though not at the scale and speed required by current data collections and streams. Among these different approaches, the ones based on latent topic/class analysis (as Latent Dirichlet Allocation and their hierarchical extensions) are particularly interesting as they yield state-of-the-art results and allow one to categorize/annotate documents with existing taxonomies (filtering and enriching), to infer new taxonomies or complement existing ones (organizing) and to detect outliers and new events (event detection). However, current latent topic models have two major drawbacks that prevent their use on large-scale collections and high-speed streams: (a) they are mainly static and do not take into account the dynamics of the data, and (b) the inference and learning mechanisms usually rely on Markov Chain Monte-Carlo (MCMC) methods, which are too slow to be used in the big data era. The goal of this project is precisely to address these two problems, by constructing new latent topic models able to handle dynamic data, and by designing new learning and inference methods able to provide good estimates of the parameters of the new models under real-time and one-pass constraints. The models and methods developed and implemented during the PhD will be tested on real data collections and streams.
Keywords: Topic models, LDA, Copulas

Student: Georgios BALIKAS
Advisor: Massih-Reza Amini
Title: Multiview Learning for Sequence Extraction Tasks.
Summary: The thesis aims to study how representation learning methods can be applied to user-generated data in order to extract relevant user representations. The application we are interested in is the generation of user profiles using the past user outputed documents, that is of the core of Coffreo's need. In this line, the models we would like to develop should be able to predict the text a user would write on his profile using the past data he or she has generated
Keywords: Multiview learning, text summarization, Multilingual sentence representation

Student: Adrien DULAC
Advisor: Christine Largeron, Eric Gaussier
Title: Graphical Models for Diffusion in Social Networks
Summary: Modeling how information diffuses in social networks is a difficult task as two dynamics interact at the same time: the one of the information itself, and the one of the network. Recently, several graphical models have been proposed to provide a generative view of the dynamics of the information in a social graph. We intend to extend these moelds with an explicit modeling of the dynamics of the network itself. The complete model should provide explanations (as well as predictive capacities) on how the diffusion process behaves.
Keywords: Graphical models, Block models, Information diffusion, Social networks

Student: Bikash JOSHI
Advisor: Zaid Harchaoui, Massih-Reza Amini
Title: Learning with non-stationary data - application to collaborative filtering
Summary: The thesis aims at studying a new framework for learning with non-stationnary data and developing algorithms able to learn from large volumes of non-stationary data that come from real-life applications. We are particularly interested in learning problems such as collaborative filtering and link prediction in knowledge bases.
Keywords: Collaborative filtering, mutliclass classification

Student: Théo TROUILLON
Advisor: Guilaume Bouchard, Eric Gaussier
Title: Modèles prédictifs pour données relationnelles
Summary: La modélisation statistique de données relationnelles est une approche générique pour effectuer des taches prédictives dans les bases de données. Récemment, les modèles factoriels basés sur une représentation vectorielle latente des entités et des relations ont montrés des résultats prometteurs dans la prédiction de données manquantes dans des bases de connaissances.L'objectif de cette thèse est d'explorer des techniques efficaces de factorisation de base de données pour résoudre des problèmes de prédictions basés sur de grandes quantités de données, issues de sources multiples, tels que les bases de connaissances structurées publiques (DBPedia, Freebase), les données non-structurées (conversations sur les réseaux sociaux, emails, etc.). Une des applications visée est de répondre aux questions posées en langage naturel grâce à une traduction automatique d’un texte en requête dans une base de données.
Keywords: Matrix factorization, relational databases

Student: Belén A. BAEZ MIRANDA
Advisor: F. Portet, C. Garbay, S. Caffiau
Title: Génération de récits à partir de données ambiantes
Summary:
Keywords:

Student: Alexis BRENON
Advisor: M. Vacher, F. Portet
Title: Dialogue vocal en contexte dans un environnement d'assistance à domicile
Summary:
Keywords:

Student: Jeremy FERRERO
Advisor:L. Besacier, D. Schwab
Title: Détection de plagiat cross-lingue
Summary:
Keywords:

Student: Elodie GAUTHIER
Advisor:L. Besacier, S. Voisin (DDL Lyon)
Title: Traitement automatique de la parole pour l'aide à la description de langues africaines
Summary:
Keywords:

Student: Ngoc Tien LE
Advisor:L. Besacier, B. Lecouteux
Title: Mesures de qualité avancées pour la traduction de la parole
Summary:
Keywords:

Student: Ruslan Kalitvianski
Advisor:C. Boitet & V. Bellynck
Title:
Summary:
Keywords:

Student: Sajida ZOUARHI
Advisor: Christine COLLET, Jean-Marc TEMERSON (ORANGE LABS)
Title: Reliability and robustness of industrial systems for critical data transmission
Summary: The aim of the thesis is to propose tools to enhance the reliability and robustness of industrial systems that transmit critical data (e.g. in IT solution for Healthcare).
Keywords: reliability, dependability, criticality, alert, transmission, data

Student: Oliveira KOTEVSKA
Advisor: Ahmed LBATH
Title:
Summary:
Keywords:

Student: Nawal OULD AMER
Advisor: Philippe MULHEM, Mathias GERY
Title: Recherche Sociale et Personnalisée d'Information
Summary: À l'heure du Big Data et des grands volumes de données hétérogènes et dynamiques du Web, l'accès à l'information est tributaire des moteurs de recherche généralistes. Ces moteurs sont centrés documents et de fait cachent une partie du Web, par manque d'adaptation au besoin spécifique de chaque utilisateur ou bien par absence d'indexation de documents. Par ailleurs, le Web social produit une masse d'information centrée utilisateur. L'association des informations du Web social à celles du Web centré document permet l'émergence d'un nouveau domaine de recherche : la Recherche Sociale et Personnalisée d'Information, qui vise à personnaliser l'accès à l'information et à permettre l'accès au Web caché.Ce travail vise tout d'abord à formaliser les éléments entrant en jeux dans les Systèmes de Recherche Sociale et Personnalisée d'Information : annotations, recommandations, centres d'intérêts, relations sociales, etc., et ensuite de fixer un cadre exploitant aussi bien la puissance des moteurs du Web actuels que la richesse des informations des réseaux sociaux.
Keywords: Recherche d’information, réseaux sociaux, recherche d'information personnalisée.

SLIDE

Student: Julien PILOURDAULT
Advisor: Sihem Amer-Yahia, Vincent Leroy
Title: Distributed Algorithms for Ranked Temporal Big Join
Summary: Large amounts of temporal interval data can be found in various systems that store a timestamp related to an event. The analysis of such datasets often relies on the ability to join a large number of intervals. In this PhD thesis, we argue for the need to define a ranked semantics for interval joins and revisit Allen's algebra in order to assign scores to join results. Such semantics is currently not supported by existing work, and raises new computational challenges. We study the efficient evaluation of various join predicates. In particular, we design distributed algorithms for different platforms (e.g. Hadoop Map-Reduce, Spark). Our algorithms are being tested on different platforms on a variety of datasets from different application domains with different needs ranging from user data to network traffic data
Keywords: temporal intervals, joins, distributed processing, top-k

Student: Jacques Gautier
Advisor: Paule-Annick Davoine, Claire Cunty (Univ. Lyon 2)
Title: Visual representations for analyzing spatio-temporal processes related to natural hazards
Summary:
Keywords: visual representation; time representation; spatio-temporal object; spatio-temporal process; event; natural hazard; flooding hazard; map analysis

Student: David NOËL
Advisor: Jérôme Gensel, Pierre Le Quéau et Marlène Villanova-Oliver
Title: Metropo-Lifeline : un environnement informatique pour la description participative et l’analyse des migrations des habitants au sein d’un espace métropolitain.
Summary: Le sujet d’étude proposé est une contribution à la fois à l’identification des logiques de résidence et de déplacement, et à la mise en exergue des dynamiques métropolitaines. Cette recherche à caractère pluridisciplinaire vise à concevoir et développer un outil informatique innovant : 1) comme support d’une approche d’observation des migrations urbaines et/ou péri-urbaines ; 2) comme outil d’aide à la décision dans les domaines de l’urbanisme et de l’aménagement du territoire. Il s’agit non seulement de construire un outil informatique permettant de collecter les données descriptives et géolocalisées des trajectoires résidentielles entre les différents territoires d’une agglomération, mais également de mieux comprendre les circonstances qui conduisent les habitants à changer d’habitat, étant entendu qu’elles peuvent relever de l’univers familial, professionnel, du désir de changer son mode de vie, etc.
Keywords: modèle de trajectoires, migrations urbaines, géographie participative, analyse spatiale

Student: Diana Nurbakova (Thèse de l'INSA-Lyon)
Advisor: Jérôme Gensel, Sylvie Calabretto (laboratoire LIRIS) et Léa Laporte (laboratoire LIRIS)
Title: Recherche d’Information dans le Web des Données en situation de mobilité
Summary:
Keywords:

2014

Student: Lauren Thévin
Advisor: Olivier Boissier, Catherine Garbay
Title: Décisions collectives en environnements interactifs et collaboratifs complexes : application à la gestion de crise.
Summary: Le projet concerne la conception d’un environnement informatique dédié à la collaboration à distance pour la gestion de crises. Cette application nécessite de mutualiser et de coordonner des ressources hétérogènes et des organisations humaines dont les impératifs diffèrent (protocoles de décisions et modes d’intervention).Notre système s'intègrera dans la phase de préparation à la gestion de crise par les acteurs communaux. L’originalité du projet réside dans l’exploitation de tables interactives distribuées associant la technologie RFID pour le suivi d’objets tangibles, et un écran LCD pour la projection de scènes réalistes et l’exploitation d’objets virtuels. Un nouveau mode d’interaction, plus intuitif et plus concret, est ainsi instauré. Les travaux de thèse se focaliseront sur le verrou majeur du soutien à la collaboration, abordé comme la modélisation et la transcription à distance de l'activité multidimensionnelle des acteurs. Dans le contexte d’une conception originale à base de systèmes multi-agents normatifs, une attention particulière sera accordée à la formalisation, au partage et à l’appropriation des impératifs des organisations. Il s’agira de concevoir dans une première phase des modèles de représentation et de raisonnement distribués pour analyser les fils d’activité des différents acteurs. Il s’agira dans une deuxième phase de construire des retours informés, c’est-à-dire des retours visuels situant l’activité individuelle tant vis-à-vis de ses propres impératifs que de ceux de la tâche collective et de ses contraintes. Ces deux phases impliqueront la modélisation des impératifs des organisations. Une dernière partie du travail sera consacrée au développement et au déploiement de la plate-forme collaborative pour les acteurs de terrain.
Keywords: Collaboration assistée par ordinateur, interaction augmentée, systèmes multi-agents normatifs, gestion de crises

Student: Saeid SOHEILY KHAH
Advisor: Ahlame Douzal , Eric Gaussier
Title: Averaging multiple time series under weighted and kernel dynamic time warping
Summary: Time series centroid estimation is an important issue for many data analysis tasks as summarization, prototype extraction or clustering. However, under the dynamic time warping (DTW) and kernel-DTW, these tasks refer generally to the time series medoid to circumvent time series averaging under DTW and the tricky multiple temporal alignments problem. We formalize the estimation of time series centroid under temporal warping as a non convex constrained optimization problem. A fast and accurate solution is provided under both weighted and kernel dynamic time warping metrics, for several warping functions.
Keywords: Pattern recognition, Time series, Time warp distance, Time warp kernel, Clustering

Student: Irina Nicolae
Advisor: Eric Gaussier, Marc Sebban
Title: New Theoretical Frameworks in Metric Learning: Application to Energy Management
Summary: This proposal is a fundamental research project whose main goal is to provide new theoretical frameworks and algorithms for automatically learning metrics from data. Based on the saying “Birds of a feather flock together”, metrics play a crucial role in a large set of learning methods, such as the widely used k-nearest neighbors, kernel-based methods in classification or the k-Means algorithm in clustering. Since manually tuning metrics for a given real-world problem is often difficult and tedious, our objective is to automatically acquire knowledge from training data to optimize good metrics. This requires to formally define the notion of goodness that would allow us to ensure theoretical guarantees (i) on the generalization ability of the metric (i.e. do the properties optimized over the training set still hold on new data?) and (ii) on the generalization capability of a classifier using that metric (i.e. can we derive upper bounds on the generalization error of the classifier?). The metric learning algorithms developed in this project will be used to deal with image classification tasks in order to not only increase the classification accuracy but also improve the creation of relevant visual dictionaries.
Keywords: metric learning, generalization guarantees, convex optimization

EXMO

Student: Adam Sanchez
Advisor: Jérôme David & Jérôme Euzenat
Title: Ontology alignment and data interlinking evolution on the web of data
Summary: http://exmo.inria.fr/training/Th-2013-evolution.html
Keywords: Linked data evolution; ontology alignments; data link sets

Student: SASA Yuko
Advisor: V. Auberge (& Y. Sagisaka, Japan)
Title: Intelligence Socio-Affective pour un Robot compagnon : primitives vocales et gestuelles pour l’interaction avec un robot médiateur personnalisable de l’habitat intelligent.
Summary:
Keywords: Affective speech models - Social Robotics - Assistive technologies

Student: PICAVET Francis
Advisor: V. Aubergé
Title: Nouvelles méthodes d'apprentissage de la prosodie des langues.
Summary:
Keywords: Technologies for language learning , Prosody, Speech

Student: SHAH Ritesh
Advisor: C. Boitet
Title: Approches hybrides pour la traduction automatique.
Summary:
Keywords: Machine Translation, hybrid approaches

Student: Rémy Dautriche
Advisor: Alexandre Termier, Renaud Blanch, Miguel Santana
Title: Multi-scale interaction techniques for interactive visualization of execution traces
Summary: Due to the increasing complexity of multimedia systems, debugging streaming applications has become a challenging task and requires the analysis of a large amount of data collected in execution traces. In this work, we focus on interactive visualizations for an efficient exploration of the traces and to reveal to the analyst the patterns found at different temporal scale using data mining algorithms.
Keyword: Visualization, Interactions, Multi-Scale, Pattern Mining, Embedded Systems

Student: Martin Kirchgessner
Advisor: Sihem Amer-Yahia, Vincent Leroy
Title: Scaling up pattern mining
Summary: Most datasets, because of their size and long-tail distribution, are out of reach of existing pattern mining techniques. The goal of this work is to investigate a family of pattern mining tasks adapted to such data, ie. which implement different semantics that handle result explosion and leverage parallel and/or distributed systems.
Keywords: data mining, pattern mining, distributed systems

Student: Sofia Kleisarchaki
Advisor: Sihem Amer-Yahia, Vassilis Christophides, Ahlame Douzal
Title: Temporal Social Media Analytics: Combining Topics and Structure Dynamics over Time
Summary: Data from the social Web are characterized by an ephemeral nature, where interactions/associations between people, topics of conversations and real-world venue activities are evolving over time. In this work, we focus on the temporal analysis of social content in order to understand how topical and geographical properties affect the evolution of users’ group discussions over time. Temporal analytics requires the design of new data structures and methods for scalable and dynamic time segmentation of input data.
Keywords: Data-mining, Concept-Drift in Social Media, Spatio-Temporal Analytics, Dynamic Time Segmentation

Student: ٍRafik Saad
Advisor: Sihem Amer-Yahia, Vincent Leroy
Title: Models and Algorithms for Big Data Joins
Summary: Joins are primary operation for manipulating data. With current data available on the web, several dimensions (semantic and temporal dimensions) could be considered while joining data together. The goal of this work is to design index structures and algorithms to perform such join operations on large-scale data in a distributed environment.
Keywords: Big data, Joins, Large-scale processing

Student:
Advisor:
Title:
Summary:
Keywords:

Student: André Sales Fonteles
Advisor: Jérôme Gensel and Sylvain Bouveret
Title: Spatiotemporal Mobile Crowdsourcing Market Systems
Summary:
Keywords: Spatiotemporal information, Mobile Computing, Crowdsourcing Market Systems

Student: Thiago Moreira
Advisor: Hervé Martin and Sihem Amer Yahia
Title: Hypothesis testing on social media proposal
Summary:
Keywords: Context, Social Networks

Student: Josiane Mireille Dziegaing
Advisor: Maurice Tchuente and Hervé Martin
Title: Improving Data Quality in Volunteered Geographic Information Systems
Summary:
Keywords: Data Quality, VGI

2013

Student: Hamid Mirsaee
Advisor: Eric Gaussier, Alexandre Termier
Title: Mining Social Networks
Summary: The goal of the PhD is to develop new methods to mine social networks (e.g. to extract sentiments from Twitter or infer new links in a given community). Several methods can be used for that, matrix decomposition methods representing a promising avenue.
Keywords: data mining, sentiment analysis, matrix decomposition

Student: Cao Tri
Advisor: Ahlame Douzal, Michèle Rombaut, Sylvain Marié
Title: Learning on data coming from sensor networks
Summary: With the evolution of data acquirement systems in multi-sensors applications, data have become easily available and in sufficient quantity. In the meantime, knowledge has become rare and costly. The Machine Learning community has been interested for a long time in the issues of regular pattern recognition, automatic clustering and fault detection on static data, and more recently on time series. In this latter type of data, the notion of scales becomes essential: looking at the data at different scales can bring complementary information and our goal here is to embed such ideas in the learning process. Furthermore, it is important to detect and take into account the evolution of sensors and the uncertainty in their output.
Keywords: times series, machine learning, energy consumption

EXMO

Student: Tatiana Lesnikova
Advisors: Jérôme David et Jérôme Euzenat
Title: Interlinking crosslingual RDF data sets
Summary:
Keywords: Linked data, data interlinking, multilingual web of data

Student: Armen Inants
Advisor: Jérôme Euzenat
Title: Algebra for ontology alignments
Summary:
Keywords: Ontology alignment, alignment semantics, alignment algebra

Student: Mohammad Nasiruddin
Advisor: Hervé Blanchon et Didier Schwab
Title: Word Sense Disambiguation for Under-Resourced Languages : application to Machine Translation
Summary:
Keywords: Word Sense Disambiguation, lexical resources, crowdsourcing, Game With A Purpose, Word Sense Induction, Machine Translation

Student: David Blachon
Advisor: Laurent Besacier et François Portet
Title: Embedded Multimodal Environment recognition
Summary:
Keywords: Multimodal sensors - Smart phones - Activity Traces - Scene Recognition - Data collection - Crowdsourcing - Audio Analysis

Student: Ying Zhang
Advisor: Christian Boitet, Mathieu Mangeot, Valerie Bellynck
Title: Vers une plate-forme lexicale programmable pour la traduction assistée par ordinateur (TAO) hétérogène et contributive
Summary:
Keywords: base lexicale multilingue, ressources lexicales ,traduction automatique

Student: Mateusz Budnik (MRIM and GETALP, see MRIM section)

Student: Behrooz Omidvar Tehrani
Advisor: Sihem Amer-Yahia and Alexandre Termier
Title: Interactive Pattern Space Exploration
Summary: Generic pattern mining algorithms can output millions of patterns and users can't cope with such output. In this work, we want to leverage items' and users' structure to help the mining process as well as help users intelligently navigate in the space of generated patterns.
Keywords: Data-mining, pattern mining, visualization

Student: Orleant EPAL
Advisor: Genoveva Vargas Solar
Title: Event streams composition
Summary: Propose a model for distributed event streams composition and specify an event service based on the specified model capable to effectively achieve aggregation, temporal and causal correlation, analysis of event streams in distributed service-based platforms.
Keywords: complex event processing, event streams processing, event based systems

Student: Mohannad Al Masri
Advisor: Jean-Pierre Chevallet, Catherine Berrut
Title: From the exploitation of Informal to Formal Ontologies for an Automatic Semantic Indexing of Specialized Documents applied to a High Precision Information Retrieval System
Summary: The goal of this work is to enlighten the side effects hidden in the bag of words models, in order to set up a new kind of IR model based on semantics, where semantic properties are explicitly described in the index and in the matching model. This new kind of IRS has to exploit semantic resources.
Keywords: Semantic Indexing, Sematic Query, Precise Query, Structured Query, Conceptual Indexing, Domain Ontology, Knowledge Base, Natural Language Processing

Student: Mateusz Budnik (GETALP and MRIM)
Advisors: Georges Quénot, Laurent Besacier
Title: Collaborative annotation of multi-modal, multi-lingual and multi-media documents
Summary: This PhD is dedicated to the proposal of semi-supervised and unsupervised methods for the annotation of MMM data. Different scenarios of semi-supervised annotations will be experimented, for different type of videos. As a case study we shall focus our work on developing technologies in order to answer to the questions “who is seen?”, “who is speaking?” in videos. Depending on the type of video and the feedback from the supervision group, we may extend our work to the automatic annotation of objects (“what is seen?”) or activities (“what is going on?”).
Keywords: Semantic Indexing, annotation, multi-modal, multi-lingual, multi-media.