Séminaires A3

31/05/2012: "Systèmes de recommandation appliqués aux offres d'emploi diffusées sur le web"

Orateur(-trice): Julie Séguéla
Organisme: Société Multiposting / CNAM/ENSIIE - Centre d'Etude et De Recherche en Informatique et Communications
Résumé

Les entreprises disposent aujourd'hui de bases de données très volumineuses stockant les achats, notations ou usages de l'ensemble de leurs clients ou utilisateurs. Ces historiques peuvent être enrichis de variables descriptives des utilisateurs. Tirant profit de ces informations, les systèmes de recommandation ont pour objectif de fournir aux clients des suggestions personnalisées pour leurs prochaines utilisations ou consommations. Dans un contexte de démarrage à froid, le système ne dispose d'aucune information sur les préférences des utilisateurs, l'utilisation de données additionnelles est alors requise. Nous proposons une application innovante des systèmes de recommandation pour la prédiction du rendement d'une offre d'emploi publiée sur un site web dédié à l'emploi. Deux cas sont étudiés : l'offre n'a jamais été publiée (démarrage à froid), ou celle-ci a déjà été publiée par le passé sur un ou plusieurs sites d'emploi. Les offres sont décrites simultanément par des données textuelles et des données structurées. Nous introduisons un système hybride de recommandation, basé sur une mesure de similarité entre offres, permettant de gérer des données hétérogènes et de grande dimension. Ce système montre des résultats supérieurs à ceux obtenus avec des approches classiques de modélisation multivariée.

22/3/2012: "Optimisation de requêtes OLAP et visualisation de résultats"

Orateur(-trice): Simonenko Ekaterina
Organisme: LRI (Laboratoire de Recherche en Informatique) Paris Sud
Résumé

Nous explorons différents aspects des entrepôts de données et de OLAP, le point commun de nos recherches étant le modèle fonctionnel pour l'analyse de données. L'objectif principal est d'utiliser ce modèle dans l'étude de trois aspects différents, mais liés:
- l'optimisation de requêtes par réécriture et la gestion du cache,
- la visualisation du résultat d'une requête OLAP,
L'optimisation de requêtes et la gestion de cache sont des problèmes cruciaux dans l'évaluation de requêtes en général, et les entrepôts de données en particulier; et la réécriture de requêtes est une des techniques de base pour l'optimisation de requêtes. Nous établissons des conditions d'implication de requêtes analytiques, en utilisant le pré-ordre partiel sur l'ensemble de requêtes, et nous définissons un algorithme sain et complet de réécriture ainsi que une stratégie de gestion de cache optimisée, tous les deux basés sur le modèle fonctionnel. Le deuxième aspect important que nous explorons dans ce travail est celui de la visualisation du résultat. Nous démontrons l'importance pour la visualisation de reproduire des propriétés essentielles de données qui sont les dépendances fonctionnelles. Nous montrons que la connexion, existante entre les données et leur visualisation, est précisément la connexion entre leurs représentations fonctionnelles. Nous dérivons alors un cadre technique, ayant pour objectif d'établir une telle connexion pour un ensemble de données et un ensemble de visualisations. En plus d'analyse du processus de visualisation, nous utilisons le modèle fonctionnel comme un guide pour la visualisation interactive, et définissons ce qu'on appelle la visualisation paramétrique.
Les résultats de ce travail peuvent être utilisés afin d’analyser les données contenues dans une table en Boyce-Codd Normal Form (BCNF), étant donné que le schéma de la table peut être transformé aisément en un schéma fonctionnel. Nous présentons une telle transformation (mapping) . Une fois le schéma relationnel transformé en un schéma fonctionnel, nous pouvons profiter des résultats sur l'optimisation et la visualisation de requêtes. Nous avons utilisé cette transformation dans l’implémentation d'un prototype dans le cadre d'un projet européen.

8/3/2012: "Graphe de transition entre objets combinatoires ; cas des ensembles fermés"

Orateur(-trice): Gély Alain
Organisme: Université Paul Verlaine, Metz. Laboratoire d'Informatique Théorique et Appliquée. Equipe Algorithmique et Optimisation.
Résumé

Dans cet exposé, on revient sur quelques algorithmes d'énumération des ensembles fermés. Après un détour par le problème de l'énumération des cliques maximales d'un graphe, on montre qu'il s'agit en fait d'instances de parcours d'un graphe fortement connexe : le graphe de transition. En se servant de cet outil comme moyen de comparaison des algorithmes, on remarque que Next-Closure, en particulier, est une transcription directe au problème d'énumération des fermés de l'algorithme d'énumération des cliques maximales du à Tsukiyama et Al.

9/2/2012: "Lessons learnt from the Unsupervised and Transfer Learning challenge 2011"

Orateur(-trice): Lemaire Vincent
Organisme: Orange Labs (Groupe 'Profiling and Data-mining')
Résumé

A challenge in “Unsupervised and Transfer Learning”: the UTL challenge (http: //clopinet.com/ul) has been recently organized. Organizers made available large datasets from various application domains: handwriting recognition, image recognition, video processing, text processing, and ecology. The goal was to learn data representations that can be re-used across tasks, capturing regularities of an input space. The representations were evaluated on supervised learning “target tasks” unknown to the participants. The first phase of the challenge was dedicated to “unsupervised transfer learning” (the competitors were given only unlabeled data). The second phase was dedicated to “cross-task transfer learning” (the competitors were provided with a limited amount of labeled data from “source tasks”, distinct from the “target tasks”). The purpose of the presentation will be to present this challenge and to analyze the results obtained.

26/1/2012: "Fouille de données : extraction de motifs graduels"

Orateur(-trice): Laurent Anne
Organisme: Centre HPC@LR - Polytech'Montpellier.
Résumé

Les bases de données contiennent souvent de nombreux indicateurs numériques couplés à des données symboliques. Dans ce contexte, il est intéressant de proposer aux utilisateurs une connaissance sur les corrélations graduelles présentes dans les données. Pour cela, il existe de nombreux travaux ayant traité de la notion de gradualité. De nombreuses définitions ont été proposées. Cependant, il n'existe que très peu d'approches proposant des algorithmes efficaces. Pour notre part, nous étudions comment définir des méthodes efficaces d'extraction de motifs graduels (Plus le facteur A augmente/diminue, Plus le facteur B augmente/dimunue) dans un cadre complexe où le nombre d'attributs est important, le nombre de données est potentiellement important, et la temporalité peut intervenir (Plus le facteur A augmente/diminue, Plus le facteur B augmente/diminue {\em plus tard}). Ces travaux sont menés dans le cadre de thèses (L. Di Jorio, S. Ayouni, M. Perfecto) et de collaborations (LIG, LIP6, LRIE) pour l'étude de toutes les facettes du problème : définition du support, algorithmes parallèles, utilisation de la logique floue, représentations condensées, etc.

12/1/2012: "Un langage de contraintes pour une découverte déclarative de motifs en fouille de données par"

Orateur(-trice): Crémilleux Bruno
Organisme: GREYC (Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen - UMR6072
Résumé

Il est bien connu que le grand nombre de motifs généralement produits par un processus de fouille de données est un frein à leurs usages. En effet, les utilisateurs finaux ne peuvent pas effectuer une analyse de chaque motif. Aussi, un défi actuel est de faire face au déluge de motifs qui suit le déluge de données. Plusieurs approches ont été développées pour faire face à ce défi, telles que par exemple les représentations condensées de motifs, l'extraction de motifs sous contraintes, l'utilisation de la connaissance du domaine. Dans cet exposé, nous nous intéresserons à la découverte de motifs globaux, c'est-à-dire des motifs combinant plusieurs motifs locaux faisant sens ensemble. En s'appuyant sur les récents travaux sur l'apport de la programmation par contrainte à la fouille de données, nous présenterons un langage de contraintes permettant de définir de façon déclarative des motifs globaux et de les extraire. Nous illustrerons plus particulièrement cette démarche avec l'exemple du clustering fondée sur les associations. Nous situerons ce travail dans le contexte des liens fructueux entre la programmation par contraintes à la fouille de données et, plus généralement, de la découverte de motifs "utiles".

24/11/2011: "Proportion Analogique et Treillis : chantier autorisé au public."

Orateur(-trice): Miclet Laurent
Résumé IRISA ENSSAT

On exposera dans ce séminaire des travaux en cours sur :
1. La recherche d'analogies entre objets décrits par des attributs binaires, dans la représentation en treillis de concepts.
2. La construction de treillis de sous-séquences et de sur-séquences à partir d'ensembles de séquences.
Plus généralement, la discussion pourra porter aussi sur la notion d'analogie entre objets d'un treillis.

10/11/2011: "Anamyse exploratoire de réseaux d'interaction reposant sur leur structure en communautés"

Orateur(-trice): Le Grand Bénédicte
Organisme: Laboratoire d'Informatique de Paris 6 (LIP6). Équipe "Complex Networks"
Résumé

Les réseaux sociaux, informatiques ou biologiques sont composés d’éléments connectés les uns aux autres et constituent des réseaux d’interaction réels, également appelés graphes de terrain (ou complex networks en anglais).. L’analyse de ces réseaux d’interaction est extrêmement complexe, du fait de leur taille, de leur grand nombre de dimensions et du manque de connaissance de leur structure. Durant cette présentation, je présenterai une méthode d’analyse exploratoire de ces réseaux, reposant sur l’analyse formelle de concepts et les treillis de Galois en particulier. Ces outils permettent d’identifier la structure (en communautés) de ces réseaux; je montrerai comment visualiser cette structure, et comment l’exploiter pour mieux comprendre les réseaux étudiés. La question du passage à l’échelle d’une telle approche sera également abordée.

6/10/2011: "Graphs for Business Intelligence"

Orateur(-trice): Aufaure Marie-Aude
Organisme: École Centrale Paris
Résumé

Business Intelligence aims at supporting better business decision-making, by providing tools and methods for collecting, modeling and interacting with data. Users have to deal with big data from structured databases and unstructured content (emails, documents, social networks, etc). Moreover, these data are often distributed and highly dynamic. Social Media and mobile technologies have changed our way to access information, facilitating communication and data exchange/sharing. All these evolutions refer to Business Intelligence 2.0. An adapted modeling and visualization technique of links and interactions between several objects (e.g. products and sites, customers and products, social network...) is a precious mean to permit a good understanding of a lot of situations in the enterprise context. In this latter context, most of the time, these objects and their relations are stored in relational databases. But extracting and modeling such heterogeneous graphs, with heterogeneous objects and relations, are outside of the classical graph models capabilities, moreover when each node contains a set of values. On the other hand, graph models can be a natural way to present these interactions and to facilitate their querying. In this way, we propose a graph model named SPIDER-Graph which is adapted to represent interactions between complex heterogeneous objects extracted from relational databases, used for heterogeneous objects graph extraction from a relational database. One of the steps involved in this approach consists in identifying automatically the enterprise objects. Since the enterprise ontology has been used for describing enterprise objects and processes, we propose to integrate it in the object identification process (identify objects to be able to transform a graph of heterogeneous objects according to the user choice). Finally, we introduce the main principles of an aggregation algorithm used for community detection and graph visualization.

Organisation des séminaires de l'équipe A3 du LIPN (Laboratoire d'Informatique de Paris Nord)