Retour LIPN | Séminaires A3 | Guillaume Santini |
Les entreprises disposent aujourd'hui de bases de données très volumineuses stockant les achats, notations ou usages de l'ensemble de leurs clients ou utilisateurs. Ces historiques peuvent être enrichis de variables descriptives des utilisateurs. Tirant profit de ces informations, les systèmes de recommandation ont pour objectif de fournir aux clients des suggestions personnalisées pour leurs prochaines utilisations ou consommations. Dans un contexte de démarrage à froid, le système ne dispose d'aucune information sur les préférences des utilisateurs, l'utilisation de données additionnelles est alors requise. Nous proposons une application innovante des systèmes de recommandation pour la prédiction du rendement d'une offre d'emploi publiée sur un site web dédié à l'emploi. Deux cas sont étudiés : l'offre n'a jamais été publiée (démarrage à froid), ou celle-ci a déjà été publiée par le passé sur un ou plusieurs sites d'emploi. Les offres sont décrites simultanément par des données textuelles et des données structurées. Nous introduisons un système hybride de recommandation, basé sur une mesure de similarité entre offres, permettant de gérer des données hétérogènes et de grande dimension. Ce système montre des résultats supérieurs à ceux obtenus avec des approches classiques de modélisation multivariée.
Nous explorons différents aspects des entrepôts de données et de OLAP, le point commun de nos recherches étant le modèle fonctionnel pour l'analyse de données. L'objectif principal est d'utiliser ce modèle dans l'étude de trois aspects différents, mais liés:
Dans cet exposé, on revient sur quelques algorithmes d'énumération des ensembles fermés. Après un détour par le problème de l'énumération des cliques maximales d'un graphe, on montre qu'il s'agit en fait d'instances de parcours d'un graphe fortement connexe : le graphe de transition. En se servant de cet outil comme moyen de comparaison des algorithmes, on remarque que Next-Closure, en particulier, est une transcription directe au problème d'énumération des fermés de l'algorithme d'énumération des cliques maximales du à Tsukiyama et Al.
A challenge in “Unsupervised and Transfer Learning”: the UTL challenge (http: //clopinet.com/ul) has been recently organized. Organizers made available large datasets from various application domains: handwriting recognition, image recognition, video processing, text processing, and ecology. The goal was to learn data representations that can be re-used across tasks, capturing regularities of an input space. The representations were evaluated on supervised learning “target tasks” unknown to the participants. The first phase of the challenge was dedicated to “unsupervised transfer learning” (the competitors were given only unlabeled data). The second phase was dedicated to “cross-task transfer learning” (the competitors were provided with a limited amount of labeled data from “source tasks”, distinct from the “target tasks”). The purpose of the presentation will be to present this challenge and to analyze the results obtained.
Les bases de données contiennent souvent de nombreux indicateurs numériques couplés à des données symboliques. Dans ce contexte, il est intéressant de proposer aux utilisateurs une connaissance sur les corrélations graduelles présentes dans les données. Pour cela, il existe de nombreux travaux ayant traité de la notion de gradualité. De nombreuses définitions ont été proposées. Cependant, il n'existe que très peu d'approches proposant des algorithmes efficaces. Pour notre part, nous étudions comment définir des méthodes efficaces d'extraction de motifs graduels (Plus le facteur A augmente/diminue, Plus le facteur B augmente/dimunue) dans un cadre complexe où le nombre d'attributs est important, le nombre de données est potentiellement important, et la temporalité peut intervenir (Plus le facteur A augmente/diminue, Plus le facteur B augmente/diminue {\em plus tard}). Ces travaux sont menés dans le cadre de thèses (L. Di Jorio, S. Ayouni, M. Perfecto) et de collaborations (LIG, LIP6, LRIE) pour l'étude de toutes les facettes du problème : définition du support, algorithmes parallèles, utilisation de la logique floue, représentations condensées, etc.
Il est bien connu que le grand nombre de motifs généralement produits par un processus de fouille de données est un frein à leurs usages. En effet, les utilisateurs finaux ne peuvent pas effectuer une analyse de chaque motif. Aussi, un défi actuel est de faire face au déluge de motifs qui suit le déluge de données. Plusieurs approches ont été développées pour faire face à ce défi, telles que par exemple les représentations condensées de motifs, l'extraction de motifs sous contraintes, l'utilisation de la connaissance du domaine. Dans cet exposé, nous nous intéresserons à la découverte de motifs globaux, c'est-à-dire des motifs combinant plusieurs motifs locaux faisant sens ensemble. En s'appuyant sur les récents travaux sur l'apport de la programmation par contrainte à la fouille de données, nous présenterons un langage de contraintes permettant de définir de façon déclarative des motifs globaux et de les extraire. Nous illustrerons plus particulièrement cette démarche avec l'exemple du clustering fondée sur les associations. Nous situerons ce travail dans le contexte des liens fructueux entre la programmation par contraintes à la fouille de données et, plus généralement, de la découverte de motifs "utiles".
On exposera dans ce séminaire des travaux en cours sur :
Les réseaux sociaux, informatiques ou biologiques sont composés d’éléments connectés les uns aux autres et constituent des réseaux d’interaction réels, également appelés graphes de terrain (ou complex networks en anglais).. L’analyse de ces réseaux d’interaction est extrêmement complexe, du fait de leur taille, de leur grand nombre de dimensions et du manque de connaissance de leur structure. Durant cette présentation, je présenterai une méthode d’analyse exploratoire de ces réseaux, reposant sur l’analyse formelle de concepts et les treillis de Galois en particulier. Ces outils permettent d’identifier la structure (en communautés) de ces réseaux; je montrerai comment visualiser cette structure, et comment l’exploiter pour mieux comprendre les réseaux étudiés. La question du passage à l’échelle d’une telle approche sera également abordée.
Business Intelligence aims at supporting better business decision-making, by providing tools and methods for collecting, modeling and interacting with data. Users have to deal with big data from structured databases and unstructured content (emails, documents, social networks, etc). Moreover, these data are often distributed and highly dynamic. Social Media and mobile technologies have changed our way to access information, facilitating communication and data exchange/sharing. All these evolutions refer to Business Intelligence 2.0. An adapted modeling and visualization technique of links and interactions between several objects (e.g. products and sites, customers and products, social network...) is a precious mean to permit a good understanding of a lot of situations in the enterprise context. In this latter context, most of the time, these objects and their relations are stored in relational databases. But extracting and modeling such heterogeneous graphs, with heterogeneous objects and relations, are outside of the classical graph models capabilities, moreover when each node contains a set of values. On the other hand, graph models can be a natural way to present these interactions and to facilitate their querying. In this way, we propose a graph model named SPIDER-Graph which is adapted to represent interactions between complex heterogeneous objects extracted from relational databases, used for heterogeneous objects graph extraction from a relational database. One of the steps involved in this approach consists in identifying automatically the enterprise objects. Since the enterprise ontology has been used for describing enterprise objects and processes, we propose to integrate it in the object identification process (identify objects to be able to transform a graph of heterogeneous objects according to the user choice). Finally, we introduce the main principles of an aggregation algorithm used for community detection and graph visualization.