La 7ème édition des journées «Big Data Mining and Visualization»

Les groupes de travail de l’association EGC – « Fouille de Données Complexes » (GT-FDC), « Fouille de Grands Graphes » (GT-FGG), « Visualisation d’informations, interaction et fouille de données » (GT-VIF, commun avec l’AFIHM) et « Gestion et Analyse de données Spatiales et Temporelles » (GT-GAST, commun avec l’action prospective EXCES, GDR MAGIS) – organisent la 7ème édition des journées thématiques visant d’une part à poursuivre les activités des groupes et d’autre part à développer des axes communs autour de la prise en compte, la gestion, l’analyse, le traitement et la visualisation des données massives (Big Data).

Dates: jeudi 28 et vendredi 29 juin 2018

Localisation : La Maison des Sciences de l’Homme Paris Nord
Unité de Service et de Recherche soutenue par Paris 8
20, avenue George Sand
93210 La Plaine St-Denis

Plus d’information: http://eric.univ-lyon2.fr/~gt-fdc/journees/

Appel à communications – EGC 2019

Appel à communications

Cette année la 19ème édition de la conférence EGC aura lieu à Metz du 21 au 25 janvier 2019 sur le Campus de Metz de CentraleSupélec.

L’appel à communication est lancé.  Plus d’informations sur le site d’EGC 2019

Dates importantes

Résumés des articles : 7 octobre 2018 – 11:00 AM Paris
Textes complets des articles : 15 octobre 2018 – 11:00 AM Paris

Organisation

Présidente du Comité de Programme :
Marie-Christine Rousset, LIG, Université Grenoble Alpes & Institut Universitaire de France

Présidente du Comité d’Organisation :
Lydia Boudjeloud-Assala, LORIA, Université de Lorraine – Metz

Président d’honneur :
Frank van Harmelen, KR&R Group, Computer Science Dept, Vrije Universiteit Amsterdam

EGC 2019 (Metz, France)

Cette année la 19ème édition de la conférence EGC aura lieu à Metz du 21 au 25 janvier 2019 sur le Campus de Metz de CentraleSupélec.

La conférence Extraction et Gestion des Connaissances (EGC) est un événement annuel réunissant des chercheurs et praticiens de disciplines relevant de la science des données et des connaissances. Ces disciplines incluent notamment l’apprentissage automatique, l’ingénierie et la représentation de connaissances, le raisonnement sur des données et des connaissances, la fouille et l’analyse de données, les systèmes d’information, les bases de données, le web sémantique et les données ouvertes, etc.

  • Présidente du comité d’organisation : Lydia Boudjeloud-Assala, maître de conférences à l’université de Lorraine et membre du LORIA.

Site d’EGC 2019

Sixièmes post-actes

Fabrice Guillet, Bruno Pinaud, Gilles Venturini and Djamel Abdelkader Zighed (eds),
« Advances In Knowledge Discovery and Management, Volume 6 »,
Series: Studies in Computational Intelligence,
Vol. 665, 2017, Springer.
ISBN: 978-3-319-45762-8, DOI: 10.1007/978-3-319-45763-5.

About this book

This book presents a collection of representative and novel work in the field of data mining, knowledge discovery, clustering and classification, based on expanded and reworked versions of a selection of the best papers originally presented in French at the EGC 2014 and EGC 2015 conferences held in Rennes (France) in January 2014 and Luxembourg in January 2015. The book is in three parts: The first four chapters discuss optimization considerations in data mining. The second part explores specific quality measures, dissimilarities and ultrametrics. The final chapters focus on semantics, ontologies and social networks.
Written for PhD and MSc students, as well as researchers working in the field, it addresses both theoretical and practical aspects of knowledge discovery and management.

Table des matières

Part I – Mining Data with Optimization

  • Carine Hue, Marc Boullé, Vincent Lemaire:
    Online Learning of a Weighted Selective Naive Bayes Classifier with Non-convex Optimization. 3-17
  • Hélène Jaudoin, Pierre Nerzic, Olivier Pivert, Daniel Rocacher:
    On Making Skyline Queries Resistant to Outliers. 19-38
  • Pierre-Francois Marteau, Sylvie Gibet, Clément Reverdy:
    Adaptive Down-Sampling and Dimension Reduction in Time Elastic Kernel Machines for Efficient Recognition of Isolated Gestures. 39-59
  • Arnaud Soulet, François Rioult:
    Exact and Approximate Minimal Pattern Mining. 61-81

Part II — Quality Measures, Dissimilarities and Ultrametrics

  • Rafik Abdesselam, Fatima-Zahra Aazi:
    Comparison of Proximity Measures for a Topological Discrimination. 85-99
  • Patricia Conde-Céspedes, Jean-François Marcotorchino, Emmanuel Viennet:
    Comparison of Linear Modularization Criteria Using the Relational Formalism, an Approach to Easily Identify Resolution Limit. 101-120
  • Jean-Charles Lamirel, Pascal Cuxac, Kafil Hajlaoui:
    A Novel Approach to Feature Selection Based on Quality Estimation Metrics. 121-140
  • Dan A. Simovici, Rosanne Vetro, Kaixun Hua:
    Ultrametricity of Dissimilarity Spaces and Its Significance for Data Mining. 141-155

Part III — Semantics, Ontologies, and Social Networks

  • Bissan Audeh, Philippe Beaune, Michel Beigbeder:
    SMERA: Semantic Mixed Approach for Web Query Expansion and Reformulation. 159-180
  • Thomas Dietenbeck, Fakhri Torkhani, Ahlem Othmani, Marco Attene, Jean-Marie Favreau:
    Multi-layer Ontologies for Integrated 3D Shape Segmentation and Annotation. 181-206
  • Thomas Hecht, Patrice Buche, Juliette Dibie, Liliana Ibanescu, Cassia Trojahn dos Santos:
    Ontology Alignment Using Web Linked Ontologies as Background Knowledge. 207-227
  • Gianluca Quercini, Nacéra Bennacer, Mohammad Ghufran, Coriane Nana Jipmo:
    LIAISON: reconciLIAtion of Individuals Profiles Across SOcial Networks. 229-253
  • Erick Stattner, Martine Collard:
    Clustering of Links and Clustering of Nodes: Fusion of Knowledge in Social Networks. 255-276

Défi EGC 2018 : Un défi sous le soleil de l’Île de La Réunion

Pour cette troisième édition du défi EGC (2018), le Laboratoire d’Énergétique, d’Électronique et Procédés (LE2P) et le Laboratoire d’Informatique et de Mathématiques (LIM) de l’Université de La Réunion vous proposent d’analyser des données de flux/rayonnements solaires à l’Île de La Réunion. Ce projet s’inscrit dans le cadre de la politique de développement vers l’autonomie énergétique à l’Île de La Réunion. Un historique de données de capteurs multi-sources sur plusieurs années est mis à votre disposition sous forme de séries temporelles multivariées. Nous suggérons un défi d’analyse exploratoire ouvert sur ces données.

Données

Pour mesurer le rayonnement solaire, quinze stations équipées de capteurs SPN1 (Sunshine Pyranometer) sont réparties sur l’Île de La Réunion. Le rayonnement solaire peut être décomposé en trois flux :

  • le flux global FGlobal
  • le flux diffus (ou réfléchi) FDiffus
  • le flux direct FDirect :
    FDirect = FGlobalFDiffus

Dans le domaine de la recherche sur l’énergie solaire, nous nous intéressons aussi à l’indice de fraction directe kb, défini comme le rapport du flux direct et du flux global, afin de représenter le rayonnement solaire journalier. Intuitivement, lorsque cet indice est proche de 1, le flux direct est proche du flux global et on est en présence d’une journée ensoleillée ; inversement, lorsque l’indice est proche de 0, la journée est nuageuse.

Les capteurs permettent d’obtenir les composantes diffuses et globales du flux solaire toutes les minutes. Ces capteurs sont associés à des capteurs météorologiques qui permettent d’obtenir – au pas de la minute aussi – la température, la pression atmosphérique, le taux d’humidité dans l’air ainsi que la force et la direction du vent.

Ainsi, vous disposerez d’environ cinq ans (2012-2016) d’historique de données de flux solaire et de données météorologiques (locales aux capteurs de flux solaire) sous forme de séries temporelles numériques au pas de la minute et par station.

Plus précisément, chaque station SPN1 fournit les sept mesures suivantes :

  • FG_avg (en W=m2) : le flux global
  • FD_avg (en W=m2) : le flux diffus
  • Patm_avg (en hPa) : la pression atmosphérique
  • RH_avg (en %) : le taux d’humidité dans l’air
  • Text_avg (en °C) : la température extérieure
  • WD_MeanUnitVector (en degré) : la direction du vent
  • WS_avg (en m/s) : la vitesse du vent

Ci-dessous un exemple de table de données des sept mesures pour une station SPN1 :

Les données peuvent être téléchargées à partir du lien suivant : http://www.egc.asso.fr/files/defi2018/RUN_solar_data_EGC_OpenChallenge.zip

Objectifs et tâches du défi

Les défis proposés s’adressent à la communauté de fouille de données et plus précisément aux passionnés de l’analyse de séries temporelles.

Pour le défi ouvert, 2 ans d’historique de données sont mis à disposition de la communauté sous la forme de cinq fichiers disponibles dans un fichier compressé au format ZIP. Chaque fichier contient les données collectées par un des capteurs pendant deux ans.

Bien que ce défi soit ouvert, nous suggérons quelques pistes de travail (non-exhaustives et donc non-restrictives) :

  • clustering de séries temporelles journalières (par exemple, la classification de journée type en fonction des données de flux solaires et/ou météorologiques
  • analyse des corrélations entre données de flux solaires et données météorologiques ;
  • analyses liées à la détection d’anomalies, d’évènements extrêmes, de gestion/complétion de valeurs manquantes ;
  • nouvelles visualisations de masses de données de séries temporelles ;
  • prédiction du flux global FGlobal ou de l’indice kb de fraction directe à l’horizon H+1, H+2, …, J+1 (à noter qu’un challenge prédictif est dédié à une tâche de prédiction de flux solaire, voir ci-dessous)

Pour ce défi ouvert, l’utilisation de données externes (open data) est autorisée tant qu’elles sont publiquement disponibles.

Soumission

Pour répondre au défi ouvert, vous devez rassembler vos résultats sur ces données dans un article long soumis à la conférence EGC 2018 avec la mention « Défi EGC 2018 » dans le titre. Le format à utiliser est la dernière version du style LaTeX RNTI : http://www.editions-rnti.fr/files/RNTI-X-Y2.1.zip. Les modalités de soumission et d’acceptation sont les mêmes que pour les autres articles, notamment l’anonymat des soumissions.

Présentation

Les papiers acceptés seront présentés lors de la conférence EGC en janvier 2018, très certainement dans une session spéciale « Défi EGC ».

Attribution du prix du défi EGC 2018

Le « défi ouvert » est doté d’un prix de 1500 euros délivré par l’association EGC.

Pour ce défi, un jury se réunira pour attribuer les prix du défi 2018, dans le même esprit que pour les autres prix.

Les critères d’attribution seront en particulier la pertinence et la qualité de l’approche méthodologique ainsi que l’originalité et l’intérêt des résultats obtenus.

Restriction de participation

Les membres de l’Université de La Réunion ainsi que les acteurs dans le domaine de la production d’énergie solaire de l’Île de La Réunion ne sont pas autorisés à participer au défi.

Calendrier

Les dates de soumission et de notification seront les mêmes que pour la conférence EGC 2018.

Contact

Vous retrouverez tous les éléments du Défi-EGC sur la page dédiée du site de l’association EGC.

Si vous avez d’autres questions, merci de contacter Arnaud MARTIN en indiquant clairement « Défi EGC 2018 » dans le sujet de votre mail.

 

Actes Ateliers EGC 2017

Fabien L. Gandon, Gilles Bisson

Site de la conférence EGC 2017

Cinquièmes post-actes

Fabrice Guillet, Bruno Pinaud, Gilles Venturini and Djamel Abdelkader Zighed (eds),
« Advances In Knowledge Discovery and Management, Volume 5 »,
Series: Studies in Computational Intelligence,
Vol. 615, 2016, Springer.
ISBN: 978-3-319-23751-0, DOI: 10.1007/978-3-319-23751-0.

About this book

This book is a collection of representative and novel works done in Data Mining, Knowledge Discovery, Clustering and Classification that were originally presented in French at the EGC’2013 (Toulouse, France, January 2013) and EGC’2014 Conferences (Rennes, France, January 2014). These conferences were respectively the 13th and 14th editions of this event, which takes place each year and which is now successful and well-known in the French-speaking community. This community was structured in 2003 by the foundation of the French-speaking EGC society (EGC in French stands for « Extraction et Gestion des Connaissances » and means « Knowledge Discovery and Management », or KDM).

This book is aiming at all researchers interested in these fields, including PhD or MSc students, and researchers from public or private laboratories. It concerns both theoretical and practical aspects of KDM. The book is structured in two parts called « Applications of KDM to real datasets » and « Foundations of KDM ».

Keywords:

Knowledge Discovery, Knowledge Management, Data Mining, Knowledge Engineering, Applications

Table des matières

Part I – Applications of KDM to Real Datasets

  • Romain Guigourès, Marc Boullé and Fabrice Rossi:
    A Study of the Spatio-Temporal Correlations in Mobile Calls Networks. 3-18
  • Mohamed K. El Mahrsi, Romain Guigourès, Fabrice Rossi
    and Marc Boullé:
    Co-Clustering Network-Constrained Trajectory Data. 19-32
  • Natalia Grabar, Pierre Chauveau-Thoumelin and Loïc Dumonet:
    Medical Discourse and Subjectivity. 33-54

Part II — Foundations of KDM

  • Xavier Dolques, Florence Le Ber, Marianne Huchard
    and Clémentine Nebut:
    Relational Concept Analysis for Relational Data Exploration. 57-78
  • Modou Gueye, Talel Abdessalem and Hubert Naacke:
    Dynamic Recommender System: Using Cluster-Based Biases to Improve the Accuracy of the Predictions. 79-104
  • Willy Ugarte, Patrice Boizumault, Samir Loudni, Bruno Crémilleux
    and Alban Lepailleur:
    Mining (Soft-) Skypatterns Using Constraint Programming. 105-136

Défi EGC 2017 : Un défi vert pour Grenoble

Pour cette seconde édition du défi EGC, Big Datext, entreprise Grenobloise spécialisée dans l’analyse prédictive, et la mairie de Grenoble se sont toutes deux impliquées dans la mise en place et la diffusion de la base de données du challenge. En phase avec la politique Open Data de la Ville, visant à diffuser les données publiques de la métropole, Big Datext et les services de la Ville ont souhaité axer le défi sur les données relatives aux espaces verts.

Données

Les données concernent des arbres situés dans la ville de Grenoble et entretenus par les services municipaux. Chaque enregistrement concerne un arbre et comporte des variables décrivant son type, son stade de développement, sa localisation et son environnement, son état et les traitements préconisés.

Objectifs

Le but de ce défi est double.

  • La première tâche consiste à déterminer, à partir des données disponibles, si l’arbre a un défaut et dans l’affirmative lequel.
  • La seconde tâche, plus ouverte, vise à appliquer des techniques d’extraction et de gestion de connaissances afin de mieux connaître l’état du « parc végétal » de Grenoble, de mieux comprendre son évolution et de fournir des préconisations pour faciliter son entretien. Pour cette seconde tâche, les participants peuvent, s’ils le souhaitent, avoir recours à des données externes.

Les participants peuvent traiter au choix l’une des deux tâches ou les deux et, un retour sur la qualité des données (complétude, redondance, etc.) dans un contexte open data sera apprécié.

Soumission

Pour répondre au défi, vous devez rassembler vos résultats sur ces données dans un article long soumis à la conférence EGC’2017 avec la mention « Défi EGC 2017 » dans le titre. Le format à utiliser est la dernière version du style LaTeX RNTI : http://www.editions-rnti.fr/files/RNTI-X-Y2.1.zip

Les modalités de soumission et d’acceptation sont les mêmes que pour les autres articles EGC, notamment l’anonymat des soumissions.

De plus les participants au premier défi devront renvoyer un fichier de résultats contenant leur prédiction pour un jeu d’évaluation qui sera fourni ultérieurement.

Les fichiers des données au format CSV ainsi que le descriptif des variables (EGC_description_variables_14042016.xls, classeurs EGC et Prédiction) et les consignes pour la tâche de prédiction sont disponibles sur le site : https://egc2017.imag.fr/defi

Présentation

Les papiers acceptés seront présentés lors de la conférence à Grenoble en janvier 2017, très certainement dans une session spéciale « Défi EGC ».

Prix

Attribution du prix du défi EGC 2017 : 1500 euros

Un jury se réunira pour attribuer le prix du défi EGC 2017, dans le même esprit que pour les autres prix EGC. Les critères d’attribution seront en particulier la pertinence et la qualité de l’approche méthodologique ainsi que l’originalité et l’intérêt des résultats obtenus.

Calendrier

Les dates de soumission et de notification seront les mêmes que pour la conférence EGC 2017.

Contact

Vous retrouverez tous les éléments du Défi-EGC sur la page dédiée du site de l’association EGC (http://www.egc.asso.fr/).

Si vous avez d’autres questions, merci de contacter Christine Largeron en indiquant clairement « Défi EGC 2017 » dans le sujet de votre mail.