Pour cette seconde édition du défi EGC, Big Datext, entreprise Grenobloise spécialisée dans l’analyse prédictive, et la mairie de Grenoble se sont toutes deux impliquées dans la mise en place et la diffusion de la base de données du challenge. En phase avec la politique Open Data de la Ville, visant à diffuser les données publiques de la métropole, Big Datext et les services de la Ville ont souhaité axer le défi sur les données relatives aux espaces verts.
Les résultats du défis seront présentés le mercredi 25 janvier à partir de 16hOO dans l’amphi Weil. Une soirée cocktail à la Marie de Grenoble cloturera cette session.
Objectifs :
Le but de ce défi est double.
Défi 1 :
Il consiste en une tâche de prédiction visant à déterminer, à partir des données disponibles, si l’arbre a ou non un défaut et dans l’affirmative lequel, sachant qu’un arbre peut présenter plusieurs défauts.
Pour information, sur la tâche de prédiction unilabel une baseline permet d’obtenir 86% pour l’exactitude, 82% de précision et 72% de rappel tandis que sur la tâche multilabel les taux sont respectivement de 70% et 47 % pour la précision et le rappel micro et de 64% et 37 % en macro.
Défi 2:
La seconde tâche, plus ouverte, vise à appliquer des techniques d’extraction et de gestion de connaissances afin de mieux connaitre l’état du « parc végétal » de Grenoble, de mieux comprendre son évolution et de fournir des préconisations pour faciliter son entretien. Pour cette seconde tâche, les participants peuvent s’ils le souhaitent avoir recours à des données externes.
Les participants peuvent traiter au choix l’une de ces tâches ou les deux et, un retour sur la qualité des données (complétude, redondance, etc) dans un contexte open data sera apprécié.
Les données :
Les données concernent des arbres situés dans la ville de Grenoble et entretenus par les services municipaux. Pour chaque arbre, on dispose de variables décrivant son type, son stade de développement, sa localisation et son environnement, son état et les traitements préconisés.
Deux jeux 1 et 2 comportant chacun 3 fichiers de données sont mis à disposition des participants. Ils se nomment : X_geoloc_egc_t1.csv, X_tree_egc_t1.csv et Y_tree_egc_t1.csv et X_geoloc_egc_t2.csv, X_tree_egc_t2.csv et Y_tree_egc_t2.csv.
Un troisième jeu, utilisé pour évaluer les soumissions sur la première tâche (Prédiction de défaut), est également disponible. Il comporte les fichiers X_geoloc_egc_t3.csv et X_tree_egc_t3.csv. Les participants à cette tâche de prédiction devront renvoyer en plus de leur article, un fichier de résultats contenant leur prédiction et respectant le format des fichiers Y_tree_egc_t1.csv et Y_tree_egc_t2.csv
Dans chaque fichier, chaque enregistrement concerne un arbre et les enregistrements sont classés dans le même ordre. Ces fichiers de données au format CSV, ainsi que le descriptif des variables et la description complète du défi sont disponibles via les liens suivants :
- Jeux 1 et 2 de données du Défi EGC 2017
- Jeux 3 de données du Défi EGC 2017
- Consignes du Défi EGC 2017
Soumission :
Pour répondre au défi, vous devez rassembler vos résultats sur ces données dans un article au format long soumis à la conférence EGC’2017 avec la mention “Défi EGC 2017” dans le titre. Le format à utiliser est la dernière version du style LaTeX RNTI : http://www.editions-rnti.fr/files/RNTI-X-Y2.1.zip
Le calendrier et les modalités de soumission et d’acceptation sont les mêmes que pour les autres articles EGC, notamment l’anonymat des soumissions. De plus pour le défi 1, les participants devront télécharger sur le site Easychair leur fichier de résultats.
Ce fichier de résultats doit-être au même format que le fichier “Y_tree_egc_t1.csv”, contenant leur prédiction pour le jeu d’évaluation (Jeu 3) qui a été fourni fin août. La version finale de la soumission devra donc prendre la forme :
- d’une archive zip ou tgz contenant le fichier résultat (fichier csv) et
- d’un fichier pdf de l’article pour contrôle.
Présentation :
Les papiers acceptés seront présentés lors de la conférence à Grenoble en janvier 2017, très certainement dans une session spéciale « Défi EGC ». Un prix de 1500 euros sera attribué au meilleur défi EGC 2017.
Contact : Vous retrouverez tous les éléments du Défi-EGC sur la page dédiée du site de l’association EGC. http://www.egc.asso.fr/. Si vous avez d’autres questions, merci de contacter Christine Largeron (largeron@univ-st-etienne.fr) en indiquant clairement « Défi EGC 2017» dans le sujet de votre mail.