Projet 5 / 5

Qualification des données

Construire une chaîne de qualification systématique pour produire un jeu de données de référence sur les Macrohétérocères

Programme

QUALIF

Cible prioritaire

Macrohétérocères

Périmètre

Données Artemisiae

Coordination

~30 bénévoles + salariée

Stigmella hemargyrella (Kollar, 1832), Nepticulidae, Vosges — microlépidoptère emblématique de la difficulté à qualifier une donnée d'observation sans expertise spécialisée
Stigmella hemargyrella (Kollar, 1832) — Vosges © D. Demergès

Toute donnée naturaliste a une histoire : un observateur, un lieu, une date, une identification, un contexte. Mais cette histoire n'est pas toujours complète, ni toujours certaine. La qualification de la donnée est le travail méthodique qui permet d'expliciter ce qu'on sait, ce qu'on ignore, ce qu'on peut en faire, et avec quel niveau de confiance.

Le projet QUALIF structure ce travail à grande échelle pour les Macrohétérocères de France. Il s'appuie sur le réseau de validateurs d'Artemisiae, mobilise les quatre autres référentiels d'oreina, et a pour finalité de mettre à disposition de la communauté un jeu de données de référence exploitable pour des usages aussi variés que la conservation, la recherche, la gestion des espaces naturels ou la science participative.

Pour comprendre

Qualifier la donnée : exactitude et pertinence

La qualification des données recouvre en réalité deux processus distincts mais complémentaires, qu'il est important de bien différencier.

Le premier processus s'engage au moment de l'acquisition. Il cherche à évaluer l'exactitude de la donnée : l'espèce est-elle correctement identifiée ? La date est-elle plausible compte tenu de la phénologie ? La localisation est-elle cohérente avec l'aire de répartition connue ? Y a-t-il une photo ou un spécimen pour étayer l'observation ? Ce travail relève à la fois d'algorithmes automatiques (détection d'anomalies, croisements avec les référentiels) et d'une validation experte manuelle pour les cas douteux. C'est le travail que les bénévoles d'oreina effectuent quotidiennement sur la plateforme Artemisiae.

Le second processus est différent : il s'agit de qualifier la donnée en termes d'usage. Une donnée parfaitement exacte n'est pas forcément pertinente pour tous les usages. Pour réaliser une liste rouge selon les critères UICN, par exemple, on ne s'intéressera qu'aux données récentes (souvent moins de 10 ou 15 ans), géoréférencées avec une précision suffisante, et issues de prospections suffisamment couvrantes pour que les absences puissent être interprétées. Une donnée historique de qualité, datant de 1985, peut être parfaitement exacte mais inutilisable pour caractériser la situation actuelle.

Le projet QUALIF mobilise ces deux processus de façon coordonnée, avec un objectif final précis : produire un jeu de données de référence exploitable pour l'évaluation de l'état de conservation des Macrohétérocères de France.

L'enjeu

Une donnée fiable, c'est ce qui rend tout le reste possible

Les Macrohétérocères représentent l'essentiel de la diversité lépidoptérologique française : plusieurs milliers d'espèces, contre moins de 260 pour les Rhopalocères. Mais leur connaissance est nettement moins structurée. La pratique du piégeage lumineux, les difficultés d'identification, la dispersion des observations entre une multitude d'observateurs et de bases régionales font que les données sur les papillons de nuit sont à la fois nombreuses et hétérogènes.

Sans qualification systématique, cette masse de données reste sous-utilisée. Une carte de répartition produite à partir de données non qualifiées peut donner l'illusion d'une connaissance qui n'existe pas. Une analyse temporelle peut faire apparaître des tendances qui ne reflètent que les variations de l'effort de prospection. Une donnée mal géoréférencée, ou rattachée à un nom devenu invalide, peut polluer durablement les analyses.

L'enjeu de QUALIF est donc d'abord scientifique et méthodologique : produire une matière qualifiée, documentée, sourcée, qui ouvre des possibilités d'usage que la donnée brute ne permet pas. Sur les Macrohétérocères de France, ce travail constitue à la fois un effort inédit par son ampleur et une condition préalable à beaucoup d'autres travaux.

Une fois ce socle constitué, les usages possibles sont nombreux : recherche (modélisation des dynamiques de populations, étude des réponses au changement climatique), gestion d'espaces naturels (élaboration de plans de gestion, identification d'enjeux locaux), science participative (alimentation de programmes de suivi standardisés), évaluations environnementales, et bien sûr évaluation de l'état de conservation, dont la perspective d'une future Liste rouge nationale des papillons de nuit, en complément de la liste rouge européenne en cours d'achèvement à laquelle oreina contribue.

Le rôle d'oreina

Un réseau de validateurs au cœur du dispositif

QUALIF occupe une place particulière dans le dispositif scientifique d'oreina. Là où les quatre autres projets — TAXREF, SEQREF, BDC, IDENT — produisent et structurent des référentiels techniques, QUALIF mobilise ces référentiels au service de la donnée d'observation. Il en est l'aboutissement opérationnel : c'est dans QUALIF que se concrétise l'utilité des autres projets pour la conservation.

Au cœur du dispositif se trouve le réseau de validateurs d'Artemisiae, qui est probablement l'une des forces les plus singulières d'oreina dans le paysage naturaliste français. Une trentaine d'experts bénévoles, chacun spécialisé sur un groupe taxonomique précis (Géomètres, Noctuelles, Microlépidoptères, Sphinx, Saturnies, Hespéries, Lycènes, etc.), examinent au quotidien les observations saisies sur la plateforme. Cette validation ne se limite pas à un simple contrôle de plausibilité : elle s'appuie sur la confrontation à un faisceau de référentiels (taxonomie, difficulté d'identification, traits de vie, séquences de référence) et permet d'aboutir à une donnée qualifiée, sourcée, réutilisable.

Ce réseau, animé en continu, est le dispositif technique et humain qui rend possible le projet QUALIF. Sans lui, aucune qualification systématique à l'échelle nationale ne serait envisageable.

Le projet QUALIF mobilise simultanément les ressources des quatre autres projets :

  • le référentiel TAXREF et son interface Systema, pour s'assurer que chaque donnée est rattachée au taxon valide actuel ;
  • la typologie IDENT de difficulté d'identification, pour évaluer la fiabilité d'une identification au regard du stade observé, de la difficulté du groupe, de la sympatrie locale ;
  • les données SEQREF de barcoding, pour trancher les cas où l'identification morphologique est incertaine ;
  • la base BDC de traits de vie, pour vérifier la cohérence phénologique, écologique et altitudinale d'une donnée.

L'ensemble est piloté par un groupe projet de cinq bénévoles et appuyé par la coordinatrice scientifique salariée et un chargé d'étude dédié à temps partiel.

Chiffres-clés

QUALIF en chiffres

Mobilisation, livrables et horizon du projet 2026, 2028.

~30

experts validateurs bénévoles spécialisés par groupe taxonomique

5

bénévoles du groupe projet pilotant la coordination scientifique

~2

ETP bénévoles par an, soit ~50 000 € de bénévolat valorisé

~5

rapports d'analyse de qualité à transmettre aux producteurs de données

1

jeu de données de référence Macrohétérocères, format SINP/INPN, livré à l'horizon 2028

~3 000

espèces de Macrohétérocères concernées par le travail de qualification

Source : fiche projet QUALIF 2026, 2028.

Méthodologie

Une chaîne de qualification en quatre temps

Du flux brut de données à l'évaluation Liste rouge, le projet QUALIF structure une chaîne complète qui combine algorithmes, expertise humaine et validation collective.

1

Validation automatique

Application systématique d'algorithmes de détection d'anomalies sur l'ensemble du flux de données : croisement avec les référentiels TAXREF, IDENT, BDC, contrôle de cohérence phénologique, géographique, altitudinale.

Tous les jeux de données passent par cette première étape, qu'ils proviennent d'Artemisiae ou d'autres sources du SINP.

2

Validation experte manuelle

Examen approfondi des cas signalés comme douteux par la validation automatique, par le réseau d'experts validateurs spécialisés. Confrontation des avis sur les cas problématiques.

Chaque expert se concentre sur le ou les groupes taxonomiques qu'il maîtrise.

3

Qualification d'usage

Sur les données validées comme exactes, identification de celles qui sont exploitables pour une évaluation Liste rouge : profondeur temporelle, précision géographique, représentativité de l'effort de prospection.

Mise en évidence des biais et des lacunes : régions sous-prospectées, espèces sans donnée récente.

4

Diffusion qualifiée

Production du jeu de données de référence (format SINP/INPN), des rapports d'analyse adressés aux producteurs, et d'une note méthodologique transmise aux instances UICN et Liste rouge.

Les producteurs reçoivent un retour personnalisé sur la qualité de leurs données.

Articulation

QUALIF orchestre les autres projets

Chacun des projets scientifiques d'oreina alimente QUALIF avec un type de référentiel ou de connaissance. C'est ce qui fait la cohérence d'ensemble du dispositif.

Une cohérence d'ensemble. Chacun des cinq projets pris isolément constitue une contribution scientifique en soi. Mais c'est leur articulation, et la capacité d'oreina à les mobiliser conjointement au service de la qualification de la donnée, qui fait la valeur stratégique du dispositif. QUALIF est le projet où cette cohérence devient visible et opérationnelle.

Horizon 2028

Des usages multiples

Le livrable principal du projet QUALIF est un jeu de données de référence Macrohétérocères, au format SINP/INPN, accompagné d'une note méthodologique détaillant les choix de qualification effectués, les biais identifiés et les régions ou groupes problématiques. Ce livrable n'a pas une seule destination, mais plusieurs usages possibles, en fonction des besoins de chaque utilisateur.

Pour les chercheurs, c'est une matière première solide pour modéliser les dynamiques de populations, étudier les réponses au changement climatique, ou analyser les facteurs de raréfaction des espèces. Pour les gestionnaires d'espaces naturels, c'est un référentiel auquel se confronter pour situer le patrimoine lépidoptérologique d'un site dans son contexte national, et identifier les enjeux locaux spécifiques. Pour les bureaux d'études intervenant dans le cadre d'évaluations environnementales, c'est un support pour interpréter les résultats d'inventaires ponctuels.

Pour les programmes de science participative, le jeu de données qualifié permet d'identifier les espèces sur lesquelles concentrer les efforts d'observation citoyenne, et celles qui demandent au contraire une expertise solide. Pour les associations naturalistes régionales, c'est un outil de comparaison et de mise en cohérence avec les autres bases régionales.

Le jeu de données pourra enfin servir à des évaluations de l'état de conservation : identification d'espèces dont la situation appelle une vigilance, alimentation du volet espèces rares du dispositif EU-PoMS, et le cas échéant, contribution à une future liste rouge nationale des Lépidoptères nocturnes, en complément de la liste rouge européenne des Macrohétérocères en cours d'achèvement à laquelle oreina contribue.

Cette diversité d'usages est précisément ce qui justifie l'ambition du projet : la qualification systématique a un coût élevé, mais le jeu de données qui en résulte est un investissement collectif qui ouvre de multiples possibilités de travail pour la communauté scientifique, les acteurs de la conservation et les naturalistes eux-mêmes.

Une finalité structurante

Mettre à disposition un jeu de données de référence

Au-delà de la Liste rouge, l'un des objectifs structurants de QUALIF, étroitement lié au projet Artemisiae, est de produire et de mettre à disposition de la communauté un jeu de données de référence sur les Macrohétérocères de France. C'est une condition de l'utilité collective du travail de validation effectué par le réseau d'oreina.

Pourquoi un bien commun

Une donnée validée qui resterait confinée dans la base interne d'oreina perdrait l'essentiel de sa valeur. Artemisiae n'a pas vocation à être un silo : la qualité de la donnée n'a de sens que si elle bénéficie à l'ensemble de la communauté naturaliste, scientifique et institutionnelle.

Le projet QUALIF assume donc explicitement cette dimension : produire un jeu de données de référence librement accessible, dans les formats standards du Système d'Information sur la Biodiversité, est un livrable au même titre que la qualification elle-même.

À qui il sera utile

Le jeu de données de référence Macrohétérocères pourra servir aux évaluations Liste rouge nationales et régionales, aux gestionnaires d'espaces naturels qui élaborent des plans de gestion, aux chercheurs qui modélisent les dynamiques de populations, aux bureaux d'études dans le cadre des évaluations environnementales, et aux associations naturalistes régionales qui souhaitent croiser leurs données avec un référentiel national qualifié.

À chaque utilisateur correspondent des besoins de précision et de profondeur temporelle différents, que la qualification d'usage permettra d'adresser.

Format SINP / INPN

Le jeu de données est produit dans les formats standards interopérables du Système d'Information sur la Biodiversité, garantissant son intégration dans les écosystèmes de données existants.

Méthodologie transparente

Une note méthodologique accompagne le jeu de données et précise les choix de qualification, les biais identifiés, les régions et groupes problématiques. Chaque utilisateur peut juger de la pertinence pour son usage propre.

Mises à jour régulières

Le jeu de données vit. Il s'enrichit en continu des nouvelles validations effectuées par le réseau d'Artemisiae et fait l'objet de versions stabilisées périodiques accompagnées de leurs métadonnées.

Une cohérence avec la philosophie d'Artemisiae. La plateforme Artemisiae est conçue depuis l'origine comme un commun, accessible à tous, adhérents ou non, pour la saisie comme pour la consultation. Le projet QUALIF prolonge naturellement cette philosophie en mettant à disposition non plus seulement la plateforme, mais le résultat collectif du travail de validation : la donnée qualifiée elle-même.

Contribuer

Vous pouvez contribuer

QUALIF est un projet collectif qui ne peut pas se faire sans une mobilisation large : la qualification de centaines de milliers de données ne peut reposer sur quelques personnes. Plusieurs formes de contribution sont possibles, à différents niveaux d'engagement.

Saisissez des observations documentées

La meilleure contribution à QUALIF commence par une saisie soigneuse sur Artemisiae : photo, géoréférencement précis, contexte d'observation, méthode utilisée. Une donnée bien documentée à la source économise un travail considérable de validation en aval.

Devenez expert validateur

Si vous avez une expertise solide sur un groupe (Géomètres, Noctuelles, Microlépidoptères, Sphinx, Saturnies...), rejoignez le réseau des validateurs. Le temps de validation est modulable selon vos disponibilités, et l'appui méthodologique est assuré par le groupe projet.

Rejoindre le projet

Participer à QUALIF

Que vous soyez observateur de terrain, expert validateur ou gestionnaire d'une base de données régionale, votre contribution alimente le jeu de données de référence sur les Macrohétérocères de France et démultiplie ses usages. Contactez-nous pour échanger.

Découvrir les autres projets

QUALIF est l'aboutissement opérationnel du dispositif scientifique d'oreina : il mobilise les quatre projets de référence (TAXREF, SEQREF, BDC, IDENT) pour qualifier les données d'observation.