Préparation des données

donnees-binaires

Une fois la réception des questionnaires papier effectuée, il faut récupérer les données, les intégrer dans des bases de données et en contrôler la qualité.

Les données des 2 premiers questionnaires E3N ont été saisies par lecture optique, celles du 3ème à la main par une société de prestation, et à partir du 4ème questionnaire, nous avons adopté la méthode de Lecture Automatique des Documents (LAD).

Au démarrage, la saisie par scanner optique

Les premiers questionnaires ont été lus par un scanner optique : le principe étant de transformer une case noircie au crayon en une donnée informatisée. Le rythme de lecture du scanner était de 1 600 pages par heure. Pour scanner les données de 100 000 questionnaires de 2 pages, il fallait une personne à temps plein pendant 1 mois. La rigueur du scanner optique présente de grands avantages mais aussi l’inconvénient de rejeter toute feuille sur laquelle une erreur est détectée, par exemple deux cases noircies au lieu d’une.

Pour corriger les erreurs de lecture du scanner optique, toutes les réponses étaient vérifiées depuis le questionnaire papier. Les feuilles étaient ainsi revues et corrigées une à une. Le rythme de cette vérification était par conséquent très lent.

Les 3 premiers questionnaires ont été triés manuellement, par numéro d’identification, afin de pouvoir les retrouver.

La Lecture Automatique des Documents (LAD)

La Lecture Automatique de Documents (LAD) est un ensemble de technologies qui permet de segmenter et d'extraire, par reconnaissance optique de caractères, des informations textuelles sur des documents numérisés. Les informations ainsi extraites sont alors utilisées comme métadonnées dans un système de GED (Gestion Électronique de Documents).

Suite à l’envoi d’un questionnaire à l’ensemble des femmes de la cohorte E3N, voilà les différentes étapes de traitement des questionnaires une fois qu'ils nous sont revenus complétés :

  • Les codes-barres (correspondant au numéro d'identification de la femme E3N) présents sur les questionnaires sont douchés. Cela permet d’organiser les relances des non répondantes rapidement.
  • Les questionnaires réceptionnés sont triés en fonction des priorités de recherche (cancer du sein, cancer colorectal, mélanome, diabète, maladies cardiovasculaires…). Puis ils sont conditionnés par lots de 20 questionnaires de 12 pages.
  • Les pages des questionnaires sont ensuite scannées par des machines de grande capacité, à raison de 7 500 pages par heure en moyenne. La procédure de Lecture Automatique de Documents (LAD), paramétrée au préalable pour reconnaître les informations présentes sur chacune des pages, est lancée simultanément.
  • Il faut toutefois vérifier et valider les informations recueillies automatiquement par la machine. Le vidéo-codage des réponses permet de les visualiser à l’écran, et de corriger, si besoin, les informations mal interprétées par le logiciel de LAD.

La LAD nous fait gagner beaucoup de temps dans le traitement et l’archivage des questionnaires. En effet, nous n'avons plus besoin de trier manuellement les questionnaires papier et nous avons considérablement raccourci le temps de saisie des données et augmenté leur fiabilité.

La Gestion Électronique des Documents (GED)

Documentum est l’infrastructure qui nous permet de gérer tous les contenus de l’étude, les auto-questionnaires, les informations manuscrites qui les accompagnent (souvent sous forme de petits mots), les comptes-rendus anatomopathologiques des tumeurs et tous les autres documents médicaux disponibles. Documentum permet également d’enregistrer des fichiers électroniques ou d’autres sources de données et de les transformer en bases de données directement exploitables pour des analyses statistiques.

Cette nouvelle infrastructure réduit considérablement la saisie manuelle des données, tout en limitant les erreurs de traitement, en améliorant la précision des données et en augmentant la productivité. Enfin, elle nous permet de chercher rapidement les documents électroniques.

Le contrôle de la qualité des données et leur validation

Tout descriptif statistique nécessite au préalable une vérification des données enregistrées.

Pour que les données soient exploitables, il faut que le pourcentage de réponses manquantes soit faible et que la cohérence intra-questionnaire des réponses soit respectée. Le sérieux des femmes E3N établit le taux de réponse à chaque questionnaire au niveau très satisfaisant de 85 %.

Comme les données reposent sur l’auto-déclaration des volontaires, certains éléments, notamment ceux qui concernent leur santé, doivent être validés. Dès qu’une pathologie est auto-déclarée, l’équipe E3N se procure les documents histologiques nécessaires à sa confirmation, grâce à l’aide des médecins (de ville, des hôpitaux, des centres anti-cancéreux, des laboratoires d'anatomie pathologique).

Depuis janvier 2004, en accord avec la Cnil, la MGEN nous transmet les données sur les médicaments remboursés à leurs adhérentes Ainsi, nous connaissons le nom et la date de délivrance des médicaments prescrits aux femmes E3N. Soulignons qu’il y a une très bonne concordance entre les données auto-déclarées et celles de la base de remboursement de la MGEN.