Edition des données
Introduction Dans une opération telle que l'enquête 1-2-3, le traitement informatique se déroule en deux grandes étapes : la saisie et l'apurement des données. Après la phase d'apurement, la suite du traitement relève de l'analyse. Les instructions qui suivent visent à permettre l'harmonisation des procédures de traitement. La règle générale est de ne pas attendre la fin de la collecte pour démarrer les opérations de saisie et d'apurement ; en fait la stratégie adoptée consiste à réaliser l'apurement pendant le déroulement des opérations de collecte. Si l'apurement ne commence qu'après que la collecte ne soit complètement achevée, on perd la possibilité d'effectuer des retours de terrain. Un bon timing des opérations serait d'engager la formation des agents de saisie une semaine avant le début de la collecte ou tout au moins au moment où débute cette phase de l'enquête. La saisie proprement dite commencerait alors une semaine après la collecte et l'apurement commencerait une semaine après la saisie ; c'est à dire deux semaines après le début de la collecte. On propose que l'apurement de la phase 1 se déroule par vagues de 500 ménages qui seront dénommés LOT01 à LOT05 conformément aux instructions du manuel de l'agent de saisie. En fait, étant donné qu'on utilise 10 agents de saisie, les 10 fichiers (un par agent) du premier batch peuvent être dénommés LOT01A à LOT01J, les 10 fichiers du deuxième batch LOT02A à LOT02J, etc. Pratiquement, après la saisie des 500 premiers ménages, les dix fichiers précédents d'un même batch sont transférés dans l'ordinateur du responsable du traitement informatique. Transformation de fichiers CSPRO en fichiers SPSS Le logiciel CSPRO utilisé pour la saisie des données permet d'obtenir un fichier sous format ASCII. Les fichiers de ce format ne sont pas directement utilisables par un programme SPSS, logiciel retenu pour l'apurement des données. Même si on voulait lire directement le fichier produit par CSPRO, Il y aurait d'ailleurs une difficulté supplémentaire. SPSS ne peut lire efficacement que les fichiers plats (un enregistrement correspond à un individu statistique) ou les fichiers rectangles (un nombre fixe d'enregistrements correspondent à un individu). Or, dans le cas d'espèce, le fichier produit comporte quatre ou cinq types d'enregistrements : un enregistrement habitat et équipement du ménage (variables H et E), un enregistrement relatif au module pauvreté dans le ménage (variables P), autant d'enregistrements socio-démographiques (variables M) qu'il y a de personnes dans le ménage, autant d'enregistrements emploi (variables EA, AP, AS, R, C, TP et RHA) qu'il y a de personnes de 10 ans et plus dans le ménage et autant d'enregistrement sur la gouvernance et la démocratie (variables G et D) qu'il y a de personnes de 18 ans et plus dans le ménage. Ce fichier n'est pas plat (car il y a plus d'un enregistrement par ménage) et il n'est pas rectangle (car le nombre de personnes varie d'un ménage à l'autre). Il faut donc utiliser des procédures spécifiques pour transformer le fichier CSPRO en un fichier qui peut être traité par SPSS. Dans un premier temps, on transforme les fichiers CSPRO (LOT01A à L0T01J pour la première série de correction, LOT02A à L0T02J pour la deuxième, etc.) en quatre ou cinq fichiers rectangles. Cette opération se fait à l'aide de la procédure « EXPORT ». Pour la mettre en œuvre, après avoir lancé le programme de saisie (icône SAISIE Phase1), on va au menu « TOOLS » et on choisit le sous-menu « EXPORT DATA ». La procédure est automatique. i) Le logiciel vous demande simplement d'ouvrir un dictionnaire ; vous choisissez le fichier « parsta~1.dcf » dans le répertoire ENQ123\Phase1\PRGM. ii) Vous devez ensuite choisir les variables à exporter ; en choisissant le questionnaire entier, vous choisissez d'exporter toutes les variables. iii) Vous choisissez ensuite le menu « FILE » et vous faites « RUN » ; le logiciel vous demande ensuite le nom du fichier à exporter. iv) Vous allez au répertoire approprié (normalement C:\ENQ123\ PHASE1\DATA) et vous choisissez les dix fichiers à exporter (on le fait en maintenant la touche « Ctrl » appuyée - opération classique dans Windows) : LOT01A à L0T01J ; ces dix fichiers sont implicitement consolidés lors de cette opération. Le résultat est la création de quatre ou cinq fichiers plats : un fichier contenant les variables H et E du ménage, un fichier contenant les variables P du ménage et deux ou trois fichiers sur les individus du ménage dont l'un composé des variables socio-démographiques, le second des variables sur l'activité et éventuellement un dernier fichier contenant les variables la gouvernance et la démocratie. Ces fichiers portent implicitement les noms HABITAT.txt, PAUVRETE.txt, DEMO.txt, EMPLOI.txt et GOUVER.txt. Ils ont deux caractéristiques : premièrement, ils disposent de séparateurs (tab) et la version de SPSS utilisée permet de les lire automatiquement sans avoir à écrire un programme compliqué ; deuxièmement, les noms des variables sont consignés à la première ligne et peuvent être conservés au moment de la lecture. Pour lire chacun de ces fichiers, dès lors que vous êtes dans le logiciel SPSS, il suffit de choisir le menu « FILE » et le sous-menu « READ TEXT DATA ». En exécutant la procédure « READ TEXT DATA », il faut choisir les bonnes options. Rappelez-vous que : · les noms des variables figurent sur la première ligne de vos fichiers de données ; · les données proprement dites commencent à la deuxième ligne ; · une ligne représente un cas (individu statistique) ; · les données ne sont pas en format fixe, par contre il y a un délimiteur, la touche Tab. Il est important d'archiver des fichiers de données déjà triés car beaucoup de programmes s'en trouvent faciliter. Pour cette raison, après l'exécution de la procédure précédente, il convient de faire passer une autre procédure : « SORT CASES » que l'on trouve dans le menu « DATA ». Après l'exécution de la procédure précédente, vous pouvez sauvegarder chacun des fichiers, à l'aide de la procédure « SAVE AS » que l'on trouve dans le menu « FILE ». Les fichiers peuvent être sauvegardés avec le même nom que précédemment (on propose quelques variantes par la suite), mais avec l'extension « SAV » ; cette extension est d'ailleurs attribué automatiquement aux fichiers systèmes SPSS. Les programmes d'apurement supposent que les fichiers sont sauvegardés dans le sous-répertoire « Data » du sous-répertoire « Phase 1 » du répertoire « ENQ123 », il faudrait respecter cette logique à moins de modifier les programmes. Sauvegarde des fichiers sous format SPSS Pour faciliter l'apurement des données, il est préférable de disposer de deux fichiers seulement pour la phase 1 : un fichier relatif aux informations sur le ménage (fichier ménage) et un fichier portant sur les membres du ménage (fichier individu). Le fichier ménage est obtenu en fusionnant les fichiers HABITAT.txt et PAUVRETE.txt. Quant au fichier individu, on l'obtient de la même façon en fusionnant les fichiers DEMO.SAV et EMPLOI.SAV. le programme ESI01a.SPS vous permet d'obtenir les deux fichiers, résultats de la consolidation respective de deux des quatre fichiers précédents. Pour les pays concernés, il y a un troisième fichier GOUVER.SAV résultant de la procédure « READ TEXT DATA » précédente et on peut le conserver momentanément avec ce nom. Dénomination des fichiers Pour suivre de manière rigoureuse le processus d'apurement des données, il convient d'adopter des règles de dénomination des fichiers. Il est proposé de traiter l'enquête en 5 vagues différentes, numérotées de 1 à 5. Pour chacune des vagues, on peut procéder à plusieurs phases de correction. Il est important de conserver les fichiers de chacune des phases. Les fichiers SPSS bruts du premier batch de la phase 1 seront appelés respectivement MENAGE1a.SAV, INDIVI1a.SAV et GOUVER1a.SAV. D'après les instructions précédentes, les deux premiers fichiers sont obtenus à la suite de l'exécution du programme intitulé ESI01a.SPS. Pour ceux qui préfèrent les opérations interactives, cette fusion peut également se faire de cette façon. Cependant, les opérations interactives ne sont pas conseillées dans le cadre des opérations de grande envergure comme l'enquête 1-2-3 car elles ne laissent aucune trace. Le troisième fichier est obtenu directement après l'exécution de la procédure « READ TEXT DATA ». Les fichiers qui sont créés sont ceux sur lesquels seront exécutés les programmes de correction. Ils peuvent être de taille relativement importante. Lors du déroulement d'un programme SPSS, le fichier SPSS est automatiquement dédoublé en un fichier de travail virtuel (Active file) qui est lu à chaque fois que passe une procédure. Un programme d'apurement de données contient un nombre important de procédures, ce qui peut ralentir considérablement le temps d'exécution d'un programme. Une astuce consiste à créer un « fichier cache » (Data Cache). Ce fichier est une copie cachée de votre fichier de votre fichier de travail ; sa particularité est qu'il n'est lu qu'une seule fois, ce qui permet de gagner du temps. L'inconvénient étant que vous consommez plus d'espace disque. Pour créer le « Data Cache », après avoir lu votre fichier, il suffit de choisir le sous menu « Cache Data » dans le menu « File ». Des programmes d'apurement sont exécutés sur ces premiers fichiers et une liste des erreurs est produite. Si le taux d'erreur est trop élevé (à l'appréciation du Directeur technique de l'enquête ou de son adjoint, il faudrait vérifier s'il s'agit des erreurs de saisie, auquel cas il faut reprendre la saisie ; ou des erreurs de terrain, auquel cas il faut un retour de terrain. Si le taux d'erreur est acceptable, on procède aux corrections sur CSPRO dans les fichiers LOT01x (x = A, …, J). Après les premières corrections, on reprend la procédure d'exportation du fichier pour aboutir à des fichiers SPSS dénommés MENAGE1b.SAV, INDIVI1b.SAV et GOUVER1a.SAV, etc. Il faut noter que les questionnaires non rejetés lors du traitement des fichiers MENAGE1a.SAV, INDIVI1a.SAV et GOUVER1a.SAV ne devraient plus l'être dans la suite. Procédure d'apurement Deux approches sont possibles en matière d'apurement des données. La correction automatique suppose de prévoir des imputations à toute erreur décelée sans avoir à consulter les données de base (questionnaires). Les imputations se font à l'aide des procédures telles que le « Cold-deck », le « Hot-deck », des procédures économétriques, etc. Cette approche est souvent utilisée dans les recensements de population. L'autre approche, celle en général adoptée dans les enquêtes est la correction semi-automatique. Il s'agit de déceler les erreurs, de les lister et de faire un retour dans les questionnaires pour procéder aux corrections ; c'est la procédure adoptée dans le cadre de cette opération. Les programmes d'apurement qui sont rédigés ne prévoient pas les tests d'amplitude sur les données. Pour ce faire et avant toute chose, il convient de faire des tris à plat systématique sur toutes les variables du fichier. Ces tris à plat permettent d'épingler les variables où il y aurait des modalités « out of range », on écrit alors une procédure simple pour lister les individus qui auraient ces modalités. En outre, le fait de réaliser ces tris à plat permet d'avoir une première idée sur la qualité des données. Les programmes d'apurement se nomment ESI02.SPS, ESI03.SPS, …, ESI15.SPS. Les programmes ESI02 à ESI13 sont relatifs à la correction du fichier INDIVI1x.SAV, le programme ESI14 à celle du fichier MENAGE1x.SAV et le programme ESI15 à la correction du fichier GOUVER1x.SAV. Chacun de ces programmes permet d'obtenir une liste des erreurs. La logique de ces programmes est la même et elle est relativement simple. Après la lecture des fichiers, une première partie du programme permet de détecter les erreurs et la seconde partie de les lister. Quand on a obtenu la liste des erreurs, les corrections ne se font pas dans le fichier SPSS, mais plutôt dans le fichier consolidé CSPRO. Pour prendre un exemple concret, on obtient 4 (ou 5 pour les pays réalisant les modules « gouvernance et démocratie ») fichiers de données SPSS à partir du fichier de données LOT01 ; après exécution du programme ESI01a, on obtient les deux fichiers MENAGE1a.SAV et INDIVI1a.SAV ; plus le fichier GOUVER1a.SAV déjà disponible. On exécute les programmes ESI02.SPS à ESI15.SPS sur ces trois fichiers et on obtient la liste des erreurs. A l'aide de cette liste, on rentre dans CSPRO pour corriger les fichiers LOT01x. Après l'exécution des programmes, on conserve les fichiers MENAGE1a.SAV, INDIVI1a.SAV et GOUVER1a.SAV (fichiers bruts ; surtout ne pas les détruire). Pour la deuxième série de correction (on en est toujours à la première vague), on crée de nouveaux fichiers MENAGE1b.SAV, INDIVI1b.SAV et GOUVER1b.SAV et on reprend la procédure précédente. Cette procédure est exécutée autant de fois que nécessaire jusqu'à l'obtention de fichiers propres. Les fichiers intermédiaires (entre les fichiers bruts et les fichiers apurés) sous format SPSS sont également archivés quelque part ; en tout cas il serait imprudent de les détruire avant la fin des travaux d'analyse. Pour la deuxième vague de corrections (500 prochains ménages), les fichiers CSPRO s'appellent LOT02x, les fichiers SPSS, MENAGE2a.SAV et INDIVI2a.SAV, etc. Pour ce qui est des corrections proprement dit, la décision n'appartient surtout pas aux informaticiens et encore moins aux agents de saisie ; le responsable technique doit superviser l'apurement des données. En fait quand il s'agit d'une erreur de saisie, le retour au questionnaire permet de corriger l'erreur. Par contre, pour les erreurs de terrain, la réponse n'est pas toujours aisée. Mais il faut utiliser l'information disponible pour redresser les incohérences. A titre d'exemple, un individu qui déclare ne pas avoir de revenu de transfert (RHA5a = 2) mais qui donne un montant correspondant (RHA5b # Blanc), tout laisse à penser qu'il faut changer RHA5 en 1. Evidemment toutes les erreurs ne peuvent être corrigées. Une procédure spéciale de correction automatique des revenus est prévue, elle ne sera exécutée qu'à la fin des autres corrections comme préalable aux travaux d'analyse. Sauvegarde des fichiers définitifs A la fin des opérations d'apurement, on dispose de deux fichiers pour chaque batch : un fichier contenant les informations des modules H, E et P et un fichier sur les caractéristiques des personnes (caractéristiques socio-démographiques et sur l'activité des membres des ménages). Evidemment, le fichier le plus intéressant est le fichier entièrement corrigé (le dernier fichier du lot). Il s'agit donc d'additionner ces différents fichiers pour obtenir les 2 fichiers définitifs de l'enquête, fichiers utilisés pour l'analyse. Le programme ES101b.SPS permet d'obtenir ce fichier définitif. Ce programme est donc le dernier à être exécutée puisqu'il ne l'est qu'après toutes les corrections. L'hypothèse faite lors de l'écriture de ce programme est que chaque LOT est corrigé trois fois, la version définitive des fichiers d'un lot est donc la version « d » ; chaque pays va procéder aux adaptations appropriées. Un aspect important pour le stockage des fichiers définitifs est leur documentation ; les variables et les modalités des variables doivent avoir des labels, ce qui n'est pas le cas pour les fichiers disponibles jusqu'alors, le programme ESI01b.SPS corrige cet état de fait. Pour les pays traitant des modules gouvernance et démocratie en phase 1, le programme ESI01c.SPS permet de réaliser la même opération que précédemment sur ces deux modules. Les pays ne traitant pas ces modules en phase 1 n'ont pas à exécuter ce programme. Les fichiers définitifs auront les intitulés devant permettre de s'y retrouver facilement. Par exemple, le fichier « Ménage » de la phase 1 du Bénin : ESI1BEM1, le fichier « Individu » de la phase 1 du Bénin : ESI1BEI1. et le fichier sur les modules « Gouvernance et démocratie » : ESI1BEG1. ESI est mis pour enquête secteur informel (plus court que E123 qui était mieux), 1 qui suit pour la phase 1, BE pour le Bénin, M, I ou G respectivement pour ménage, individu et gouvernance et le dernier 1 pour l'année 2001. Remarques finales Les programmes sont rédigés sur la base des questionnaires du Mali (pays test), pour chaque pays ils demandent donc à être adaptés. Les adaptations suivantes doivent être effectuées : · vérifier que les noms des fichiers sont corrects ; · vérifier que les noms des variables dont corrects ; · vérifier que les noms des modalités sont corrects (programmes ESI01b et ESI01c sur les variables telles que M8a, M8b, M11a, M11b, M14b, etc.) ; · procéder aux adaptations nécessaires sur les contrôles relatifs aux variables sur l'éducation en sachant que le premier cycle du secondaire au Mali se fait en 3 ans alors qu'il se fait en 4 ans dans les autres pays (test de cohérence faisant intervenir M15) ; · procéder aux adaptations de toutes les autres variables où il est susceptible d'avoir des modalités différentes (par exemple les agences pour l'emploi et les instituts de sécurité sociale n'ont pas toujours la même dénomination). En outre, les erreurs de cohérence ne sont pas à exclure même si les programmes ont été testés. En effet avec SPSS, l'oubli d'un point à la fin d'un commentaire par exemple ne sera pas signalé comme une erreur, mais la commande suivante devient automatiquement inclus dans le commentaire, ce qui change complètement la logique du programme. De même, mettre un « And » à la place d'un « Or » ne sera pas signalé, mais change la logique du programme. Ainsi les informaticiens doivent s'imprégner de ces programmes avant de les utiliser. Une erreur qui bloque souvent l'exécution de programmes de fusion de fichiers en SPSS (cas du programme ESI01a) est l'existence de doublons dans les fichiers à fusionner. Il peut donc être nécessaire d'écrire un petit programme qui détectent les doublons ; ce dernier programme serait exécuté avant le programme ESI01a ; la commande LAG (retard) peut être utile à cet égard. Compléments pour la phase 2 Les mêmes principes généraux mis en œuvre lors de la phase précédente s'appliquent également pour la phase 2. Compte tenu de la complexité dans le type d'information à collecter, le masque de saisie, conçu en CSPro comprend 37 types d'enregistrement différents. La première opération consiste à exporter ces fichiers sous format ASCII en utilisant comme précédemment la procédure « EXPORT DATA » de CSPro. Après l'exécution de cette procédure, on obtient 37 fichiers ASCII. Ensuite, il s'agit comme précédemment de convertir ces fichiers sous format SPSS à l'aide de la commande « READ TEXT DATA » de ce logiciel. Il est important de soulever un point à ce niveau. La version 2.2 de CSPro semble donner la possibilité d'exporter directement les fichiers sous format SPSS, ce qui serait nettement plus aisé pour la manipulation des fichiers, cependant les tests que nous avons effectués montrent que cette possibilité n'est pas encore ouverte. Etant donné que la manipulation de 37 fichiers seraient fastidieux, nous avons pris le parti de fusionner un certain nombre d'entre eux. Les fichiers fusionnés seront certainement les plus usités aussi bien lors de la phase d'apurement que pour les étapes suivantes. Le programme ESI2P01 permet de procéder à cette fusion. En fait, il permet de créer cinq fichiers. Le premier fichier comprend les caractéristiques de la phase 1 de l'enquête, les variables filtres, celles du module A et les trois variables sur le total de la main-d'œuvre. Il s'agit donc d'un fichier de niveau d'enregistrement établissement ; il s'intitule MODULA1a.sav. Le deuxième fichier comprend les variables des tableaux B2, B3 et B4 relatifs aux caractéristiques de la main-d'œuvre. Il s'agit d'un fichier de niveau individu et il s'intitule MODULB1a.sav. L'on a également ajouté les variables B1 (figurant déjà dans le fichier précédent), B5, B6 et les différents totaux ; ces dernières variables se répètent donc autant de fois qu'il y a d'employés dans l'établissement. Le troisième fichier (MODULC1a.sav.) est un fichier de niveau établissement et il comprend tous les agrégats (total du CA en produits transformés, total du CA en services fournis, total des charges en matières premières, total du capital, total des emprunts, etc.) des modules C, D, E et F du questionnaire. Ce fichier comprend également toutes les variables du tableau D4 ainsi que toutes les autres variables des modules précités qui ne font pas partie des tableaux C2, D1, F1 et F2. Le quatrième fichier est également un fichier de niveau établissement et il comprend les variables des modules G et SS ; il s'intitule MODULG1a.sav. Le cinquième fichier (MODULF1a.sav.) est un fichier à structure plus complexe que les précédents. Il comprend un maximum de six enregistrements par établissement, chacun des enregistrements correspondant à un des types d'équipement du module F1. Puisque la collecte admet un maximum de trois équipements pour chaque type, chaque enregistrement comprend donc un maximum de trois occurrences. A la suite de la création de ces fichiers, on exécute les programmes ESI2P02 à ESI2P09 qui permettent de produire les listings d'erreurs et de procéder aux corrections. Les principes de dénomination des fichiers et de correction doivent rester les mêmes que pour la phase 1.