Démarrer votre projet de fin d’études
Alors que nous approchons de la fin de notre bootcamp intensif de codage R de trois mois, nous sommes ravis de vous présenter votre projet de fin d’études. Ce projet est votre occasion de démontrer vos compétences en analyse de données et en rapport en travaillant avec des données du monde réel.
Objectif du projet de fin d’études : Utilisez les données de l’Enquête Démographique et de Santé (DHS) pour créer un rapport basé sur Rmarkdown. Vous avez la liberté de sélectionner un pays et un sujet spécifique pour votre analyse. Ce choix vous permet d’adapter le projet à vos intérêts ou sujets pertinents pour vos objectifs professionnels.
Chronologie du projet de fin d’études
Date limite de soumission finale : 14 avril 2024, avant 23:59 UTC/GMT.
Date limite du pré-travail : Pour assurer votre réussite, nous aurons un contrôle d’avancement du projet le 27 mars, lors de l’atelier 11. Vous devriez compléter les étapes décrites ci-dessous comme pré-travail avant l’atelier.
Exigences du pré-travail
Pour le pré-travail avant l’atelier de la semaine 11, vous devez :
- Lire les instructions du pré-travail : Familiarisez-vous avec les étapes décrites ci-dessous. Parcourez les exemples de rapports pour trouver de l’inspiration.
- Obtenir les données du pays : Décidez du pays sur lequel vous concentrerez votre rapport de projet de fin d’études et téléchargez le jeu de données DHS correspondant de notre collection (fourni ci-dessous).
- Sélection du sujet et question de recherche : Choisissez un sujet pour votre projet et formulez un objectif de recherche spécifique qui guidera votre analyse. Explorez le dictionnaire de données.
- Préparation initiale des données :
- Mettez en place une structure de dossiers de projet R et créez un fichier Rmd pour importer le jeu de données.
- Sélectionnez les variables pertinentes, renommez-les pour plus de
clarté et convertissez les formats en utilisant
{haven}.
- Écrire un paragraphe introductif : Donnez un peu de contexte sur votre pays et le sujet d’intérêt, et les objectifs de votre analyse.
- Tricoter votre rapport préliminaire : Préparez un rapport préliminaire au format HTML ou PDF pour partager vos progrès. Assurez-vous de régler les options de vos blocs de code de manière appropriée pour que votre document affiche uniquement les sorties souhaitées.
- Soumission : Téléchargez à la fois votre fichier Rmd et le HTML/PDF tricoté sur la plateforme du cours avant la date limite.
Pendant l’atelier, vous recevrez un retour individuel d’un instructeur. C’est une excellente occasion de faire approuver votre sujet et d’obtenir des conseils sur la direction de votre projet.
Objectif du pré-travail
En raison de l’importance de ce projet pour votre note finale (40 %), nous mettons en place un contrôle d’avancement pendant l’atelier 11 pour examiner vos données et votre sujet. Cette étape est conçue pour vous assurer que vous êtes sur la bonne voie et pour vous fournir un retour en début de processus.
Inspiration : Exemples de rapports
Pour avoir une idée de ce que nous recherchons, examinez ces soumissions exemplaires d’anciens étudiants :
Notez que ces exemples sont tous en anglais
Remarquez comment ces rapports sont bien structurés et présentent une analyse perspicace sur un sujet de santé publique.
Guide détaillé des étapes du pré-travail
Vous travaillerez avec le jeu de données IR (enregistrement individuel) du DHS, en vous concentrant sur les femmes âgées de 15 à 49 ans. Ce jeu de données fournit une source riche de données au niveau individuel sur divers indicateurs de santé, de population et de nutrition à travers les pays en développement.
Si vous n’avez pas complété l’exercice de l’atelier 10 sur l’importation et le nettoyage des données IR des femmes du DHS, veuillez donner la priorité à cela. Les compétences et techniques couvertes lors de l’atelier 10 sont essentielles pour la réussite de vos étapes d’importation des données.
Étape 1 : Obtenez les données de l’enregistrement des femmes pour votre pays choisi
Les données DHS sont normalement obtenues sur demande sur le site web du DHS ici. Cependant, pour vous accélérer, nous avons déjà demandé et compilé les données dont vous aurez besoin : les derniers jeux de données de l’enregistrement des femmes pour la plupart des pays étudiés depuis 2003. Vous devriez sélectionner une enquête à analyser dans ce dossier. Pour accéder à ces fichiers, suivez ce lien Google Drive.
Une fois que vous avez téléchargé et décompressé le dossier, vous verrez qu’il contient plusieurs types de fichiers différents :
Les trois seuls fichiers dont vous avez besoin sont :
le fichier .DTA (qui est le principal fichier de données de l’enquête au format STATA),
le fichier .MAP (dictionnaire de données)
le fichier .DO (liste des codes et noms de variables)
Créez un nouveau dossier de projet RStudio pour votre analyse et placez ces trois fichiers dans le sous-dossier “data” de votre projet.
Étape 2 : Choisissez un sujet de recherche et identifiez les variables pertinentes
Pour trouver des variables pertinentes à votre sujet choisi, il y a quelques ressources qui pourraient vous aider :
La première est le fichier .MAP que vous avez téléchargé. Si vous ouvrez le fichier .MAP pour votre enquête téléchargée (avec le Bloc-notes ou Word), vous verrez qu’il s’agit d’un dictionnaire de données avec une définition pour chaque variable. Voici quelques lignes d’un tel fichier .MAP :
CASEID (id) Identification du cas
V000 Code du pays et phase
V001 Numéro du cluster
V002 Numéro du ménage
V003 Numéro de ligne du répondantComme vous pouvez le voir, chaque ligne a le nom de la variable et la définition de la variable.
Ainsi, si vous travaillez sur un sujet comme le VIH, vous pouvez simplement rechercher le mot “HIV” dans le fichier .MAP, et vous serez dirigé vers les variables pertinentes pour le VIH.
Notez que le dictionnaire de données est en anglais!
Le DHS a créé une ressource web facile à naviguer appelée “Guide to DHS statistics”, consultable ici. Si vous étudiez un sujet comme le VIH, vous pouvez simplement aller à la section HIV, cliquer sur un sous-thème spécifique, par exemple “Prior HIV Testing”, et vous verrez une liste de variables pertinentes pour cette statistique.
Parfois, les descriptions des variables dans les fichiers .MAP ne sont pas suffisamment détaillées. Dans ce cas, vous pouvez rechercher des variables spécifiques dans un manuel de recodage du DHS manuel.
Les manuels de recodage sont similaires aux fichiers .MAP, mais ils expliquent chaque variable en plus de détails.
Enfin, consulter les publications officielles du DHS sur cette page peut également être utile. Notez que les variables couvertes par le DHS varient d’une enquête à l’autre, donc un certain essai et erreur peut être nécessaire pour trouver un sujet intéressant couvert dans le jeu de données que vous avez choisi.
Étape 3 : Importez votre jeu de données dans R
Pour importer le jeu de données DHS du format .DTA dans R, vous devez
utiliser la fonction read_dta() du package {haven}.
Comme les fichiers DHS sont très volumineux, vous ne devriez pas
importer l’ensemble du jeu de données en une fois, car cela pourrait
prendre beaucoup de temps. Au lieu de cela, vous devriez utiliser
l’argument col_select de read_dta() pour
importer seulement un sous-ensemble de données.
L’argument col_select vous permet de sélectionner des
colonnes spécifiques à importer, soit par nom, soit par position, comme
nous l’avons appris lors de l’atelier 10. Par exemple :
# sélectionner trois variables par leur nom
ir_raw <- haven::read_dta(here("data/NGIR7BFL.DTA"),
col_select = c(caseid, v000, v001))Notez que les noms de variables listés dans le fichier .MAP sont en majuscules (V001) mais dans le fichier .DTA ils sont en minuscules. Convertissez donc TOUTES les lettres des noms de variables en minuscules dans votre code.
Si R ne trouve pas certaines colonnes que vous avez sélectionnées, veuillez vérifier le fichier .DO. Les variables dans le dictionnaire de données du fichier .MAP ne correspondent pas toujours parfaitement avec les vrais noms de colonnes. Le fichier .DO n’est pas aussi détaillé que le fichier .MAP mais il liste les noms de variables exactement tels qu’ils se trouvent dans les données brutes.
Un autre point sur l’importation des données : la fonction
read_dta() lit les données de facteur sous un type de
données spécial appelé labelled. Ce type vous est
inconnu et peut poser problème pour les analyses ultérieures, donc nous
recommandons de convertir ces données en facteurs R réguliers en
utilisant la fonction haven::as_factor().
Par exemple :
Étape 4 : Décrivez votre sujet d’analyse
Une fois vos données en ordre, créez une section d’introduction dans votre Rmd, et écrivez quelques phrases expliquant quel sera l’objectif de votre rapport. Nous comprenons que cela peut évoluer au fur et à mesure que vous travaillez avec les données, mais nous vous encourageons à préciser votre focus pour commencer.
Essayez de faire un usage approprié des niveaux de titres, du code en ligne, des hyperliens ou d’autres fonctionnalités de RMarkdown.
Étape 5 : Exportez et soumettez votre travail
Une fois votre travail terminé, pour le soumettre, vous devez :
Tricoter votre Rmd en un format HTML/PDF ou DOCX.
Téléchargez à la fois votre Rmd et l’un des formats d’exportation sur la page de soumission.
Nous sommes impatients de voir les analyses innovantes et les insights que vous produirez à travers ce projet.
Rappelez-vous, ce projet de fin d’études n’est pas seulement un test de vos compétences techniques mais une démonstration de votre capacité à appliquer l’analyse de données pour répondre à des questions du monde réel.
Bonne chance, et nous sommes là pour vous soutenir à chaque étape du chemin !