banner
Maison / Blog / Réel unifié
Blog

Réel unifié

Sep 01, 2023Sep 01, 2023

Données scientifiques volume 10, Numéro d'article : 367 (2023) Citer cet article

Détails des métriques

Il existe un nombre impressionnant de catalogues de données COVID-19. Cependant, aucun n'est entièrement optimisé pour les applications de science des données. Des conventions de dénomination et de données incohérentes, un contrôle de qualité inégal et un manque d'alignement entre les données sur les maladies et les prédicteurs potentiels constituent des obstacles à une modélisation et à une analyse robustes. Pour combler cette lacune, nous avons généré un ensemble de données unifié qui intègre et met en œuvre des contrôles de qualité des données provenant de nombreuses sources principales de données épidémiologiques et environnementales sur le COVID-19. Nous utilisons une hiérarchie d'unités administratives cohérente à l'échelle mondiale pour faciliter l'analyse au sein des pays et entre eux. L'ensemble de données applique cette hiérarchie unifiée pour aligner les données épidémiologiques COVID-19 avec un certain nombre d'autres types de données pertinentes pour comprendre et prévoir le risque COVID-19, y compris les données hydrométéorologiques, la qualité de l'air, les informations sur les politiques de contrôle COVID-19, les données sur les vaccins et les données clés. caractéristiques démographiques.

La pandémie de COVID-19 en cours a provoqué des maladies généralisées, des pertes de vie et des bouleversements sociétaux à travers le monde. Alors que la crise de santé publique se poursuit, il existe à la fois un besoin urgent et une occasion unique de suivre et de caractériser la propagation du virus. Cela comprend l'amélioration de notre compréhension de la sensibilité spatio-temporelle de la transmission des maladies aux facteurs démographiques, géographiques, sociopolitiques, saisonniers et environnementaux.

Les communautés mondiales de la recherche et de la science des données ont répondu à ce défi par un large éventail d'efforts pour collecter, cataloguer et diffuser des données sur le nombre de cas de COVID-19, les hospitalisations, la mortalité, les vaccinations et d'autres indicateurs d'incidence et de charge de COVID1,2, 3,4,5,6,7,8,9,10,11,12,13,14. Bien que ces bases de données aient soutenu un volume considérable de recherches, de surveillance des risques et de discussions publiques, elles ont souvent une structure, des conventions de dénomination, des valeurs, une résolution, une qualité et un manque d'alignement entre les données sur les maladies infectieuses et les facteurs de risque potentiels. Ces problèmes nécessitent un nettoyage laborieux pour combiner des données provenant de différentes sources, ce qui retarde les progrès de la recherche et peut affecter sa qualité. De plus, les ensembles de données critiques qui quantifient les facteurs de risque tels que le climat et la mobilité humaine sont sujets à des biais et à une disponibilité limitée, ce qui pose d'autres défis pour le traitement des données.

Pour utiliser ces types de données disparates provenant de différentes sources à différents niveaux de granularité, elles doivent être combinées et harmonisées. Sans une harmonisation, une conservation et des contrôles de cohérence appropriés, l'analyse de ces ensembles de données peut conduire à des résultats erronés. Un ensemble de données unifié qui résout ces problèmes contribuera à accélérer notre compréhension du risque COVID-19 grâce à la modélisation spatio-temporelle à plusieurs échelles en éliminant les étapes supplémentaires chronophages nécessaires pour nettoyer, normaliser et fusionner les différentes sources de données. À titre d'exemple, nous fournissons un cas de test avec la génération d'estimations du nombre effectif de reproduction (Rt) à partir de deux sources de données différentes, y compris le nombre de cas signalés et les infections quotidiennes estimées, qui sont directement importées de notre ensemble de données unifié sans perdre de temps à unifier les noms de variables. /types et nettoyage ou géoréférencement des données.

Ainsi, notre ensemble de données unifié COVID-19 vise à (1) harmoniser les conventions de dénomination et de codage à partir de sources de données crédibles à plusieurs niveaux administratifs, (2) mettre en œuvre un contrôle de la qualité pour le nombre de cas COVID-19 de différents types, (3) aligner systématiquement les prédicteurs potentiels avec les données COVID-19, et (4) fournit des mises à jour et des corrections en temps réel, et intègre de nouvelles sources pour les variables pertinentes au fur et à mesure qu'elles deviennent disponibles. Plus précisément, l'ensemble de données unifié COVID-19 comprend des composants clés pour l'épidémiologie, y compris la démographie, l'hydrométéorologie, la qualité de l'air, la politique, la vaccination et l'accessibilité aux soins de santé, cartographie toutes les unités géospatiales dans le monde en un identifiant unique, normalise les noms administratifs, les codes, les dates, les données types et formats, unifie les noms de variables, les types et les catégories. Nous organisons également les données pour corriger les entrées confuses qui découlent des noms contradictoires des mêmes unités géographiques, des stratégies et des calendriers de déclaration différents et de l'accumulation de variables épidémiologiques. L'ensemble de données est distribué dans des formats accessibles et optimisé pour les applications d'apprentissage automatique afin de soutenir une recherche reproductible de haute qualité. La disponibilité de cet ensemble de données a facilité les analyses des facteurs de risque de COVID-19 à la résolution infranationale dans plusieurs pays15,16,17,18 et les études des changements des facteurs de risque au cours de la pandémie19.

Nous compilons des données épidémiologiques provenant de différentes sources, traduisons les enregistrements de données et vérifions les types de cas disponibles. Ensuite, les noms de variables et d'unités sont normalisés et géocodés à l'aide d'un identifiant géospatial (ID) unifié pour prendre en charge l'agrégation à différents niveaux administratifs et la fusion cohérente dans un seul fichier d'ensemble de données épidémiologiques variant dans le temps. Les types de cas qui ne sont pas inclus dans les données brutes sont dérivés des types de cas existants dans la mesure du possible (par exemple, en dérivant les cas actifs des cas confirmés, des guérisons et des décès). Une table de recherche fournit des noms et des codes géographiques clés tandis que les champs de données statiques, y compris les estimations de la qualité de l'air, sont combinés dans un fichier d'ensemble de données distinct. Des données hydrométéorologiques et politiques variables dans le temps sont traitées pour extraire les variables et les indices pour chaque identifiant géospatial à une résolution quotidienne. Conformément aux principes de données FAIR20, nous adoptons une approche par laquelle les données sont trouvables via un DOI persistant, des métadonnées appropriées et une indexation, accessible en tant que ressource gratuite et ouverte pouvant être récupérée via des protocoles standard, interopérable dans l'utilisation de formats et structures de données, et réutilisables grâce à la fourniture d'informations sur les licences et la provenance et la conformité aux normes de données.

L'ensemble de données suit l'organigramme d'harmonisation des données, illustré à la Fig. 1, pour intégrer des données multidimensionnelles disparates sur plusieurs types et ressources. Plusieurs types de données nécessiteront une normalisation, allant de l'identification géospatiale, du type de variable, du nom de la variable et des structures de données. Nous cartographions toutes les unités géospatiales dans un identifiant unique. Chaque unité des ensembles de données spatiales est mappée à un identifiant géospatial unique qui permet à son tour de fusionner les ensembles de données par l'identifiant unifié, ainsi que d'autres facteurs de regroupement tels que la source de données, le type, la variable, l'heure/la date et d'autres dimensions. Les ID au niveau national sont basés sur les codes ISO 3166-1 alpha-2, et les données infranationales utilisent les codes Federal Information Processing Standard (FIPS) (États-Unis), les codes Nomenclature of Territorial Units for Statistics (NUTS) (Europe), ISO 3166- 2 codes (provinces ou états globaux) et identifiants locaux (niveaux administratifs globaux 2 et 3). Cela normalise également les noms administratifs, les codes, les dates, les types de données et les formats avec des noms de variables unifiés, des identifiants, des types et des catégories, ainsi que la conservation des données, des enregistrements de liens et élimine l'ambiguïté qui découle des noms conflictuels des mêmes unités géographiques. et les différentes stratégies et calendriers de rapport.

Organigramme de l'harmonisation des données pour l'ensemble de données unifié COVID-19.

Pour géoréférencer les données, nous utilisons d'abord les identifiants (identifiants ou codes) et les fichiers de formes, s'ils sont disponibles, des sources de données d'origine pour cartographier les noms normalisés en langue anglaise avec l'encodage UTF-8. Nous mettons en œuvre des fonctions d'unification en utilisant des conversions standard à partir des différents systèmes de codage (par exemple, le système de Nomenclature des unités territoriales pour les statistiques (NUTS) pour l'Europe, la clé de municipalité officielle/Amtlicher Gemeindeschlüssel (AGS) pour l'Allemagne et les codes FIPS (Federal Information Processing Standard) pour les comtés et États américains) et les noms d'unités dans le système d'identification géospatial unifié et traitent tous les noms ambigus de doublons connus de la même unité géographique, via des fonctions de recodage intégrées ou des tables de recherche. La validation des données et les contrôles de cohérence sont appliqués pour s'assurer que les noms normalisés sont correctement mappés et sont cohérents avec les noms et les coordonnées géographiques d'origine. Si une unité géographique est divisée en sous-régions plus petites, de nouveaux identifiants sont attribués aux unités de résolution supérieure. Lorsque les identifiants et les fichiers de formes ne sont pas fournis dans l'ensemble de données initial, les données seront fusionnées par nom et mappées manuellement dans des identifiants uniques. Les noms d'unités seront convertis en codes normalisés où les entrées problématiques seront détectées et inspectées manuellement. La table de recherche fournit les noms et codes géographiques normalisés, et les fonctions d'unification seront mises à jour pour résoudre les problèmes connus et les exceptions de recodage. Des approches supplémentaires sont mises en œuvre pour harmoniser les autres fonctionnalités de l'ensemble de données telles que le type de variable, le nom de la variable et la structure des données.

La couverture spatiale de l'ensemble de données est illustrée sur la carte du monde de la Fig. 2 et le système d'identification géospatiale est illustré sur la Fig. 3. Les ID au niveau national sont basés sur les codes ISO 3166-1 alpha-2. Les niveaux administratifs infranationaux pour les États-Unis (aux niveaux des États et des comtés) sont basés sur les codes FIPS (Federal Information Processing Standard). Pour l'Europe, tous les niveaux administratifs utilisent les codes de la nomenclature des unités territoriales statistiques (NUTS). À l'échelle mondiale, les principales subdivisions (par exemple, les provinces ou les États) utilisent les codes ISO 3166-2 tandis que les unités à plus haute résolution sont basées sur des identifiants locaux (par exemple, pour le Brésil, les municipalités utilisent les codes IBGE de l'Institut brésilien de géographie et de statistique).

Carte de couverture spatiale pour l'ensemble de données COVID-19 unifié (Admin 0 = National, Admin 1 = Premier niveau administratif (par exemple, état, province), Admin 2–3 = Deuxième et troisième niveaux administratifs (par exemple, comté, district).

ID géospatial utilisé pour l'ensemble de données COVID-19 unifié.

La plupart des composantes sont mises à jour quotidiennement tandis que l'extraction de données fastidieuse pour les variables hydrométéorologiques, avec et sans pondération de la population, est mise à jour mensuellement. L'ensemble de données est diffusé par le Center for Systems Science and Engineering (CSSE) de l'Université Johns Hopkins (JHU), la source du JHU Coronavirus Dashboard1, largement accessible.

Le tableau 1 résume les clés de la table de recherche avec les différents ID d'unité, noms, codes, coordonnées centroïdes et population. L'ensemble de données unifié complet est disponible sur Zenodo21.

Le nombre quotidien de cas de COVID-19 est tiré des différentes sources de données, y compris le tableau de bord du coronavirus JHU du CSSE, et géoréférencé aux unités administratives dans lesquelles ils ont été diagnostiqués1,2,3,4,5,6,7,8,9,10, 11,12. Nous fusionnons plusieurs sources de données avec différents types de cas. Cela comprend la traduction des noms de variables de différentes langues, la transformation de différents formats de données (par exemple, l'accumulation des décomptes quotidiens à partir des données RKI pour l'Allemagne) et la vérification des décomptes agrégés par rapport à toutes les sources de données. Le tableau 2 énumère la structure des données épidémiologiques. Le tableau 3 décrit les différents types de cas, y compris les cas confirmés, les décès, les hospitalisations et les résultats des tests.

Pour faciliter l'analyse des problèmes de déclaration, tels que la sous-déclaration et les limites de la capacité de test, nous avons également intégré les infections quotidiennes estimées de l'Institute for Health Metrics and Evaluation (IHME)13. La figure 4 montre une comparaison des estimations épidémiologiques des infections quotidiennes et des cas de COVID-19 signalés, ainsi que les estimations du nombre effectif de reproduction (Rt) correspondant pour les États-Unis. Il s'agit également d'un exemple d'utilisation des données COVID-19 harmonisées dans notre ensemble de données unifié pour l'analyse et les estimations épidémiologiques à travers différentes sources de données qui pourraient utiliser des noms de lieux et des identifiants incohérents. Les estimations épidémiologiques (cas par date d'infection et Rt) sont fournies avec l'ensemble de données pour les États-Unis aux niveaux national et étatique. Ces estimations sont générées à l'aide des packages EpiNow2 et EpiEstim R14,22,23. EpiEstim tient compte de l'incertitude dans la moyenne et l'écart type de l'intervalle de génération en rééchantillonnant sur une plage de valeurs plausibles. EpiNow2 utilise une approche bayésienne qui tient également compte des retards de notification. Les paramètres requis pour les estimations de Rt, en particulier les distributions de la période d'incubation et de l'intervalle de série, sont obtenus à partir de la littérature24,25,26,27,28.

Estimations épidémiologiques et cas de COVID-19 signalés aux États-Unis. (A) Estimation des infections quotidiennes (lignes pointillées) et des cas signalés (barres verticales) ; (B) Nombre de reproduction effectif (R) estimé à partir de l'estimation des infections quotidiennes.

Les données mondiales et américaines sur les vaccins sont harmonisées et intégrées à partir des Johns Hopkins Centers for Civic Impact pour le Coronavirus Resource Center (CRC)29. Les nombres cumulés de personnes entièrement ou partiellement vaccinées sont fournis par les vaccins fournis, chaque fois qu'ils sont disponibles, et les types de doses - y compris les doses administrées (en général ou en tant que première ou deuxième dose), attribuées ou expédiées/arrivées aux sites vax. Le tableau 4 décrit la structure des données de la version harmonisée de l'ensemble de données sur les vaccins, tandis que le tableau 5 répertorie les différents types de doses.

Comme de nombreuses maladies virales, la stabilité de la transmission par aérosol du SRAS-CoV-2 et du COVID-19 est sensible aux conditions hydrométéorologiques. Le comportement humain et les interactions sociales, moteurs dominants de la transmission du COVID-19, sont également inextricablement liés aux conditions hydrométéorologiques locales. Pour ces raisons, la capacité de cet ensemble de données unifié à caractériser les variations spatio-temporelles des variables hydrométéorologiques est pertinente pour comprendre la transmission du COVID-19. De nombreuses études ont trouvé des relations entre la météorologie et les taux de transmission de la COVID-1930,31,32,33. Cependant, comme le démontrent ces études, les relations identifiées ne sont pas toujours cohérentes d'une étude à l'autre34, il peut y avoir des différences dans l'influence météorologique entre les différentes régions ou stades de la pandémie, et l'importance relative de l'influence hydrométéorologique dans l'impact des grandes tendances épidémiologiques est incertaine. Les grands ensembles de données hydrométéorologiques maillées peuvent être difficiles à utiliser pour les non-experts, et les données des stations météorologiques plus simples ne sont pas toujours représentatives de grandes unités géographiques.

Pour faciliter les études qui intègrent l'hydrométéorologie à la prévision du COVID-19, nous incluons plusieurs variables hydrométéorologiques dans notre ensemble de données unifié. Le tableau 6 répertorie les variables hydrométéorologiques extraites de NLDAS-2 et ERA5 tandis que la figure 5 montre des cartes des moyennes de 2020. La pondération de la population est appliquée aux données environnementales maillées (hydrométéorologie et qualité de l'air) pour tenir compte de la variation de la répartition spatiale de la population humaine exposée au sein de chaque unité. Les données de comptage de la population Gridded Population of the World v4 (GPWv4) avec ajustement pour correspondre aux estimations des Nations Unies sont obtenues auprès du Center for International Earth Science Information Network (CIESIN) Socioeconomic Data and Applications Center SEDAC35. Ces chiffres sont ensuite appliqués comme pondérations en calculant la fraction de la population au sein de chaque unité à chaque niveau de la hiérarchie administrative contenue dans chaque cellule de la grille, en multipliant les variables environnementales maillées par cette fraction et en additionnant pour l'unité administrative. Nous dérivons ces variables du Système nord-américain d'assimilation des données terrestres (NLDAS-2) de deuxième génération, en utilisant les forçages météorologiques NLDAS-2 et les champs hydrologiques de surface simulés du modèle de surface terrestre Noah, et le Centre européen de prévisions météorologiques à moyen terme de cinquième génération ( ECMWF) réanalyse atmosphérique du climat global (ERA5)36,37. ERA5 et NLDAS assimilent les observations et les résultats du modèle pour fournir des cartes continues de variables météorologiques sans lacunes ni valeurs manquantes dans les données, ce qui ne peut être obtenu à partir des seules observations. La résolution spatiale fine de NLDAS (0,125° de latitude × 0,125° de longitude) et ERA5 (0,25° de latitude × 0,25° de longitude) représente des améliorations significatives par rapport aux ensembles de données antérieurs, et les deux ensembles de données ont été largement testés par rapport aux observations et se sont avérés capturer les quantités observées36, 37,38. ERA5 et NLDAS sont disponibles avec une latence de 4 à 6 jours, ce qui rend ces ensembles de données particulièrement bien adaptés pour prévoir la dynamique du COVID-19 en temps quasi réel. NLDAS est disponible uniquement pour les États-Unis contigus, tandis que ERA5 est disponible dans le monde entier.

Répartition géographique mondiale des 10 variables hydrométéorologiques incluses dans l'ensemble de données - moyenne de toutes les valeurs quotidiennes pour 2020.

Nous obtenons des données horaires maillées ERA5 et NLDAS à partir du 1er janvier 2020. Les données horaires sont transformées en valeurs quotidiennes moyennes, maximales, minimales ou totales, selon la variable. Un masque terre-mer est appliqué aux données hydrométéorologiques de sorte que toutes les cellules de la grille d'eau sont exclues de l'analyse. Deux types de valeurs moyennes sont fournies pour chaque unité administrative : les moyennes simples et les moyennes pondérées en fonction de la population. Un petit nombre d'unités administratives ne contiennent pas de cellules de grille ERA5 ou NLDAS en raison de leurs limites irrégulières ou de leur petite superficie (par exemple, ~15 % des divisions NUTS 3). Dans ce cas, nous estimons la valeur des valeurs météorologiques au centroïde géographique de l'unité à l'aide d'une méthode d'interpolation à pondération inverse de la distance, puis nous calculons les moyennes simples et pondérées en fonction de la population à l'aide de ces valeurs interpolées.

L'exposition à long terme aux polluants atmosphériques peut augmenter la sensibilité aux conséquences graves de la COVID-1939,40,41. Nous fournissons des moyennes à long terme de la moyenne annuelle de dioxyde d'azote (NO2) et de particules fines (PM2,5) au niveau de la surface pour permettre l'intégration de cet impact potentiel dans les études. Nous utilisons un ensemble de données que les observations de la profondeur optique des aérosols (AOD) des satellites d'observation de la Terre aux estimations mondiales des PM2,5 au niveau de la surface en utilisant des relations géophysiques entre les PM2,5 modélisées et l'AOD à partir d'un modèle de transport chimique et d'une technique de régression géographiquement pondérée42. Les estimations mondiales de NO2 sont dérivées en mettant à l'échelle les concentrations prévues à partir d'un modèle de régression de l'utilisation des terres mondiales avec des observations satellitaires annuelles des colonnes de NO2 troposphériques du satellite Ozone Monitoring Instrument43,44,45.

Les ensembles de données PM2,5 et NO2 sont recalés de leurs résolutions natives (0,01° de latitude × 0,01° de longitude et 1 km × 1 km, respectivement) à 0,05° de latitude × 0,05° de longitude et moyennés sur 2014-2018. Nous calculons les moyennes simples et pondérées en fonction de la population de PM2,5 et de NO2 pour les unités administratives.

Les données de réponse politique variables dans le temps décrites dans le tableau 7 sont traitées à partir de l'Oxford COVID-19 Government Response Tracker (OxCGRT) pour les types de politiques répertoriés dans le tableau 8, y compris quatre catégories de politiques : (i) politiques de confinement et de fermeture : C1 : Fermeture de l'école, C2 : Fermeture du lieu de travail, C3 : Annuler les événements publics, C4 : Restrictions sur les rassemblements, C5 : Fermer les transports publics, C6 : Obligations de rester à la maison, C7 : Restrictions sur les déplacements internes, et C8 : Contrôle des voyages internationaux, (ii) politiques économiques : E1 : Soutien du revenu, E2 : Allégement de la dette/du contrat, E3 : Mesures fiscales, et E4 : Soutien international, (iii) politiques du système de santé : H1 : Campagnes d'information publique, H2 : Politique de dépistage, H3 : Recherche des contacts, H4 : Investissement d'urgence dans la santé, H5 : Investissement dans les vaccins, H6 : Couvre-visage, H7 : Politique de vaccination, et H8 : Protection des personnes âgées, et (iv) politiques diverses : M1 : Wildcard ainsi que les indices politiques de confinement sanitaire, économique le soutien et la réponse du gouvernement. Les politiques sont différenciées selon qu'elles s'appliquent à tout le monde (suffixe de type de politique E), aux personnes non vaccinées (suffixe de type de politique NV), aux personnes vaccinées (suffixe de type de politique V) ou à la majorité (suffixe de type de politique M). Pour plus de détails, voir le codebook de l'OxCGRT, la méthodologie de l'index, le guide d'interprétation et l'interprétation infranationale46.

Les données au niveau national et les données administratives de niveau 1 des États-Unis sur la prévalence des problèmes de santé sous-jacents associés à un risque accru de morbidité et de mortalité par COVID-19, telles que définies par les Centers for Disease Control and Prevention (CDC) décrites dans le tableau 9, ont été compilées à partir de plusieurs sources. Ces affections comorbides comprenaient la prévalence de l'infection par le virus de l'immunodéficience humaine (VIH), l'obésité, l'hypertension, le tabagisme, la maladie pulmonaire obstructive chronique (MPOC) et les maladies cardiovasculaires (MCV)47. De plus, des indicateurs au niveau national de la proportion de la population à risque accru de COVID-19 en raison de conditions comorbides ont été compilés à partir des estimations de Clark et ses collègues et inclus dans la base de données unifiée48. Les données ont été recueillies auprès de sources en ligne associées à des organisations de santé réputées, des centres de recherche en santé, des organisations internationales et nationales, des revues de recherche et des établissements universitaires48,49,50,51,52,53,54,55,56,57,58. Une fois compilée, la structure de données finale a été créée dans Microsoft Excel avec toutes les données correspondantes et disponibles.

Les nombres nationaux de cas d'épidémies de SRAS-CoV-1 et de MERS, tels que décrits dans le tableau 9, ont été inclus dans la base de données unifiée en tant qu'indicateurs indirects de l'expérience pandémique, ce qui peut être pertinent pour la préparation59,60.

L'accès au niveau de la population aux soins de santé et à d'autres infrastructures peut affecter la trajectoire des pandémies à l'échelle locale en influençant les taux de contact et l'introduction de nouveaux individus infectés et sensibles, ainsi que la rapidité et la probabilité avec lesquelles les nouveaux cas sont confirmés, traités et enregistrés dans les systèmes d'information sur la santé. Le tableau 10 énumère trois indicateurs d'accessibilité qui sont inclus dans l'ensemble de données unifié. L'accessibilité aux villes les plus proches par les transports de surface (Access_City), quantifiée en minutes nécessaires pour parcourir un mètre, a été obtenue en extrayant des statistiques zonales du fichier raster "Accessibility to Cities 2015" fourni par le Malaria Atlas Project (MAP)61. Le fichier raster représente la vitesse de déplacement la plus rapide d'un point donné à sa ville la plus proche. Il a été calculé en cartographiant le temps de trajet à différents emplacements spatiaux et conditions topographiques dans des grilles où le mode de transport le plus rapide prévalait62. En utilisant une méthodologie similaire, Weiss et ses collègues ont utilisé les données d'OpenStreetMap, de Google Maps et de chercheurs universitaires pour produire des cartes du temps de trajet vers les établissements de santé avec et sans accès au transport motorisé, à partir desquelles nous avons obtenu les deux variables caractérisant le temps de trajet (minutes) à la formation sanitaire la plus proche par deux modes de transport (Access_Motor : transport motorisé disponible ; Access_Walk : pas d'accès au transport motorisé) comme indicateurs d'accès aux soins63. Bien qu'il existe des estimations spécifiques à chaque pays de mesures d'accessibilité comparables64,65 et qu'elles puissent dans certains cas offrir des avantages par rapport aux produits MAP mondiaux, nous avons donné la priorité à ces derniers pour leur couverture complète et leur méthodologie standardisée, qui offre une plus grande comparabilité entre les régions et les pays.

Le tableau 10 décrit la densité de population et la structure par âge de WorldPop66.

La population totale (WorldPop), la densité de population (WorldPop_Density), la population totale de plus de 65 ans (WorldPop_65) et la population totale des hommes (WorldPop_M) et des femmes (WorldPop_F) ont été obtenues en extrayant des statistiques zonales avec le raster de mosaïques mondiales sans contraintes de 2020 fichiers à une résolution de 1 km à partir des ensembles de données spatiales WorldPop, un ensemble harmonisé en libre accès de couches géospatiales maillées avec une couverture mondiale produite en s'appuyant sur des données de recensement, d'enquête, de satellite et de téléphone portable. Le rapport entre la population masculine et féminine (Sex_Ratio) a été calculé en divisant la population féminine par la population masculine.

Les sources de données sont répertoriées dans le tableau 11.

Les données unifiées sont régulièrement validées avant et après le traitement en vérifiant et en comparant tous les champs avec les sources de données faisant autorité disponibles, telles que l'Organisation mondiale de la santé (OMS), les Centres américains et européens de contrôle et de prévention des maladies (CDC), et entre les différentes sources9,10,11. Toute divergence importante ou données irréalistes (par exemple, champs ou types de données incorrects, décomptes négatifs et valeurs non plausibles) sont automatiquement détectées en vérifiant le type des champs de données (par exemple, entier, double, caractère ou date) et le taux de modifications quotidiennes à enquêter et corriger les données unifiées, en plus du système de détection automatique des anomalies du JHU CSSE, qui est conçu pour détecter les pics brusques ou les augmentations négatives du nombre quotidien de cas. La détection des anomalies et les corrections de données sont regroupées par identifiant géospatial, en tenant compte des tendances récentes et de la population totale, et de la source des données. De plus, les identifiants géospatiaux sont vérifiés avec les codes ISO et les fichiers de formes correspondants pour toutes les unités géographiques. Tous les composants de l'ensemble de données sont mis à jour quotidiennement pour synchroniser toutes les modifications rétrospectives des sources d'origine, y compris les corrections ou les réaffectations du nombre de cas. L'ensemble de données mis à jour offre des informations plus précises et à jour aux chercheurs pour modéliser et analyser la dynamique de transmission du COVID-19 et les associations avec les conditions environnementales.

Les données d'hydrométéorologie et de qualité de l'air sont toutes tirées de sources de données qui effectuent leurs propres routines d'évaluation approfondies. Nous n'avons pas appliqué d'évaluation indépendante supplémentaire de ces produits. Les variables traitées ont été vérifiées pour leur cohérence avec les données sources afin de s'assurer qu'aucun artefact n'a été introduit lors du transfert de données ou de la moyenne spatiale. Nous effectuons des vérifications régulières des données hydrométéorologiques de séries chronologiques de certaines unités administratives afin de rechercher des incohérences ou des discontinuités dans les enregistrements de données ERA5 ou NLDAS, car de telles erreurs peuvent parfois apparaître dans les produits de données opérationnels de la Terre. À ce jour, nous n'avons identifié aucun problème problématique, mais s'ils surviennent, ces données seront signalées comme préliminaires jusqu'à ce que des versions corrigées des fichiers de données hydrométéorologiques soient publiées par le centre de données opérationnel.

L'accessibilité aux villes, validée en la comparant à l'algorithme de distance réseau de Google Maps, était encourageante (R2 = 0,66 ; différence absolue moyenne 20,7 min). La prévalence des affections comorbides, comme indiqué dans le tableau 9, provient de sources en ligne directement ou associées à des organisations de santé réputées, des centres de recherche en santé, des organisations internationales et nationales, des revues de recherche et des établissements universitaires. Plusieurs contrôles de validation ont été effectués pour s'assurer que notre ensemble de données unifié correspond à ces sources d'entrée. Les données sur la préparation à une pandémie proviennent d'institutions de recherche et d'organisations de santé mondiales de même renommée internationale. Plusieurs contrôles de validation ont été effectués pour assurer la cohérence entre les ensembles de données unifiés et ces sources de données hautement contrôlées.

Certains comtés, territoires et îles des États-Unis n'ont pas de codes FIPS standard ou sont combinés à partir d'unités standard telles que Bristol Bay plus Lake and Peninsula Borough, les comtés de Dukes et Nantucket, les juridictions de l'Utah, l'établissement correctionnel fédéral (FCI), les anciens combattants et Département des services correctionnels du Michigan (MDOC). Ces unités reçoivent un identifiant unique, comme indiqué dans la table de recherche fréquemment mise à jour sur GitHub.

Les données du Covid Tracking Project (CTP) ont cessé de se mettre à jour le 7 mars 2021, après un an de service2. Toutes les autres sources variables dans le temps sont actuellement mises à jour/synchronisées quotidiennement à partir des sources d'origine.

Les nouveaux cas quotidiens pour certaines unités peuvent être manquants ou négatifs lorsqu'ils sont calculés à partir du nombre total de cas accumulés dans les données brutes. Cela peut être attribué aux problèmes de signalement et à la réaffectation des cas. Nous corrigeons et validons les entrées de données uniquement lorsque nous avons des preuves solides pour le faire. Sinon, nous conservons les données originales exactement telles qu'elles ont été obtenues à partir des sources officielles. À l'avenir, nous prévoyons de fournir une version augmentée des données mondiales à tous les niveaux administratifs, dérivées de toutes les sources de données. Ici, nous maintenons la cohérence entre les données unifiées et brutes.

La courte durée de vie des PM2,5 et du NO2 et les hétérogénéités spatiales de leurs sources d'émissions peuvent parfois entraîner des différences substantielles entre les moyennes simples et pondérées en fonction de la population, en fonction de la répartition spatiale de la population et des sources d'émissions au sein des unités administratives. En raison de la disponibilité limitée de moniteurs au sol à certains endroits, les concentrations de NO2 sont plus fiables dans les zones urbaines que dans les zones rurales et en Amérique du Nord et en Europe par rapport à d'autres parties du monde44.

Les données sur la population par sexe ont été saisies comme valeurs manquantes pour trente-quatre zones infranationales au Brésil, car les valeurs déclarées étaient incompatibles avec la population totale. Le fichier raster d'accessibilité ne couvrait pas Monaco et les données ont été saisies manuellement à l'aide des valeurs de la zone environnante. Nous excluons les petites divisions administratives NUTS d'outre-mer (par exemple, la Guadeloupe, la Guyane française, la Réunion) de l'ensemble de données unifié afin de réduire le temps de calcul nécessaire pour mettre à jour l'ensemble de données en temps quasi réel. Il convient de noter que les données sur l'accessibilité et la population seraient plus pertinentes pour l'analyse au niveau infranational plutôt qu'au niveau national, en raison de la définition opérationnelle des données.

Nous affirmons que la présentation de matériel n'implique pas l'expression d'une quelconque opinion de la part de JHU concernant le statut juridique d'un pays, d'une région ou d'un territoire ou de ses autorités. La représentation et l'utilisation des limites, des noms géographiques et des données connexes affichées sur les cartes et incluses dans les listes, tableaux, documents et bases de données sur ce site Web ne sont pas garanties sans erreur et n'impliquent pas nécessairement l'approbation ou l'acceptation officielle de JHU.

Les données sont stockées dans plusieurs formats de données compressées : fichiers de données binaires RDS et FST pris en charge par le logiciel statistique R et fichiers de données CSV pris en charge par tous les autres outils d'apprentissage automatique. Les formats de données binaires R préservent efficacement tous les types de variables, attributs et classes d'objets. De plus, les fichiers RDS sont hautement compressés, ce qui facilite le transfert et le stockage des fichiers, tandis que le format FST fournit une sérialisation de données multithread ultra-rapide et un accès aléatoire complet aux ensembles de données stockés permettant de charger un sous-ensemble de données (colonnes ou lignes sélectionnées) sans lire les données complètes. déposer. Cela offre un avantage par rapport aux autres formats de données courants, tels que les valeurs séparées par des virgules (CSV) ou ses versions compressées, qui ne spécifient pas explicitement les types de variables (par exemple, entier ou double). De plus, les fichiers produits sont beaucoup plus petits, ce qui facilite l'accès et le traitement des données.

Le code source utilisé pour nettoyer, unifier, agréger et fusionner les différents composants de données de toutes les sources sera disponible sur GitHub à https://github.com/CSSEGISandData/COVID-19_Unified-Dataset.

Dong, E., Du, H. & Gardner, L. Un tableau de bord Web interactif pour suivre le COVID-19 en temps réel. Lancette infectée. Dis. 20, 533–534 (2020).

Article CAS PubMed PubMed Central Google Scholar

Le groupe mensuel de l'Atlantique. Le projet de suivi COVID. Le projet de suivi COVID https://covidtracking.com/ (2023).

Département de la santé et de l'hygiène mentale de NYC. Données sur la maladie à coronavirus de NYC 2019 (COVID-19). (2023).

Le New York Times. Données sur le coronavirus (Covid-19) aux États-Unis (archivées). (2023).

Cota, W. Surveillance du nombre de cas et de décès de COVID-19 au Brésil au niveau des unités municipales et fédératives. https://preprints.scielo.org/index.php/scielo/preprint/view/362/version/371, https://doi.org/10.1590/SciELOPreprints.362 (2020).

Département italien de la protection civile. Anciennement COVID-19 Italie. (2023).

Institut Robert Koch. Centre de données COVID-19. Centre de données COVID-19 https://npgeo-corona-npgeo-de.hub.arcgis.com/.

Centre commun de recherche. Justification du site Web JRC COVID-19 - surveillance des données et mesures nationales. (2023).

Centre européen de prévention et de contrôle des maladies. COVID 19. https://www.ecdc.europa.eu/en/covid-19 (2021).

Organisation Mondiale de la Santé. Tableau de bord de l'OMS sur le coronavirus (COVID-19). https://covid19.who.int (2023).

Centres pour le Contrôle et la Prévention des catastrophes. Traqueur de données COVID. Centres de contrôle et de prévention des maladies https://covid.cdc.gov/covid-data-tracker (2020).

Xu, B. et al. Données épidémiologiques de l'épidémie de COVID-19, informations sur les cas en temps réel. Sci. Données 7, 106 (2020).

Article CAS PubMed PubMed Central Google Scholar

Institut de métrologie et d'évaluation de la santé. Estimations quotidiennes et cumulatives de l'infection par le SRAS-CoV-2 2019-2021. SARS-CoV-2 Daily and Cumulative Infection Estimates 2019-2021 https://ghdx.healthdata.org/record/ihme-data/covid_19_cumulative_infections (2021).

Cori, A., Ferguson, NM, Fraser, C. & Cauchemez, S. Un nouveau cadre et logiciel pour estimer les nombres de reproduction variant dans le temps pendant les épidémies. Suis. J. Épidémiol. 178, 1505-1512 (2013).

Article PubMed Google Scholar

Colston, JM et al. Effets des facteurs hydrométéorologiques et autres sur le nombre de reproduction du SRAS-CoV-2 dans trois pays contigus d'Amérique du Sud tropicale andine : une analyse de séries chronologiques désagrégées spatio-temporellement. IJID Reg. 6, 29–41 (2023).

Article PubMed Google Scholar

Beesley, LJ et al. Résilience multidimensionnelle : Une exploration quantitative des résultats de la maladie et de la résilience économique, politique et sociale à la pandémie de COVID-19 dans six pays. PLOS ONE 18, e0279894 (2023).

Article CAS PubMed PubMed Central Google Scholar

Du, H. et al. Intégration des données de fréquences variables dans les prévisions à court terme des cas et des décès de COVID-19 aux États-Unis : une approche d'apprentissage en profondeur. eBioMedicine 89, 104482 (2023).

Article PubMed PubMed Central Google Scholar

Cheam, A., Fredette, M., Marbac, M. & Navarro, F. Regroupement fonctionnel invariant de la traduction sur les décès par COVID-19 ajusté sur les facteurs de risque de la population. Statistique JR. Soc. Ser. C Appl. Statistique. qlad014, https://doi.org/10.1093/jrsssc/qlad014 (2023).

Kerr, GH et al. Moteurs en évolution de la transmission brésilienne du SRAS‐CoV‐2 : une analyse spatio-temporelle désagrégée des séries chronologiques de la météorologie, des politiques et de la mobilité humaine. GéoSanté 7, e2022GH000727 (2023).

Article PubMed PubMed Central Google Scholar

Wilkinson, MD et al. Les principes directeurs FAIR pour la gestion et l'intendance des données scientifiques. Sci. Données 3, 160018 (2016).

Article PubMed PubMed Central Google Scholar

Badr, HS et al. Ensemble de données unifié COVID-19 v1.0. Zenodo https://doi.org/10.5281/zenodo.7789960 (2023).

Abbott, S. et al. EpiNow2 : Estimer le nombre de cas en temps réel et les paramètres épidémiologiques variant dans le temps. (2020).

Abbott, S. et al. Estimation du nombre de reproductions variant dans le temps du SRAS-CoV-2 à l'aide du nombre de cas nationaux et infranationaux. Bienvenue Open Res. 5, 112 (2020).

Article Google Scholar

Alène, M. et al. Intervalle de série et période d'incubation de COVID-19 : une revue systématique et une méta-analyse. BMC Infect. Dis. 21, 257 (2021).

Article CAS PubMed PubMed Central Google Scholar

McAloon, C. et al. Période d'incubation de COVID-19 : une revue systématique rapide et une méta-analyse de la recherche observationnelle. BMJ Open 10, e039652 (2020).

Article PubMed PubMed Central Google Scholar

Lauer, SA et al. La période d'incubation de la maladie à coronavirus 2019 (COVID-19) à partir de cas confirmés signalés publiquement : estimation et application. Ann. Interne. Méd. 172, 577-582 (2020).

Article PubMed Google Scholar

Rai , B. , Shukla , A. & Dwivedi , LK Estimations des intervalles de série pour COVID-19 : Une revue systématique et une méta-analyse . Clin. Épidémiol. Glob. Santé 9, 157–161 (2021).

Article CAS PubMed Google Scholar

Ganyani, T. et al. Estimation de l'intervalle de génération pour la maladie à coronavirus (COVID-19) sur la base des données d'apparition des symptômes, mars 2020. Eurosurveillance 25 (2020).

Centres Johns Hopkins pour l'impact civique. Centre Bloomberg pour l'excellence gouvernementale. GitHub https://github.com/govex.

Sera, F. et al. Une analyse transversale des facteurs météorologiques et de la transmission du SRAS-CoV-2 dans 409 villes de 26 pays. Nat. Commun. 12, 5968 (2021).

Article ADS CAS PubMed PubMed Central Google Scholar

Fontal, A. et al. Signatures climatiques dans les différentes vagues pandémiques de COVID-19 dans les deux hémisphères. Nat. Calcul. Sci. 1, 655–665 (2021).

Article Google Scholar

Pan, WK et al. Hétérogénéité dans l'efficacité des interventions non pharmaceutiques lors de la première vague de SRAS-CoV2 aux États-Unis. Devant. Santé publique 9, 754696 (2021).

Article PubMed PubMed Central Google Scholar

Ma, Y., Pei, S., Shaman, J., Dubrow, R. et Chen, K. Rôle des facteurs météorologiques dans la transmission du SRAS-CoV-2 aux États-Unis. Nat. Commun. 12, 3602 (2021).

Article ADS CAS PubMed PubMed Central Google Scholar

Kerr, GH, Badr, HS, Gardner, LM, Perez-Saez, J. & Zaitchik, BF Associations entre la météorologie et le COVID-19 dans les premières études : incohérences, incertitudes et recommandations. Une santé 12, 100225 (2021).

Article CAS PubMed PubMed Central Google Scholar

Centre pour le réseau international d'information sur les sciences de la Terre - CIESIN - Columbia University. Gridded Population of the World, Version 4 (GPWv4): Population Count Adjusted to Match 2015 Revision of UN WPP Country Totals, Revision 11. (2018).

Xia, Y. et al. Analyse et validation des flux d'eau et d'énergie à l'échelle continentale pour la phase 2 du projet North American Land Data Assimilation System (NLDAS-2) : 1. Intercomparaison et application de produits modèles : WATER AND ENERGY FLUX ANALYSIS. J. Geophys. Rés. Atmosphères 117, n/an/a (2012).

Google Scholar

Hersbach, H. et al. La réanalyse globale du CRE5. QJR Météorol. Soc. 146, 1999-2049 (2020).

Annonces d'article Google Scholar

Tarek, M., Brissette, FP & Arsenault, R. Évaluation de la réanalyse ERA5 comme ensemble de données de référence potentiel pour la modélisation hydrologique en Amérique du Nord. Hydrol. Terre Syst. Sci. 24, 2527-2544 (2020).

Annonces d'article Google Scholar

Liang, D. et al. La pollution atmosphérique urbaine peut augmenter les taux de létalité et de mortalité liés au COVID-19 aux États-Unis. L'Innovation 1, 100047 (2020).

Article CAS PubMed PubMed Central Google Scholar

Wu, X., Nethery, RC, Sabath, MB, Braun, D. & Dominici, F. Pollution de l'air et mortalité par COVID-19 aux États-Unis : forces et limites d'une analyse de régression écologique. Sci. Adv. 6, eabd4049 (2020).

Article ADS CAS PubMed PubMed Central Google Scholar

Pozzer, A. et al. Contributions régionales et mondiales de la pollution de l'air au risque de décès par COVID-19. Cardiovasculaire. Rés. 116, 2247-2253 (2020).

Article CAS PubMed PubMed Central Google Scholar

Marteau, MS et al. Estimations mondiales et tendances à long terme des concentrations de particules fines (1998–2018). Environ. Sci. Technol. 54, 7879–7890 (2020).

Article ADS CAS PubMed Google Scholar

Larkin, A. et al. Modèle mondial de régression de l'utilisation des terres pour la pollution atmosphérique par le dioxyde d'azote. Environ. Sci. Technol. 51, 6957–6964 (2017).

Article ADS CAS PubMed PubMed Central Google Scholar

Anenberg, SC et al. Tendances à long terme des concentrations urbaines de NO2 et de l'incidence de l'asthme pédiatrique associée : estimations à partir d'ensembles de données mondiaux. Lancette Planète. Santé 6, e49–e58 (2022).

Article PubMed Google Scholar

Anenberg, S. Concentrations moyennes annuelles de dioxyde d'azote au niveau de la surface V1 (SFC_NITROGEN_DIOXIDE_CONC). (2023).

Hale, T. et al. Une base de données mondiale sur les politiques en cas de pandémie (Oxford COVID-19 Government Response Tracker). Nat. Hum. Comportement 5, 529–538 (2021).

Article PubMed Google Scholar

Centres pour le Contrôle et la Prévention des catastrophes. Personnes atteintes de certaines conditions médicales. Centres de contrôle et de prévention des maladies https://www.cdc.gov/coronavirus/2019-ncov/need-extra-precautions/people-with-medical-conditions.html (2023).

Clark, A. et al. Estimations mondiales, régionales et nationales de la population à risque accru de COVID-19 grave en raison de problèmes de santé sous-jacents en 2020 : une étude de modélisation. Lancette Glob. Santé 8, e1003–e1017 (2020).

Article PubMed PubMed Central Google Scholar

La Banque mondiale. Prévalence du diabète (% de la population âgée de 20 à 79 ans). https://data.worldbank.org/indicator/SH.STA.DIAB.ZS?name_desc=false.

Fondation Robert Wood Johnson. Diabète. État de l'obésité infantile https://stateofchildhoodobesity.org/demographic-data/adult/ (2023).

Organisation Mondiale de la Santé. Prévalence de l'obésité chez les adultes, IMC ≥ 30, standardisé selon l'âge. Estimations par pays. Dépôt de données de l'Observatoire mondial de la santé https://apps.who.int/gho/data/view.main.CTRY2450A.

Fondation Robert Wood Johnson. Taux d'obésité chez les adultes. État de l'obésité infantile https://stateofchildhoodobesity.org/demographic-data/adult/.

Agence centrale de renseignement. Obésité - taux de prévalence chez l'adulte. Le World Factbook https://www.cia.gov/the-world-factbook/field/obesity-adult-prevalence-rate/.

Organisation Mondiale de la Santé. Prévalence de la consommation actuelle de tabac. Données par pays. Dépôt de données de l'Observatoire mondial de la santé https://apps.who.int/gho/data/view.main.GSWCAH20v.

Système de surveillance des facteurs de risque comportementaux. Données sur la prévalence et les tendances du BRFSS : prévalence du tabagisme. https://nccd.cdc.gov/BRFSSPrevalence/rdPage.aspx?rdReport=DPH_BRFSS.ExploreByTopic&irbLocationType=StatesAndMMSA&islClass=CLASS17&islTopic=TOPIC15&islYear=2018&rdRnd=77675.

Institut de métrologie et d'évaluation de la santé. Outil de résultats GBD. Outil de résultats GBD https://vizhub.healthdata.org/gbd-results (2023).

Fondation Robert Wood Johnson. L'hypertension aux États-Unis. État de l'obésité infantile https://stateofchildhoodobesity.org/demographic-data/adult/ (2023).

Collaboration sur les facteurs de risque des MNT. Tension artérielle Évolution de la pression artérielle dans le temps. https://ncdrisc.org/data-downloads-blood-pressure.html (2017).

Ramshaw, RE et al. Une base de données des occurrences géopositionnées du coronavirus du syndrome respiratoire du Moyen-Orient. Sci. Données 6, 318 (2019).

Article PubMed PubMed Central Google Scholar

Organisation Mondiale de la Santé. Syndrome respiratoire aigu sévère (SRAS). https://www.who.int/health-topics/severe-acute-respiratory-syndrome (2022).

Projet Atlas du paludisme. Accessibilité aux villes. https://malariaatlas.org/.

Weiss, DJ et al. Une carte mondiale du temps de trajet vers les villes pour évaluer les inégalités d'accessibilité en 2015. Nature 553, 333–336 (2018).

Article ADS CAS PubMed Google Scholar

Weiss, DJ et al. Cartes mondiales des temps de trajet vers les établissements de santé. Nat. Méd. 26, 1835–1838 (2020).

Article CAS PubMed Google Scholar

Carrasco-Escobar, G., Manrique, E., Tello-Lizarraga, K. & Miranda, JJ Le temps de déplacement vers les établissements de santé comme marqueur d'accessibilité géographique à travers une couverture terrestre hétérogène au Pérou. Devant. Santé publique 8, 498 (2020).

Article PubMed PubMed Central Google Scholar

Hu, Y., Wang, C., Li, R. et Wang, F. Estimation d'une grande matrice de temps de trajet entre les codes postaux aux États-Unis : une approche d'échantillonnage différentiel. J. Transp. Géogr. 86, 102770 (2020).

Article PubMed PubMed Central Google Scholar

Tatem, AJ WorldPop, données ouvertes pour la démographie spatiale. Sci. Données 4, 170004 (2017).

Article PubMed PubMed Central Google Scholar

Télécharger les références

Ce travail est soutenu par le projet 80NSSC18K0327 de la NASA sur la santé et la qualité de l'air, dans le cadre d'un supplément COVID-19, du projet 3U19AI135995-03S1 du National Institute of Health (NIH) ("Consortium for Viral Systems Biology (CViSB)" ; collaboration avec le Scripps Research Institute et UCLA) et la NASA accordent 80NSSC20K1122. Johns Hopkins Applied Physics Laboratory (APL), Data Services et Esri fournissent une assistance professionnelle pour la conception de la structure de collecte automatique des données et la maintenance du référentiel JHU CSSE GitHub.

Arash Mohegh

Adresse actuelle : Health & Exposure Assessment Branch, California Air Resources Board, Sacramento, CA, 95812, États-Unis

Département de génie civil et des systèmes, Université Johns Hopkins, Baltimore, MD, 21218, États-Unis

Hamada S. Badr, Ensheng Dong, Hongru Du, Maximilian Marshall, Kristen Nixon et Lauren M. Gardner

Département des sciences de la Terre et des planètes, Université Johns Hopkins, Baltimore, MD, 21218, États-Unis

Hamada S. Badr et Benjamin F. Zaitchik

Department of Environmental and Occupational Health, Milken Institute School of Public Health, George Washington University, Washington, DC, 20052, États-Unis

Gaige H. Kerr, Arash Mohegh, Daniel L. Goldberg et Susan C. Anenberg

Collège des arts et des sciences, Université de Virginie, Charlottesville, VA, 22903, États-Unis

Nhat-Lan H. Nguyen & Patrick Hinson

Division des maladies infectieuses et de la santé internationale, École de médecine de l'Université de Virginie, Charlottesville, VA, 22903, États-Unis

Yen-Ting Chen, Patrick Hinson, Josh M. Colston et Margaret N. Kosek

Département de médecine d'urgence, Centre médical Chi-Mei, Tainan, Taïwan

Yen-Ting Chen

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

BFZ et LMG ont conçu et supervisé la collecte des données et le contrôle qualité. HSB a créé l'ensemble de données unifié, normalisé les noms et codes administratifs par identifiant géospatial et harmonisé les noms et types de variables, fusionné tous les composants de données, développé le code principal et maintient la structure des données et les mises à jour en temps réel. BFZ et GHK ont traité et conservé les données hydrométéorologiques et sur la qualité de l'air. Tous les auteurs ont contribué aux fonds de données et à la rédaction et à la révision du manuscrit.

Correspondance à Benjamin F. Zaitchik.

Les auteurs ne déclarent aucun intérêt concurrent.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Badr, HS, Zaitchik, BF, Kerr, GH et al. Données environnementales et épidémiologiques unifiées en temps réel pour la modélisation multi-échelle de la pandémie de COVID-19. Sci Data 10, 367 (2023). https://doi.org/10.1038/s41597-023-02276-y

Télécharger la citation

Reçu : 06 mai 2022

Accepté : 30 mai 2023

Publié: 07 juin 2023

DOI : https://doi.org/10.1038/s41597-023-02276-y

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt