Imputación basada en la distribución Normal multivariada de datos faltantes de mediciones de partículas finas suspendidas en el aire
DOI:
https://doi.org/10.22517/23447214.24734Palabras clave:
Contaminación del aire, Test de little, Test de Mardia, Datos faltantes, PM2.5, RMSE, Simulación, R2Resumen
Se proponen y evalúan dos métodos de imputación para datos faltantes de partículas finas suspendidas en el aire, asumiendo que cada día de la semana se puede modelar mediante una distribución normal 24-variada. A partir de las propiedades de esta distribución, se conduce la imputación estimando las distribuciones condicionales para las horas faltantes a partir de las horas con información disponible. Para cada día se estima la matriz de varianzas y covarianzas por dos métodos: por máxima verosimilitud (denotada ∑) y por shrinkage (denotada ∑*). Luego, se prueba el supuesto de pérdida completamente al azar (MCAR) mediante el test de Little y se prueba el supuesto de normalidad multivariada con el test de Mardia. Finalmente, se evalúan los métodos propuestos vía simulación, generando escenarios posibles para este tipo de problemas, junto con dos criterios: coeficiente de determinación (R2) y raíz cuadrada del error cuadrático medio (RMSE). Los métodos propuestos se ilustran con datos de mediciones de Cali, Colombia, de 2018. Se alcanzan valores alrededor de 0.70 y 0.49 para el R2 y de 5.7 y 8.5 para el RMSE, para los métodos basados en ∑ y ∑*, respectivamente.
Descargas
Citas
[2] OMS, “Calidad del aire y salud, Datos y cifras”, Organización Mundial de la Salud. Comunicado de prensa, May. 2, 2018.
[3] Cao, Junji and Chow, Judith and Watson, John and Lee, Shuncheng, “A brief history of PM2.5 and its adverse effects”. Aerosol and Air Quality Research, Ene. 2013. DOI:10.4209/aaqr.2012.11.0302
[4] Observatorio Nacional de Salud, “Carga de enfermedad ambiental en Colombia”. Instituto Nacional de Salud (INS), pág. 96 Bogotá D.C. Nov. 2018. Disponible: https://www.ins.gov.co/Noticias/Paginas/Informe-Carga-de-Enfermedad-Ambiental-en-Colombia.aspx
[5] M. E. Quinteros, S. Lu, C. Blazquez, J. P. Cárdenas-R Ossa, X., Delgado-Saborit, J. M., Harrison, R. M. and Ruiz-Rudolph, P., “Use of data imputation tools to reconstruct incomplete air quality datasets: A case-study in Temuco, Chile”, Atmospheric Environment 200, pp. 40-49. 2019. URL:http://www.sciencedirect.com/science/article/pii/S1352231018308367
[6] Pope III, C. A., J. B., Anderson, J. L., Cannon, J. B., Hales, N. M., Meredith, K. G., Le, V. and Horne, B. D., “Short-Term” exposure to fine particule matter air pollution is preferentially associated with the risk of ST-Segment elevation acute coronary events”. Journal of the American heart association. 2015. DOI: 10.1161/JAHA.115.002506.
[7] Beyea, J., Stellman, S. D., Teitelbaum, S., Mordukovich, I. and Gammon, M. D. “Imputation method for lifetime exposure assessment in air pollution epidemiologic studies”, Environmental Health. 2013. URL: http://www.ehjournal.net/content/12/1/62
[8] M. Lee, P. Koutrakis, B. Coull, I. Kloog. and J. Schwartz,, “Acute effect of fine particulate matter on mortality in three Southeastern states from 2007-2011”, Journal of exposure science & environmental epidemiology, pp 173-179. 2015.
[9] S. M. Taghavi-Shahri, A. Fassó, B. Mahaki and H. Amini, “Concurrent spatiotemporal daily land use regression modeling and missing data imputation of fine particulate matter using distributed space time expectation maximizaition”, bioRxiv. URL: https://www.biorxiv.org/content/early/2018/06/26/354852
[10] J. Céspedes., J. Cuero and F. Hernández “Metodología para seguir las concentraciones de aerosoloes atmosféricos usando técnicas de teledetección”, Universidad del Valle, Colombia. Sep. 2015.
[11] L. C. Chien, Y. A. Chen and H. L. Yu, “Lagged Influence of fine particulate matter and geographic disparities on clinic visits for children’s asthma in Taiwan”. International journal of environmental research and public health. Abr. 2018.
[12] N. A. Zakira, and M. N. Noor, “Imputación methods for filling missing d urban air pollution data for malaysi”. Urbanism, Arhitectură. Construcţii, Malaysia, Vol 9, No. 2, 2018.
[13] Caicedo and Jimenez, “Imputación basada en anáisis de datos funcionales de observaciones faltantes de contaminación atmosférica por partículas finas suspendidas en el aire (PM 2.5)”. Universidad del Valle, Colombia. 2016.
[14] A. Otero, and M. Presiga. “Evaluación de un método de imputación basado en el Análisis de Datos Funcionales para los registros de PM2.5 en la ciudad de Cali”. Trabajo de grado en Estadística, Universidad del Valle, Colombia. Dic. 2019.
[15] G. G. Fernando. “Estimación de matrices de covarianzas: nuevas perspectivas”, Universidad Nacional de Educación a Distancia, España, 2014. Disponible: http://e-spacio.uned.es/fez/eserv/bibliuned:masterMatavanz-Fgodino/Documento.pdf
[16] Schafer, Juliane and Strimmer, Korbinian. “A shrinkage approach to large-scale covariance matrix estimation and implications for functional genomics”. Statistical applications in genetics and molecular biology, vol. 4, Feb. 2005, DOI: 10.2202/1544-6115.1175
[17] C. K., Enders “Applied Missing Data Analysis”. Univ. of Pennsylvania, New York, NY, USA, 2010. Disponible: http://hsta559s12.pbworks.com/w/file/fetch/52112520/enders.applied
[18] Rubin and B. Donald, “Inference and missing data”. Biometrika vol. 63 pp. 581-592. Oxford University Press, 1976. DOI: https://doi.org/10.2307/2335739
[19] Little and J. A. Roderick, “A Test of Missing Completely at Random for Multivariate Data with Missing Values”, Journal of the American Statistical Association, vol. 83, pp. 1198 - 1202. Dic. 1988. DOI: 10.1080/01621459.1988.10478722
[20] Mardia and V Kanti, “Measures of multivariate skewness and kurtosis with applications”, Biometrika vol. 57, no. 3, pp. 519-530, Dic. 1, 1970. DOI: 10.1093/biomet/57.3.519
[21] DAGMA, “Sistema de Vigilancia de Calidad del Aire de Cali - SVCAC” Cali, Colombia, acceso: Julio 2020.
[22] R Core Team, “R: A Language and Environment for Statistical Computing” Viena, Austria. 2020
URL = https://www.R-project.org
[23] J. Schafer, and Opgen-Rhein, Rainer and Zuber, Verena and Ahdesmaki, Miika and Silva, A Pedro D. and Strimmer, Korbinian and Strimmer, Maintainer K., “Package corpcor”. R Package Versión 1.6.9. Ene. 4, 2017. DOI: doi:10.2202/1544-6115.1175
[24] J. Villaseñor and E. Gonzales, “A Generalization of Shapiro–Wilk's Test for Multivariate Normality”. Communication in Statistics - Theory and Methods, 2009. DOI: 10.1080/03610920802474465
[25] D. Allison, “Quantitative Applications in the Social Sciences: Missing data”. Univ. of Pennsylvania, Pensylvania P, USA, 2002. DOI: https://dx.doi.org/10.4135/9781412985079
[26] Minambiente, “Resolución 2254, Ministro Medio Ambiente y Desarrollo Sostenible” Ministerio de medio ambiente, Bogotá, Colombia, Nov. 1, 2017. Disponible: https://www.minambiente.gov.co/images/normativa/app/resoluciones/96-res%202254%20de%202017.pdf
[27] J. C. Lin, “A Probability Based Framework for Testing the Missing Data Mechanism”. UCLA. ProQuest ID: Lin_ucla_0031D_11320. Merritt ID: ark:/13030/m51276k4. 2013. URL: https://escholarship.org/uc/item/4c51m4bm
[28] W.M.L.K.N Wijesekara and Liyanage L. “Comparison of Imputation Methods for Missing Values in Air Pollution Data: Case Study on Sydney Air Quality Index”. In: Arai K., Kapoor S., Bhatia R. (eds) Advances in Information and Communication. FICC 2020. Advances in Intelligent Systems and Computing, vol 1130. Springer, 2020. URL:https://doi.org/10.1007/978-3-030-39442-4_20
[29] IDEAM, “Manual de crítica estadísticas de monitoreo y seguimiento de la calidad del aire (EMSCA)”. Instituto de Hidrología, Metereología y estudios ambientales. Bogotá Colombia, Jun. 06, 2019, pp. 4. Disponible: http://www.ideam.gov.co/documents/24189/102263008/M-GCI-EA-M019+MANUAL+DE+CR%C3%8DTICA+EMSCA.pdf/1406128d-4dd8-4845-a8ab-1273bc3e0513?version=1.0
Descargas
-
Vistas(Views): 108
- PDF Descargas(Downloads): 33
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2023 Scientia et Technica

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Derechos de autor y licencias
La revista es de acceso abierto gratuito y sus artículos se publican bajo la licencia Creative Commons Atribución/Reconocimiento-No Comercial-Compartir bajo los mismos términos 4.0 Internacional — CC BY-NC-SA 4.0.
Los autores de un artículo aceptado para publicación cederán la totalidad de los derechos patrimoniales a la Universidad Tecnológica de Pereira de manera gratuita, teniendo en cuenta lo siguiente: En caso de que el trabajo presentado sea aprobado para su publicación, los autores deben autorizar de manera ilimitada en el tiempo, a la revista para que pueda reproducirlo, editarlo, distribuirlo, exhibirlo y comunicarlo en cualquier lugar, ya sea por medios impresos, electrónicos, bases de datos, repositorios, discos ópticos, Internet o cualquier otro medio requerido.
Los cedentes mediante contrato CESIÓN DE DERECHOS PATRIMONIALES declaran que todo el material que forma parte del artículo está totalmente libre de derechos de autor de terceros y, por lo tanto, se hacen responsables de cualquier litigio o reclamación relacionada o reclamación relacionada con derechos de propiedad intelectual, exonerando de toda responsabilidad a la Universidad Tecnológica de Pereira (entidad editora) y a su revista Scientia et Technica. De igual forma, los autores aceptan que el trabajo que se presenta sea distribuido en acceso abierto gratuito, resguardando los derechos de autor bajo la licencia Creative Commons Atribución/Reconocimiento-No Comercial- Compartir bajo los mismos términos 4.0 Internacional — CC BY-NC-SA 4.0.
https://creativecommons.org/licenses/by-nc-sa/4.0/
A los autores, la revista Scientia et Technica tiene la obligación de respetarle los derechos morales (artículo 30 de la Ley 23 de 1982 del Gobierno Colombiano) que se les debe reconocen a estos la paternidad de la obra, el derecho a la integridad y el derecho de divulgación. Estos no se pueden ceder ni renunciar.