Imputation, based on the multivariate Normal distribution, of missing records of fine particulate matter in air




Air Pollution, Little's Test, Mardia's Test, Missing Data, PM2.5, R2, RMSE, Simulation


We propose and evaluate two imputation methods for missing data of fine particulate matter on air. We assume a 24-variate normal distribution, one per weekday. From this distribution properties, the imputation methods are based on the conditional distributions for missing hours, starting from hours with available records. We estimate the weekday variance-covariance matrix using two methods: maximum likelihood (denoted by ∑), and shrinkage (denoted ∑*).  Afterwards, we verify the missing completely at random (MCAR) assumption using the Little’s test, and also de multivariate normality using the Mardia´s test. Finally, we evaluate the proposed methods through a simulation trial, generating suitable scenarios for this kind of problems. We use two evaluation criteria: the coefficient of determination (R2) and the square root of the mean square error (RMSE). We use a 2018 data set from Cali, Colombia, to illustrate how to use the proposed methods. We reach R2 values of around 0.70 and 0.49, and RMSE values of around 5.7 and 8.5, for the methods based on ∑ and ∑*, respectively.


Esteban Arroyave López, Universidad del Valle

nació en Cali, Colombia y obtuvo su titulo de Estadístico en la Universidad del Valle, ubicada en esta misma ciudad, en el año 2021. Actualmente trabaja como contratista en el proyecto Big Data del departamento de las TIC, en la Alcaldía de la de Santiago de Cali, brindando asesorías técnicas transversales a la entidad para guiar la formulación e implementación de casos de uso de analítica avanzada mediante computo en la nube. Entre sus intereses se encuentra la gestión de proyectos de analítica y los modelos de aprendizaje automático.

Alejandro Villarreal Monsalve, Universidad del Valle

Profesional en estadística de la Universidad del Valle (2021), cuenta con experiencia en el area de investigación y consultoría estadística, donde ha brindado asistencia en proyectos de distintas areas. Actualmente se desempeña como soporte de datos y analítica en la empresa de seguridad ATLAS LTDA.

Javier Olaya Ochoa, Dr, Universidad del Valle

Profesor titular de tiempo completo en la Escuela de Estadística de la Universidad del Valle. PhD en Management Science y MSc en Mathematical Sciences de la Universidad de Clemson, Carolina del Sur, Estados Unidos. Estadístico de la Universidad del Valle. Fundador y actual director del Grupo de Investigación en Estadística Aplicada - INFERIR. Intereses de investigación en técnicas de suavización y temas afines, incluyendo la Regresión No Parámetrica, el Análisis de Datos Funcionales y el Aprendizaje Estadístico.


Arroyave López, E., Villarreal Monsalve, A., & Olaya Ochoa, J. (2023). Imputation, based on the multivariate Normal distribution, of missing records of fine particulate matter in air. Scientia Et Technica, 28(01), 38–47.



Ciencias Básicas