Ejercicios Datos Perdidos(SPSS)
Enviado por Jordy Yuquilema • 10 de Julio de 2022 • Informe • 593 Palabras (3 Páginas) • 88 Visitas
[pic 1][pic 2]
UNIVERSIDAD CENTRAL DEL ECUADOR[pic 3][pic 4]
FACULTAD DE CIENCIAS ECONOMICAS
CARRERA DE ESTADISTICA
BASE DE DATOS II
Tarea #4.2: Datos perdidos, método de sustitución, de regresión y algoritmo EM
Método de sustición.
1. Se realiza un análisis descriptivo con los datos perdidos y gráficos de dispersión.
Estadísticos descriptivos | |||||
N | Mínimo | Máximo | Media | Desviación estándar | |
Salario | 34683 | -1 | 999999 | 14809,16 | 118673,405 |
N válido (por lista) | 34683 |
[pic 5]
2. Se realiza un análisis de valores perdidos
[pic 6]
Estadísticos univariados | |||||||
N | Media | Desviación estándar | Perdidos | Número de extremosa | |||
Recuento | Porcentaje | Menor | Mayor | ||||
Salario | 34683 | 14809,16 | 118673,405 | 54146 | 61,0 | 0 | 496 |
a. Número de casos fuera del rango (Media - 2*SD, Media + 2*SD). |
3. Se reemplazan los valores perdidos
[pic 7]
Variables de resultado | ||||||
Result Variable | N de valores perdidos sustituidos | Número de caso de valores no perdidos | N de casos válidos | Creación de función | ||
Primero | Último | |||||
1 | Salario_1 | 54146 | 1 | 88829 | 88829 | SMEAN(Salario) |
4.Se realiza un nuevo análisis descriptivo, ahora con los valores perdidos reemplazados y nuevo gráfico.
Estadísticos descriptivos | |||||
N | Mínimo | Máximo | Media | Desviación estándar | |
SMEAN(Salario) | 88829 | -1,0 | 999999,0 | 14809,160 | 74153,3076 |
N válido (por lista) | 88829 |
[pic 8][pic 9]
5. Análisis
Se identificaron 54146 valores perdidos que representan el 61% del total de datos, lo cual es más de la mitad de datos, se reemplazaron cada uno de los valores con la media de serie 14809,16.
Observamos que la media no cambio en el análisis con los datos perdidos y reemplazados, lo que si varia es la deviación estándar que la distancia que tiene cada valor con respecto a la media, paso de ser de 118673,405
a 74153,3076 esto quiere decir que los datos están menos dispersos en el análisis lo cual podría resultar más confiable para nuestra investigación. En los gráficos vemos una diferencia el primero nos muestra una concentración de los datos en el 0 ya que la mayor parte de los datos eran faltantes, en el nuevo observamos que los valores están concentrados en la media.
Método de regresión.
1. Se realizó un análisis de frecuencias con nuestra variable y un gráfico
[pic 10]
Estadísticos | ||
Salario | ||
N | Válido | 34683 |
Perdidos | 54146 | |
Media | 14809,16 | |
Mediana | 360,00 | |
Desviación estándar | 118673,405 |
2. Análisis de valores perdidos por regresión y reemplazamos por el Residuo
[pic 11]
Estadísticos univariados | |||||||
N | Media | Desviación estándar | Perdidos | Número de extremosa | |||
Recuento | Porcentaje | Menor | Mayor | ||||
Salario | 34683 | 14809,16 | 118673,405 | 54146 | 61,0 | 0 | 496 |
a. Número de casos fuera del rango (Media - 2*SD, Media + 2*SD). |
3.nuevo análisis de frecuencias con los valores perdidos reemplazados por regresión.
...