Analizar los datos según sus gráficos (histograma y grafico acumulado)
Enviado por gary valdivia barrios • 1 de Octubre de 2017 • Informe • 861 Palabras (4 Páginas) • 137 Visitas
PPractica N°1: EXPLORACION DE DATOS
Objetivos:
Analizar los datos según sus gráficos (histograma y grafico acumulado)
Resolver el problema de estimación de una variable regionalizada, a partir de un conjunto de muestras.
Marco teórico:
Cálculos previos:
N° de muestra (n): Es la cantidad de datos con la que se va a trabajar.
Dato mínimo: Es el dato con menor valor.
Dato máximo: Es el dato con mayor valor.
Recorrido (l): Diferencia entre el Dato máximo y el dato mínimo.
Numero de intervalos: nos permite definir la amplitud y la marca de clase, nos muestra el límite inferior y el límite superior, para obtener un valor aproximado usamos la fórmula:
N° de intervalos =1+3.22×log〖(n)〗
Ancho de clase (W): Es la diferencia entre límite superior e inferior de cada intervalo.
W=l/(n° de intervalos)
Medidas de centralización:
Media (x̅): La media aritmética es el promedio de un conjunto de valores, o su distribución; sin embargo, para las distribuciones con sesgo, la media no es necesariamente el mismo valor que la mediana o que la moda. La media, moda y mediana son parámetros característicos de una distribución de probabilidad.
Mediana: Se denomina mediana en estadística al valor que se encuentra en el lugar central de todos los datos de un estudio cuando éstos están ordenados de menor a mayor. El símbolo de la mediana se representa por Me. La mediana es por tanto el número central de un grupo de números ordenados por su tamaño.
Moda: es el valor con mayor frecuencia en una distribución de datos.
Cuartil (Q): Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.
Medidas de dispersión:
Varianza: es una medida de dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media. O en pocas palabras, la media de los residuos al cuadrado.
Desviación estándar: es una medida de dispersión para variables de razón (variables cuantitativas o cantidades racionales) y de intervalo. Se define como la raíz cuadrada de la varianza de la variable.
Coeficiente de variación: es la relación entre la desviación típica de una muestra y su media.
Nivel de confianza: representa el porcentaje de intervalos que incluirían el parámetro de población si usted tomara muestras de la misma población una y otra vez. Por lo general, un nivel de confianza de 95% funciona adecuadamente. Esto indica que, si se recoge cien muestras y creó cien intervalos de confianza de 95%, cabría esperar que aproximadamente 95 de los intervalos incluyeran el parámetro de población, tal como la media de la población.
Z: Los valores de puntuación z críticos al utilizar un nivel de confianza del 95 por ciento son desviaciones estándar de -1,96 y +1,96.
Alfa: El nivel de significación es comúnmente representado por el símbolo griego α (alfa). Son comunes los niveles de significación del 0.05, 0.01 y 0.001.
Medidas de forma:
Coeficiente de asimetría: Mide el grado de asimetría de la distribución con respecto a la media. Un valor positivo de este indicador significa que la distribución se encuentra sesgada hacia la izquierda (orientación positiva). Un resultado negativo significa que la distribución se sesga a la derecha. La distribución se considera simétrica si el valor del coeficiente es cero.
Curtosis: una medida que sirve para analizar el grado de concentración que presentan los valores de una variable analizada alrededor de la zona central de la distribución de frecuencias, sin necesidad de generar el gráfico.
Intervalo de confianza: es un rango de valores, derivado de los estadísticos de la muestra, que posiblemente incluya el valor de un parámetro de población desconocido. Debido a su naturaleza aleatoria, es poco probable que dos muestras de una población en particular produzcan intervalos de confianza idénticos.
Tablas de frecuencia: es una
...