ANÁLISIS ESTADÍSTICO PARA UNA BASE DE DATOS QUE REPRESENTA EL PRECIO DEL ACEITE DE SOJA DESDE 1960 HASTA 2020
Enviado por Zamm21 • 11 de Julio de 2022 • Ensayo • 3.899 Palabras (16 Páginas) • 65 Visitas
[pic 1]
ANÁLISIS ESTADÍSTICO PARA UNA BASE DE DATOS QUE REPRESENTA EL PRECIO DEL ACEITE DE SOJA DESDE 1960 HASTA 2020
Karim Zamara Calvo Calderon1
Santiago Ramírez2
1Ingeniería Mecánica. Universidad Central.
2Ingeniería Mecánica. Universidad Central.
Estadística I
Ingeniero Catastral Pedro Rocha Salamanca
Bogotá, mayo 20 2022
Índice
1. MEDIDAS DE TENDENCIA CENTRAL 3
1.1. Media 3
1.2. Mediana 3
1.3. MODA 4
2. MEDIDAS DE DISPERSIÓN 4
2.1. Rango 4
2.2. Varianza muestral 5
2.3. Desviación estándar 5
2.4. Coeficiente de variación 6
3. MEDIDAS DE LOCALIZACIÓN 6
3.1. Cuartiles 6
3.2. Percentiles 7
4. MEDIDAS DE FORMA 7
4.1. Coeficiente de simetría 7
4.2. Curtosis 9
5. DISTRIBUCIÓN DE POISSON 9
6. DISTRIBUCIÓN BINOMIAL 10
7. DISTRIBUCIÓN NORMAL 11
8. MODELO LINEAL 13
9. CONCLUSIONES 14
Análisis estadístico del precio del aceite de soja
MEDIDAS DE TENDENCIA CENTRAL
Media
Teniendo en cuenta los datos obtenidos para el promedio de 15055 datos del precio del aceite de soja con respecto al tiempo, se utiliza la ecuación (1) para hallar la media:
[pic 2]
(1)
[pic 3]
El promedio del valor del aceite es de $0,2377
Mediana
Ordenando los datos de mayor a menor y asignando a los valores ciertos rangos se plantean dos situaciones para calcular la Mediana.
- Sin n es par:
[pic 4]
(2)
- Si n es impar:
[pic 5]
(3)
El número de posiciones organizadas en el arreglo es de 15055, por lo que se utiliza la fórmula (3) para resolver el cálculo:
[pic 6]
[pic 7]
La mediana se encuentra en la posición 7528 del arreglo, por tanto, la mediana es 0,2276
MODA
[pic 8]
El precio que más veces se repite en el intervalo de tiempo es $0.0856
MEDIDAS DE DISPERSIÓN
Rango
El rango será la diferencia del valor máximo entre el valor mínimo, teniendo así:
[pic 9]
(4)
Según R estudio, el valor máximo que existe en el conjunto de datos es 0.782 y el mínimo es 0.0697. De acuerdo a lo anterior, el rango es:
[pic 10]
[pic 11]
[pic 12]
Varianza muestral
Entendiendo que la varianza muestral es la suma de las diferencias cuadráticas entre cada dato y su media aritmética, se aplica la siguiente fórmula.
[pic 13]
(5)
Como el conjunto de valores es tan extenso, se hace uso de R estudio para realizar el cálculo.
[pic 14]
Desviación estándar
Se utilizó la desviación estándar para calcular el error presentado en el conjunto de datos en la media aritmética con la siguiente formula:
[pic 15]
(6)
Teniendo en cuenta el valor de la varianza muestral se obtuvo en el apartado anterior, se procede a remplazar este dato en la raíz propuesta, así:
[pic 16]
[pic 17]
Coeficiente de variación
[pic 18]
(7)
Donde:
S: Desviación estándar
: Media aritmética [pic 19]
[pic 20]
[pic 21]
MEDIDAS DE LOCALIZACIÓN
Cuartiles
Los cuartiles serán los encargados de dividir una tabla de datos en cuatro partes iguales. El total del 100% se divide cuatro partes iguales: 25%, 50%, 75% y 100%. La fórmula que se utiliza para calcular estos cuartiles es la siguiente:
[pic 22]
(10)
...