Analisis multivariant pac1
Enviado por Sergi Gregori Enrich • 12 de Octubre de 2015 • Apuntes • 2.633 Palabras (11 Páginas) • 159 Visitas
Nom i cognom de l’estudiant
Prova d’avaluació continuada 1. ANÀLISI UNIVARIANT
Criteris d’avaluació
Les preguntes i els problemes han d’estar desenvolupats i raonats. No es considerarà correcta cap resposta no argumentada. Cada pregunta val 2 de punts.
Format i data de lliurament
El fitxer que es lliuri amb la resposta a la PAC haurà de contenir tot el material necessari per a la seva resolució, per la qual cosa es demana que, en el cas de ser necessari, copieu les sortides que ofereix el programa R-Commander en el fitxer de text que conté la vostra resposta.
Les proves d'avaluació contínua s'han de lliurar mitjançant l’aplicatiu de Lliurament i Registre d’AC que es troba en l'apartat Avaluació de l'aula, i en cap cas a la bústia personal del consultor.
Recordeu que podeu lliurar l'activitat amb extensió doc o pdf.
La data límit de lliurament són les 24 hores del dia 11 d’octubre de 2015
Al tauler i calendari es publicarà la solució el dia 12 d’octubre de 2015.
Les qualificacions de la PAC1 es podran consultar a la bústia de Lliurament i Registre d’AC a partir del dia 16 d’octubre de 2015.
Enunciat
En l’estudi de mercat de “El triangle de les Bermudas”, el gerent del centre comercial Barcelona Glòries estava interessat en conèixer una mica millor els seus clients per tal de poder derivar-ne algunes decisions estratègics de futur. En l’apartat 3 del cas pràctic s’analitza el comportament de compra a partir d’una mostra representativa de 531 visitants.
En aquesta primera PAC ens volem centrar en una de les variables que no s’han analitzat individualment, i que després s’ha categoritzat. Ens estem referint a la variable edat (EDAD). A partir de les dades contingudes en el fitxer en format Excel “Dades_CasPractic1.xls” (que haureu d’importar amb el R-Commander) en què es basa el cas pràctic de “El triangle de les Bermudas”, es demana que contesteu de forma raonada les següents qüestions:
Pregunta 1:
Realitzeu un histograma d’aquesta variable (EDAD) i de la variable (SATISF_GEN), i la corresponent anàlisi descriptiva per ambdues variables. Comenteu els principals resultats obtinguts en relació a les mesures de centre, de dispersió i de forma de la distribució.
VARIABLE EDAD
[pic 1]
Anàlisi descriptiva
- Mesures de centre:
> summary(Datos)
EDAD
Min. :18.00
1st Qu.:25.00
Median :33.00
Mean :34.95
3rd Qu.:42.50
Max. :64.00
- Mesures de dispersió:
> numSummary(Datos[,"EDAD"], statistics=c("sd", "IQR", "cv"), quantiles=c(0,.25,.5,.75,1))
sd IQR cv n
12.09387 17.5 0.3460233 531
- Mesures de forma de la distribució:
> numSummary(Datos[,"EDAD"], statistics=c("skewness", "kurtosis"), quantiles=c(0,.25,.5,.75,1), type="2")
skewness kurtosis n
0.5793877 -0.6440381 531
- Comentaris:
Les primeres mesures, ens donen el centre de la distribució de freqüències, valor que es pot prendre com a representatiu de totes les dades. Hi ha diferents maneres per definir el "centre" de les observacions en un conjunt de dades. Per ordre d'importància, són:
- MEAN: és la mitjana aritmètica de les observacions, és a dir, el quocient entre la suma de totes les dades i el nombre d'ells. El valor resultant: 34.95
- MEDIAN: és el valor que separa per la meitat les observacions ordenades de menys a més, de tal manera que el 50% d'aquestes són menors que la mitjana i l'altre 50% són majors. Si el nombre de dades és imparell la mitjana serà el valor central, si és parell prendrem com mitjana la mitjana aritmètica dels dos valors centrals. El valor resultant: 33.00
Pel que fan els quartils, són els tres valors que divideixen al conjunt de dades ordenades en quatre parts iguals, són un cas particular dels percentils:
- El primer quartil Q1 és el menor valor que és més gran que una quarta part de les dades. I el valor resultant: 25.00
- El segon quartil Q2 (la mitjana), és el menor valor que és més gran que la meitat de les dades. I el valor resultant: 33.00
- El tercer quartil Q3 és el menor valor que és més gran que tres quartes parts de les dades. I el valor resultant: 42.50
Per altre banda, les mesures de tendència central tenen com objectiu el sintetitzar les dades en un valor representatiu, en canvi les mesures de dispersió ens diuen fins a quin punt aquestes mesures de tendència central són representatives com a síntesi de la informació. Les mesures de dispersió quantifiquen la separació, la dispersió, la variabilitat dels valors de la distribució respecte al valor central.
- Desviació típica: La variància ve donada per les mateixes unitats que la variable però al quadrat, per evitar aquest problema podem usar com a mesura de dispersió la desviació típica que es defineix com l'arrel quadrada positiva de la variància. I el valor resultant: 12.09387
- Recorregut o rang mostral: És la diferència entre el valor de les observacions major i el menor. I el valor resultant: 17.5
- Coeficient de variació de Pearson: Quan es vol comparar el grau de dispersió de dues distribucions que no vénen donades en les mateixes unitats o que les mitjanes no són iguals s'utilitza el coeficient de variació de Pearson, que es defineix com el quocient entre la desviació típica i el valor absolut de la mitjana aritmètica. I el valor resultant: 0.3460233
I per últim, les mesures de forma de la distribució comparen la forma que té la representació gràfica, bé sigui l'histograma o el diagrama de barres de la distribució, amb la distribució normal.
...