Análisis de datos Se la ACB
Enviado por yaizaff • 28 de Febrero de 2017 • Trabajo • 664 Palabras (3 Páginas) • 204 Visitas
1. OBJETIVO Y DATOS
El objetivo principal será agrupar individuos con características similares en un cierto número de clases (que vendrá determinado por los datos). Para ello utilizaremos un análisis de componentes principales seguido de un análisis cluster.
Tenemos datos correspondientes a los jugadores de la ACB de la fase regular de 2005, de los cuales solo vamos a analizar aquellos que hayan participado al menos en la mitad de los partidos de la temporada. Para cada uno de ellos hemos considerados las siguientes variables continuas:
1) PAJ: Partidos jugados.
2) MIJ: Minutos jugados.
3) 5IN: Veces en el 5 inicial.
4) PUNT: Puntos totales anotados.
5) TI3C: Tiros de 3 anotados.
6) TI3L: Tiros de 3 lanzados.
7) TI3%: Porcentaje de tiros de 3 anotados.
8) TI2C: Tiros de 2 anotados.
9) TI2L: Tiros de 2 lanzados.
10) TI2%: Porcentaje de tiros de 2 anotados.
11) TLC: Tiros libres anotados.
12) TLL: Tiros libres lanzados.
13) TL%: Porcentaje de tiros libres anotados.
14) REBT: Rebotes totales conseguidos.
15) ASIS: Asistencias.
16) RECU: Recuperaciones.
17) PERD: Perdidas.
18) TAFA: Tapones a favor.
19) TACO: Tapones en contra.
20) MATE: Mates realizados.
21) FACO: Faltas cometidas.
22) FARE: Faltas recibidas.
23) VALO: Valoración.
Utilizaremos una variable nominal, POS: Posición en el terreno de juego, para ayudarnos a interpretar algunos resultados.
Observamos en la tabla 1 que las medias y las desviaciones típicas oscilan entre valores muy diferentes, por lo que vamos a realizar un ACP normado.
2. ANÁLISIS DE COMPONENTES PRINCIPALES
2.1. Valores propios.
Para seleccionar el número de ejes que vamos a utilizar nos ayudaremos de la siguiente tabla, seleccionando aquellos ejes cuyo valor propio sea superior a uno.
Podemos destacar que los dos últimos ejes no recogen ningún tipo de información.
Lo más importante que observamos es que hay 4 valores propios superiores a uno. Debido a la poca diferencia que hay entre la variabilidad que recogen los ejes del tercero en adelante, hemos decidido utilizar solo los dos primeros ejes que recogen el 68.52% de la variabilidad de los datos en total.
2.2. Matriz de correlaciones.
A continuación mostramos la matriz de correlaciones en la que hemos distinguido las correlaciones positivas, negativas y medias con una escala de colores entre el azul (correlaciones más altas negativas) y el rojo (correlaciones más altas positivas).
Se observan variables fuertemente correladas en sentido positivo como son tiros lanzados y tiros conseguidos, tanto en tiros de 3, como en tiros de
...