Como se da la Pre-Procesamiento de Datos
Enviado por pece78 • 16 de Diciembre de 2015 • Práctica o problema • 1.449 Palabras (6 Páginas) • 173 Visitas
Minería de Datos
Pre-Procesamiento de Datos
Objetives
Los objetivos para esta actividad son los siguientes:
- Conocer y utilizar técnicas descriptivas y de sumarización de los datos.
- Conocer y aplicar técnicas de normalización de datos.
- Aplicar técnicas de agrupación de datos.
- Conocer y aplicar herramientas de histogramas para análisis de datos.
Ejercicio 1: Data Summarization
Ejercicio 1: Suppose that the data for analysis includes the attribute age. The age values for the data tuples are (in increasing order):
13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70
a. What is the mean of the data? What is the median?
A1. Mean: Es el promedio de los datos y está dado por la fórmula:
[pic 3]
Por tanto,
[pic 4]
[pic 5]
A2. Median: Es el valor de en medio de una lista de datos ordenados. Si el número de datos (N) es impar, entonces la mediana es el valor que está en el puro centro, por el contrario, si N es par entonces la mediana es el promedio de los dos valores del medio.
Por tanto:
La lista de datos anterior es de 27 elementos, N = 27, dado que es impar, se toma el dato del medio como se indica a continuación:
13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70
Me = 25
b. What is the mode of the data? Comment on the data’s modality (i.e., bimodal, c. trimodal, etc.).
A1. Mode: Es el valor que ocurre más frecuentemente en el conjunto. Es posible que el valor más frecuente corresponda a diferentes valores, en tal caso el resultado es más de una moda.
13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70
En el conjunto de datos anterior, los valores que más se repiten son: 25 (4 veces) y 35 (4 veces).
Por tanto:
Mo = {25, 35}
A2. Type: Debido a que hay dos valores diferentes con la misma frecuenta (25 y 35) entonces es una lista de datos Bi-Modal.
d. What is the midrange of the data?
A1. Midrange: Es el promedio entre el valor más grande y el valor más pequeño del conjunto de datos.
13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70
En la lista anterior el valor más pequeño es 13 y el más grande es 70.
Por tanto.
[pic 6]
e. Can you find (roughly) the first quartile (Q1) and the third quartile (Q3) of the data?
A1. Quartil Q1: Además de la mediana, hay otros percentiles comúnmente usados, llamados cuartiles. La mediana representa el 50 percentil del conjunto de los datos, mientras que un cuartil representa el 25 percentil del conjunto de datos. El primer cuartil, representado por Q1 es el 25 percentil de los datos. Dicho de otra forma, el primer cuartil es la mediana de la primer mitad del conjunto de datos.
[pic 7]
Por tanto:[pic 8]
13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70
Q1 = 20
A2. Quartil Q3: El tercer cuartil representado por Q3, es el 75 percentil. Dicho de otra forma, el tercer cuartil es la mediana de la última mitad de datos del conjunto.
[pic 9]
Por tanto:[pic 10]
13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70
Q3 = 35
f. Give the five-number summary of the data.
A1. Five-number: Dado que Q1, la mediana y Q3 juntos no contienen información acerca de los puntos finales de los datos, un resumen más completo puede ser obtenido incluyendo los valores mínimo y máximo del conjunto. Consiste en: Min, Q1, Media, Q3, Max.
Por tanto:
Min, Q1, Media, Q3, Max = 13, 20, 25, 35, 70
g. Show a boxplot of the data.
A1. boxplot: Es una forma popular de visualizar la distribución de datos. Un BoxPlot incorpora los five-numer.
[pic 11]
h. How is a quantile-quantile plot different from a quantile plot?
Es una herramienta que pemrite al usuario ver si hay un cambio en la distribución de una a otra.
Ejercicio 2: Normalization
Ejercicio 2: Use the two methods below to normalize the following group of data:
200, 300, 400, 600, 1000
a. min-max normalization by setting min = 0 and max = 1
La normalización es particularmente útil para los algoritmos de clasificación, involucra redes neuronales, o mediciones de distancia tales como la clasificación del vecino más cercano y el agrupamiento. Un atributo se normaliza mediante la ampliación de sus valores para que caigan dentro de un pequeño rango, tal como 0.0 a 1.0.
A1. Min-max normalization: Realiza una transformación linear sobre los datos originales. La normalización mi-max mapea un valor V del conjunto A a un valor v´ en el rango [new_minA, new_maxA]. Para normalizar cualquier dato del conjunto, se aplica la siguiente fórmula:
...