Sistemas inteligentes Reconocimiento de Patrones
Enviado por BRUNO REYNA SANCHEZ • 27 de Abril de 2024 • Tarea • 3.202 Palabras (13 Páginas) • 69 Visitas
iris
April 27, 2024
Iris Data Set
1. Preparacion del Data Frame[pic 1]
[129]:[pic 2]
[130]:[pic 3]
[130]: Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species
[131]:[pic 4]
[131]: (150, 6)
[132]:[pic 5]
[133]:
<class 'pandas.core.frame.DataFrame'> RangeIndex: 150 entries, 0 to 149 Data columns (total 6 columns):
# Column Non-Null Count Dtype
[pic 6] [pic 7] [pic 8] [pic 9]
- Id 150 non-null int64
- SepalLengthCm 150 non-null float64
- SepalWidthCm 150 non-null float64
- PetalLengthCm 150 non-null float64
- PetalWidthCm 150 non-null float64
- Species 150 non-null object dtypes: float64(4), int64(1), object(1) memory usage: 7.2+ KB[pic 10][pic 11]
[134]:[pic 12]
- : SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species
[135]:
2. Calidad de Datos
Se crea un mapa de calor para poder visualizar que columnas del data frame contienen datos vacios o nulos[pic 13][pic 14]
- : <Axes: >
[pic 15]
0 1 | 5.1 | 3.5 | 1.4 | 0.2 | Iris-setosa |
1 2 | 4.9 | 3.0 | 1.4 | 0.2 | Iris-setosa |
2 3 | 4.7 | 3.2 | 1.3 | 0.2 | Iris-setosa |
3 4 | 4.6 | 3.1 | 1.5 | 0.2 | Iris-setosa |
4 5 | 5.0 | 3.6 | 1.4 | 0.2 | Iris-setosa |
0 | 5.1 | 3.5 | 1.4 | 0.2 Iris-setosa | |
1 | 4.9 | 3.0 | 1.4 | 0.2 Iris-setosa | |
2 | 4.7 | 3.2 | 1.3 | 0.2 Iris-setosa | |
3 | 4.6 | 3.1 | 1.5 | 0.2 Iris-setosa | |
4 | 5.0 | 3.6 | 1.4 | 0.2 Iris-setosa |
Se observa que el data frame no contiene datos vacios en sus columnas
[136]:[pic 16]
- : 0 False
- False
- False
- False
- False
…
- False
- False
- False
- False
- False
Length: 150, dtype: bool
Se observa que el data frame no contien datos duplicados
[137]:
3. Analisis Exploratorio de Datos
Resumen Descriptivo del Data Set[pic 17]
- : SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm
[138]:
- Distribución equilibrada: Con un recuento de 150 para cada característica, el dataset está balanceado en términos de tamaño de muestra para todas las variables. Esto es ideal para el análisis comparativo entre las características.
- Dispersión de características: Existe una notable dispersión en las medidas de las car- acterísticas del Iris, con la longitud de los pétalos y la anchura de los pétalos mostrando la mayor variabilidad (es decir, valores más altos de desviación estándar). Esto indica que estas dos características pueden ofrecer una mayor discriminación para tareas de clasificación o análisis de clústeres.
- Indicios de bimodalidad: Los datos de la longitud y anchura de los pétalos sugieren una posible bimodalidad, reflejada en un rango más amplio y cuartiles que indican la presencia de dos grupos distintos dentro de los datos. Esto podría corresponder a diferencias morfológicas entre las especies de Iris.
- Simetría en sépalos: Las medidas de los sépalos parecen tener una distribución más simétrica alrededor de la media, lo que sugiere que son menos diferenciadoras entre las especies de Iris que las medidas de los pétalos
Distribucion de Datos[pic 18]
media_PetalLength = df['PetalLengthCm'].mean() moda_PetalLength = df['PetalLengthCm'].mode()[0] mediana_PetalLength = df['PetalLengthCm'].median()[pic 19]
media_PetalWidth = df['PetalWidthCm'].mean() moda_PetalWidth = df['PetalWidthCm'].mode()[0] mediana_PetalWidth = df['PetalWidthCm'].median()
# Lista de las columnas y datos estadísticos
features = ['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm'] statistics = {
'SepalLengthCm': {'mean': media_SepalLength, 'mode': moda_SepalLength,␣
...