Laboratorio: Árboles de decisión, reglas y ensemble learning
Enviado por andres felipe avila hernandez • 2 de Diciembre de 2023 • Práctica o problema • 782 Palabras (4 Páginas) • 53 Visitas
Asignatura | Datos del alumno | Fecha |
Técnicas de inteligencia Artificial | Apellidos: Ávila Hernández | |
Nombre: Andres Felipe |
Laboratorio: Árboles de decisión, reglas y ensemble learning
Descripción y caracterización del conjunto de datos
El presente informe pretende analizar y clasificar el conjunto de datos “Laboratorio_dataset_car” que contiene los datos sobre la aceptabilidad de los carros por parte de los clientes con base de 7 atributos los cuales son 6 de entrada y 1 atributo clase. El conjunto de datos mencionado anteriormente contiene 1750 instancias, con 6 atributos de tipo categóricos y un atributo clase también categórico que obtiene 4 clases, las cuales representan la aceptabilidad de los carros.
[pic 1]
Fig.1 Resumen descriptivo del conjunto de datos
[pic 2]
Fig.2 Histograma entre la distribución de clases y numero de instancias
Clase | Núm. Instancias | Descripción |
unacc | 1215 | Inaceptable |
acc | 390 | Aceptable |
good | 75 | Buena |
vgood | 70 | Muy Buena |
Tabla 1. Numero de instancias y descripción de las clases
Atributo | Categorías | Descripción |
Buying | ['vhigh' 'high' 'med' 'low'] | Precio de compra |
Maintenance | ['vhigh' 'high' 'med' 'low'] | Costo de mantenimiento |
Doors | ['2' '3' '4' '5more'] | Numero de puertas |
Person | ['2' '4' 'more'] | Capacidad de asientos para personas |
lug_boot | ['small' 'med' 'big'] | Tamaño del maletero |
safety | ['low' 'med' 'high'] | Seguridad del vehículo |
Tabla 2. Descripción de los atributos de entrada y sus categorías
Mediante las figuras y la tablas representadas anteriormente se puede apreciar que se muestra la distribución por cada una de las clase, donde la clase que presenta mayor cantidad de datos es unacc(Inaceptable), acc(Buena) y las que contienen menor cantidad de datos son las clases good(Bueno) y vgood(Muy buena). Por otro lado, no existen campos con valores nulos, por lo cual es posible usar el conjunto de datos para entrenar los modelos de clasificación. Todos los atributos son comprensibles y poseen valores coherentes.
Preprocesamiento del conjunto de datos
Empezaremos creando dos objetos “X e y”, donde “X” almacenara las variables predictoras e “y” la variable a predecir con la función “.iloc()” pasándole el rango correspondiente a estas, usando la función “.get_dummies” transformamos a números las variables predictoras.
[pic 3]
División del dataset en datos de entrenamiento y datos de test
Se utilizo el módulo “train_test_split” de la librería “sklearn” donde tomara el 20% para datos de prueba y el 80% para entrenamiento
...