Aplicación de la minería de datos
Enviado por Necid Jose Osman Campo • 3 de Abril de 2017 • Tarea • 1.824 Palabras (8 Páginas) • 231 Visitas
[pic 1][pic 2][pic 3][pic 4]
Tabla de contenido
COMPRENSION DEL NEGOCIO 3
DETERMINACION DE LOS OBJETIVOS COMERCIALES 3
Contexto 3
Objetivos del negocio 3
Criterios de éxito del negocio 4
VALORACION DE LA SITUACION 4
Inventario de recursos 4
Requisitos, supuestos y restricciones 4
Terminología 5
Costes y beneficios 6
Producción de un plan de proyecto 6
Evaluación inicial de herramientas y técnicas 7
Parte I:
Aplicación de la metodología CRISP-DM al problema
En esta primera parte del proyecto pasamos a la parte más práctica, donde iremos aplicando cada una de las fases de la metodología CRISP-DM al problema práctico que nos planteamos, que es la extracción y explotación de datos del entorno universitario.
Iremos numerando cada una de las fases de la metodología tal y como están numeradas en el documento original.
COMPRENSION DEL NEGOCIO
A continuación iremos siguiendo cada una de las tareas de las que consta esta primera fase en el proceso de la minería de datos, cuya finalidad es determinar los objetivos y requisitos del proyecto desde una perspectiva de negocio, para más adelante poder convertirlos en objetivos desde el punto de vista técnico y en un plan de proyecto.
DETERMINACION DE LOS OBJETIVOS COMERCIALES
El objetivo de la minería de datos que se va aplicar en este proyecto es el de hacer predicciones lo más fiables posible a partir de los datos de los que ya se disponen de los alumnos en un colegio. El objetivo es proporcionar un mejor servicio de enseñanza a los alumnos y así poder captar más alumnos para que mejoren el rendimiento estudiantil en el colegio.
Contexto
En referencia a la situación de negocio en la organización al principio de este proyecto se puede decir que se cuenta con una base de datos de los que ya se disponen de los alumnos que se encuentran cursando las asignaturas de matemáticas y portugués. Sin embargo no existe ningún estudio en profundidad sobre el comportamiento de los estudiantes de los que se puedan sacar conclusiones o patrones para hacer predicciones sobre futuros estudiantes.
Objetivos del negocio
Los objetivos del negocio como ya se han mencionado son la predicción de datos para los alumnos de nuevo ingreso de tal manera que se pueda hacer una estimación fiable partiendo de los datos que ya tenemos de dichos alumnos. Definimos los siguientes objetivos:
- Hacer predicciones acerca del tiempo que los alumnos emplean a la dedicación de sus estudios escolares.
- Predecir las notas medias de los alumnos del colegio.
- Ayudar a los alumnos que tengan un bajo rendimiento en sus calificaciones académicas y de esa manera elevar el porcentaje de aprobados en las asignaturas de matemáticas y portugués.
Estos informes pueden ser muy útiles para detectar la problemática que se les presenta a los alumnos de las materias de matemáticas y portugués y de esta manera intentar averiguar el porqué de sus dificultades, ya sea por falta de preparación por parte de los alumnos o de los docentes. Todo esto permitirá mejorar la calidad académica de los estudiantes.
Criterios de éxito del negocio
Desde el punto de vista del negocio se establece como criterio de éxito la posibilidad de realizar predicciones sobre las fallas académicas en los alumnos. Otro criterio en el éxito de negocio seria elevar el porcentaje de aprobados en aquellas asignaturas que tenga un bajo porcentaje de aprobados.
VALORACION DE LA SITUACION
Se cuenta con un data set con información detallada de los alumnos que se encuentran cursando las asignaturas de matemáticas y portugués. Por lo que se puede afirmar que se dispone de una cantidad de datos más que suficiente para poder resolver el problema. Esta información contiene notas de los estudiantes, colegio al que pertenecen, persona encargada del estudiante, tiempo dedicado al estudio, y otros datos que nos pueden ser útiles a la hora de hacer la minería de datos.
Inventario de recursos
En cuanto a recursos de software disponemos del programa de minería de datos RapidMiner que proporciona herramientas para realizar tareas de minería de datos sobre un conjunto de datos o data set que es con la que contamos para el almacenamiento de los datos.
Los recursos de hardware de los que disponemos son un ordenador portátil con las siguientes características:
- Marca: Hewlett Packard
- Modelo: RTL872
- Procesador: Intel © Core 5 Quad Q6600 a 2.40 GHz
- Memoria RAM: 4,00 GB
- Capacidad de almacenamiento: 1 TB
- Tarjeta gráfica: NVIDIA © GeForce 9600 GT
- Sistema operativo: Microsoft Windows 10 Professional ©
La fuente de datos es un conjunto de datos o data set con la información de los alumnos de dos escuelas secundarias en Portugal del año 2008.
Requisitos, supuestos y restricciones
Los datos pueden ser usados normalmente por que no contienen ningún tipo de identificación sobre la persona por lo que es posible evitar inconvenientes legales.
La validez de los resultados obtenidos puede ser verificada directamente consultando sobre las bases de datos.
Terminología
Glosario de Terminología de Minería de Datos
- Análisis de series de tiempo (time-series): Análisis de una secuencia de medidas hechas a intervalos específicos. El tiempo es usualmente la dimensión dominante de los datos.
- Análisis prospectivo de datos: Análisis de datos que predice futuras tendencias, comportamientos o eventos basado en datos históricos.
- Análisis exploratorio de datos: Uso de técnicas estadísticas tanto gráficas como descriptivas para aprender acerca de la estructura de un conjunto de datos.
- Análisis retrospectivo de datos: Análisis de datos que provee una visión de las tendencias, comportamientos o eventos basado en datos históricos.
- Árbol de decisión: Estructura en forma de árbol que representa un conjunto de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos.
- Clustering (agrupamiento): Proceso de dividir un conjunto de datos en grupos mutuamente excluyentes de tal manera que cada miembro de un grupo esté lo "más cercano" posible a otro, y grupos diferentes estén lo "más lejos" posible uno del otro, donde la distancia está medida con respecto a todas las variables disponibles.
- Data cleansing: Proceso de asegurar que todos los valores en un conjunto de datos sean consistentes y correctamente registrados.
- Data Mining: La extracción de información predecible escondida en grandes bases de datos.
- Data Warehouse: Sistema para el almacenamiento y distribución de cantidades masivas de datos.
- Datos anormales: Datos que resultan de errores o que representan eventos inusuales.
- Dimensión: En una base de datos relacional o plana, cada campo en un registro representa una dimensión. En una base de datos multidimensional, una dimensión es un conjunto de entidades similares; por ejemplo una base de datos multidimensional de ventas podría incluir las dimensiones Producto, Tiempo y Ciudad.
- Modelo analítico: Una estructura y proceso para analizar un conjunto de datos. Por ejemplo, un árbol de decisión es un modelo para la clasificación de un conjunto de datos.
- Modelo lineal: Un modelo analítico que asume relaciones lineales entre una variable seleccionada (dependiente) y sus predictores (variables independientes).
- Modelo no lineal: Un modelo analítico que no asume una relación lineal en los coeficientes de las variables que son estudiadas.
- Modelo predictivo: Estructura y proceso para predecir valores de variables especificadas en un conjunto de datos.
- Navegación de datos: Proceso de visualizar diferentes dimensiones, "fetas" y niveles de una base de datos multidimensional.
- Atipico: Un ítem de datos cuyo valor cae fuera de los límites que encierran a la mayoría del resto de los valores correspondientes de la muestra. Puede indicar datos anormales. Deberían ser examinados detenidamente, pueden dar importante información.
Costes y beneficios
Los datos de este proyecto no suponen ningún coste adicional ya que estos datos perteneces a un repositorio de conjunto de datos.
En cuanto a beneficios, no se puede decir que este proyecto genere algún beneficio económico directamente, pero sí que puede suponerlo indirectamente ya que el estudio puede ser aplicado a una escuela secundaria para predecir el rendimiento académico y asi mejorar en la falencias y brindar una mejor educación lo cual hará que más alumnos consideren cursar sus estudios en esa secundaria a la hora de elegir una.
...