INTELIGENCIA DE NEGOCIOS
Enviado por josefinaesp • 1 de Abril de 2015 • 1.367 Palabras (6 Páginas) • 198 Visitas
Resumen Certamen TIN:
¿Qué es inteligencia de negocios?
Es un conjunto de teorías, tecnologías que transforman datos en información significativa y útil para los propósitos de análisis de negocios.
Puedes manejar una gran cantidad de datos no estructurados para ayudar a identificar, desarrolla y crear nuevas oportunidades de negocios estratégicos.
Da una ventaja competitiva y estabilidad a largo plazo.
OLAP: procesamiento Analítico en línea, agiliza la consulta en línea por medio de estructuras multidimensionales que contienen resumen de grandes cantidades de datos.
REPORTING: Sistema que permite recopilar, almacenar, acceder y analizar los datos corporativos para la toma de decisiones.
DASHBOARD: Herramienta de visualización de datos que muestra el estado actual de métricas e indicadores claves de rendimiento (KPI)
DATA MINING: Exploración y análisis, por medios automáticos y semiautomáticos, de grandes cantidades de datos para descubrir patrones significativos y poder hacer ciertas predicciones.
KDD: Knowledge Discovery in Databases es el proceso no trivial de descubrimiento conocimiento e información potencial, extrae información de calidad que se usa para sacar conclusiones basadas relaciones o modelos entre los datos.
KDD se divide en 5 fases:
1. Selección : se determina las fuentes de datos y tipo de información a utilizar
2. Preprocesado: Limpieza y preparación de los datos extraídos en una forma manejable.
3. Transformación: Transforma y genera nuevas variables a partir de las ya existentes para crear una estructura de datos apropiadas.
4. Data Mining : Modelamiento donde se aplican métodos inteligentes para poder sacar un patrón.
5. Identificación : Se identifican los patrones obtenidos y se realiza una evaluación de estos datos.
MACHINE LEARNING: campos de estudio que le da a los PC’s la capacidad de aprender sin ser programadas de forma explícita.
PLANTIAMIENTO DE PROBLEMA DE APRENDIZAJE: un programa aprende una experiencia E con respecto a una tarea T y alguna medida de rendimiento P, si su desempeño en T, medido por P, mejora su experiencia E.
APRENDIZAJE SUPERVISADO:
Aprendizajes supervisado → Respuesta correcta están dadas.
Regresión → Predice outputs valores continuos
En el aprendizaje supervisado se usa para clasificación y predicción. Para eso hay que saber el output de interés.
En la regresión la variable Y ( que es la variable de salida) es conocida y X es la variable que es predictor . Una regresión lineal puede ser usada ahora para predecir los nuevos valores de Y para nuevos valores de X cuando nos sabemos los valores de Y.
APRENDIZAJE NO SUPERVISADO
No tiene variables de salida Y. hace agrupaciones.
El aprend. NO supervisado son usados donde no hay variables de salida para predecir o clasificar, por lo tanto, no hay “aprendizaje” para los casos donde la variable es conocida.
Reglas de asociación, métodos de reducción de dimensión y técnicas de agrupamiento son todos aprendizajes no supervisados.
MY SQL : Lenguaje estándar para acceder a la base de datos, puede crear base da datos y tablas, puedes insertar, actualizar y borrar registros.
Ejemplo:
PREPROCESAMIENTO Y LIMPIEZA DE DATOS:
TIPOS DE VARIABLES: Muchas veces se deben transformar las variables para poder usar los algoritmos de aprendizaje por lo general existen 2 tipos:
Numéricas: Continuas R, y binarias (0,1)
Texto: Categorías desordenadas (benigno, maligno) y ordinales (small, médium, large)
OUTLIERS : Son valores que se encuentran lejos de la mayor parte de los datos, pueden ser errores de captura, si está sobre 3 desviaciones estándar de la media se denomina outliers.
DATOS FALTANTES: Si el número de registros es pequeño se puede eliminar, pueden ser reemplazados por la media de los variable siempre que sean pocos.
GRÁFICOS DE BARRA Y DE LÍNEA: permiten entender la estructura de datos, identificar outliers y definir patrones. BARRA → estadísticos LÍNEA → series de tiempo
GRÁFICOS DE DISPERCIÓN (SCATTERPLOT): relación entre variable predictor (X) y variable a predecir (Y) , en el aprendizaje no supervisado se usa para ver la asociación entre dos variables.
HISTOGRAMA: Grafica la distribución de variables numéricas, evidencia homogeneidad y comportamientos.
BOXPLOT (CAJÓN CON BIGOTES): Gráfica datos numéricos a través de sus cuartiles , útiles para ver grado de dispersión , asimetría en los datos e identificar outliers.
HEATMAPS: se ve la correlación entre las variables y visualizar valores faltantes en los datos.
PCA (Principal Component Analysis): sirve para comprimir set de datos,
...