Estudio Comparativo de Técnicas de Clasificación de Minería de Datos en la Detección de Consumos Anómalos de Energía Eléctrica
Enviado por Anderson Montenegro • 23 de Mayo de 2020 • Tesis • 1.954 Palabras (8 Páginas) • 209 Visitas
Estudio comparativo de técnicas de clasificación de minería de datos en la detección de consumos anómalos de energía eléctrica
Vásquez-Villalobos Henry J, Tuesta-Monteza Victor
*Universidad Señor de Sipán, Escuela Profesional de Ingeniería de Sistemas
Lambayeque, Perú
vvillaloboshenr@crece.uss.edu.pe, vtuesta@crece.uss.edu.pe
Abstract
En el presente trabajo de investigación se realizó un estudio comparativo técnicas de clasificación de minería de datos, la cual sirvió para la detección de consumos anómalos de energía eléctrica, se tuvo como objetivo analizar los perfiles de los consumos de energía eléctrica y además haciendo uso de técnicas de clasificación de minería de datos como aprendizajes supervisados o redes neuronales;
Lo primero que se realizo fue analizar la estructura del negocio y la estructura a nivel de Base de datos,
Luego de realizar el análisis estructural, se procedió al diseño de la estrategia para generar conocimiento sobre los datos, esta estrategia se basa en una serie de procesos ETL
Se procedió primero a la identificación y selección de las técnicas de clasificación de minería de datos más usada; para finalmente diseñar un modelo de minería de datos que sirviera para la aplicación de las técnicas de clasificación de minería de datos con el fin de lograr el estudio comparativo.
En cuanto a la data usada, se ha tomado la base de datos ya validada de la unidad de control de pérdidas de Ensa, el cual servirá para el entrenamiento de la técnica de clasificación.
Keywords: data mining, algorithms, ETL, dimensional model, predictive analysis
1 Introduction
El aumento de pérdidas por fraude sea contable o de energía eléctrica cometido por clientes puede llegar a un aumento de pérdidas millonarias para una empresa
Demostró que las compañías de electricidad se han enfrentado a pérdidas de energía eléctrica, estas son equivalentes a la diferencia entre la energía comprada y la energía vendida y puede ser clasificadas en pérdidas técnicas y no técnicas, la cual manifiesta en su reporte que esto ha incrementado con respecto a los años anteriores, pasando de un 12.5% en el año 2010 a 14.9% en el 2015 en pérdidas de energía eléctrica. [1]
En la actualidad muchas entidades financieras a nivel mundial como el BBVA usan técnicas de minería de datos para reconocer patrones de comportamiento con respecto a transacciones fraudulentas. [2]
De acuerdo con el fraude eléctrico, afirmaron que las centrales eléctricas pierden constantemente grandes cantidades de dinero al año, debido al fraude por parte de los consumidores de energía eléctrica. El fraude eléctrico como el uso deshonesto o ilegal de equipo o servicio de energía eléctrica con la intención de evitar la carga de facturación; ante este problema ellos presentaron un enfoque hibrido hacia la perdida no técnica-NTL para las empresas eléctricas utilizando algoritmos genéticos (GA) y Máquina de soporte vectorial(SVM) basado en el comportamiento de consumo anormal. [3]
La importancia del análisis de grandes cantidades de datos para la extracción de patrones y el descubrimiento de conocimiento como lo hace la minería de datos hoy en día ya es un tema que debe abordarse en todas las áreas de una empresa y no solo en las más comunes como suele verse, puesto que ambos beneficios que ofrece la MD no se rigen a un solo contexto y puede verse aplicado en distintas realidades y áreas. [4]
En los últimos años la transferencia de datos por internet cada vez es más seguro, pero al mismo tiempo el riesgo también aumenta en la transferencia segura de datos. Uno de los problemas importantes que ellos identificaron se encuentra en la detección de fraude de tarjetas de crédito puesto que gran parte de las transacciones fraudulentas son etiquetados como legítimas; por lo tanto, esto puede retrasar la detección de transacciones fraudulentas. Debido a la gran cantidad de datos y la necesidad de poder etiquetar una transacción legitima de una fraudulenta es que se realizó esta investigación utilizando cinco técnicas de clasificación de minería de datos usados con mayor frecuencia para la detección fraudulenta como Red neuronal, Árbol de decisión, Redes Bayesianas, KNN y SVM.[5]
2 Antecedentes
Las investigaciones referentes a las técnicas de clasificación de minería de datos y la detección de consumos anómalos de energía eléctrica han tomado gran importancia hoy en día.
La investigación analizada explica que el fraude es tan viejo como la humanidad misma y puede tomar variedad de formas ilimitadas, en los últimos años el desarrollo de nuevas tecnologías ha proporcionado maneras más sencillas de cometer fraude, formas como lavado de activos, fraude en telecomunicaciones móviles, detección de intrusos en redes, fraude en tarjetas de crédito y fraudes en los consumos de energía. Propuso las principales técnicas de minería de datos utilizadas para la detección de fraude. Y como segundo punto la construcción de perfiles de usuarios con el fin de tener un análisis efectivo de detección de fraude, el cual dicho procedimiento los separa en 4 pasos: Limpieza de datos, Selección y Extracción, Modelamiento, Monitoreo y predicción de fraude. Llegó a la conclusión que para poder tener una taza de éxito aún mayor en la detección de fraude se debe contar con la participación de expertos en la formulación de reglas puesto que estos están en constante monitoreo
de posibles comportamientos de fraude; además también se debe tener en cuenta que los modelos que proveen las técnicas de minería de datos deben ser re-entrenados con cierta frecuencia con el fin de actualizar los nuevos modelos con los nuevos datos, esto para garantizar un mejor desempeño y mejorar el % de predicción. [6] [pic 1][pic 2][pic 3]
Esta investigación referente a Minería de datos fue para la detección de los potenciales clientes que cometen fraude eléctrico; sabiendo que este es un problema que no solo aqueja a una empresa sino además es de manera global en todas las centrales eléctricas, propusieron e implementaron un framework que les apoyara para detectar, prevenir y reducir el fraude. Los resultaos finales que se obtuvieron de las implementaciones que se hicieron a la metodología para la predicción fue con una taza de éxito de un 62%. [7]
...