Capítulo 1. ¿Qué queremos decir con datos impulsados?
Enviado por jbarrerabaeza • 17 de Julio de 2017 • Apuntes • 4.907 Palabras (20 Páginas) • 196 Visitas
Capítulo 1. ¿Qué queremos decir con datos impulsados?
Sin datos, sólo eres otra persona con una opinión. William Edwards Deming
Data-impulsividad es la construcción de herramientas, habilidades, y, lo más importante, una cultura que actúa sobre los datos. Este capítulo esboza lo que diferencia a las organizaciones basadas en datos. Comienzo con algunos requisitos previos iniciales sobre la recopilación de datos y el acceso. A continuación, el contraste de informes y alertas versus análisis en algunos detalles, porque es una distinción tan importante. Hay muchos tipos diferentes de análisis prospectivo, que varían en grados de sofisticación. Por lo tanto, paso un tiempo repasando esos tipos, describiéndolos en términos de "niveles de análisis" y "madurez analítica", en particular, discutiendo las características de una organización analíticamente madura. ¿Cómo es eso?
Comencemos en el camino para responder a nuestra primera pregunta: ¿qué significa que una organización sea impulsada por datos?
Recopilación de datos
Vamos a tener un par de prerrequisitos obvios fuera del camino.
Prerrequisito # 1: Una organización debe estar recopilando datos. Indudablemente, los datos son un ingrediente clave. Por supuesto, no puede ser cualquier dato; tiene que ser los datos correctos. El conjunto de datos tiene que ser relevante para la pregunta actual. También tiene que ser oportuna, precisa, limpia, sin prejuicios; Y quizás lo más importante, tiene que ser digno de confianza.
Esta es una tarea difícil. Los datos son siempre más sucios de lo que imaginas. Puede haber sutiles prejuicios ocultos que pueden influir en sus conclusiones, y la limpieza y el masaje de datos puede ser una operación dura, lenta y costosa. A menudo escucho que los científicos de datos pasan el 80% de su tiempo la obtención, la limpieza y preparación de datos, y sólo el 20% de sus modelos de edificios tiempo, el análisis, visualizar y extraer conclusiones de los datos (por ejemplo, http: // bit. ly / NYT-conserje y http://bit.ly/im-data-sci). En mi experiencia, esto es totalmente plausible. En el próximo capítulo, voy a cubrir aspectos de la calidad de los datos con mucho más detalle.
Incluso si usted tiene los datos de calidad, e incluso si usted tiene una gran cantidad de datos de calidad, no harán más que hasta ahora, y; A pesar del bombo que puede escuchar, no te hace datadriven. Algunas personas, especialmente ciertos grandes proveedores de datos y proveedores de servicios, pimp grandes datos como una panacea: si se recogen todo, en algún lugar hay diamantes (o nuggets o agujas de oro o una de muchas otras metáforas) que hará que cualquier empresa con éxito. La dura verdad es que los datos por sí solos no son suficientes. Una pequeña cantidad de datos limpios y confiables puede ser mucho más valiosa que petabytes de basura.
Acceso a los datos
Requisito previo # 2: Los datos deben ser accesibles y consultable.
Tener datos precisos, oportunos y relevantes, sin embargo, no es suficiente para contar como datadriven Debe ser también:
Unible
Los datos deben estar en una forma que se puede unir a otros datos empresariales cuando sea necesario. Hay muchas opciones, como bases de datos relacionales, almacenes NoSQL o Hadoop. Utilice la herramienta adecuada para el trabajo. Por ejemplo, durante mucho tiempo, los analistas financieros de Warby Parker utilizaban Excel para calcular las métricas clave comunicadas a la alta dirección. Ellos absorbieron enormes cantidades de datos en bruto de diferentes fuentes y ejecutaron VLOOKUPS (una función de Excel para encontrar referencias cruzadas en los datos) para unirse a todos los datos para obtener una mirada de nivel superior a los números. Esto funcionó bien inicialmente, pero como las ventas de la compañía y la base de clientes se estaban escalando rápidamente, los datos se volvieron más y más grandes, el archivo de Excel se aproximó a 300 MB, sus computadoras maximizaron su RAM y los VLOOKUPS tardarían 10 horas o más, , Y tuvo que ser reiniciado. Habían estirado la herramienta y se habían acercado lo más posible. Excel había sido una herramienta apropiada, pero el crecimiento de la empresa cambió eso. La mecánica de conseguir esos números se convirtió en una enorme pérdida de tiempo para los analistas y una fuente de estrés en cuanto a si obtendrían sus números o tendrían que esperar otras 10 horas para volver a ejecutar esos VLOOKUPS. Los convirtió de analistas en ingenieros de datos de Microsoft. Mi equipo ayudó a llevar todo ese conjunto de datos a una base de datos relacional de MySQL. Escribimos consultas para analizar los números, permitiéndoles concentrarse en el análisis, las tendencias y la presentación de esos datos, un uso mucho mejor de su tiempo. Ahora que tienen mejores herramientas y más tiempo, están produciendo análisis más profundos y ricos.
Compartible
Tiene que haber una cultura de intercambio de datos dentro de la organización para que los datos se pueden unir, como la combinación de pulsaciones de los clientes con su historial de transacciones. Imagine un paciente ingresado en un hospital ER, recibiendo tratamiento y luego siendo puesto en libertad con el requisito de asistir a una clínica ambulatoria para tratamiento adicional y chequeos. El paciente va a recibir peor atención al cliente y más importante aún peor si el cuidado de hospital y clínica de los datos de cuota de don t '- cuándo, dónde y por qué se admitió, ¿qué temas no pudo actualidad, el tratamiento que recibió él, etc. De los proveedores de salud perspectiva, sus analistas se va a resultar difícil o imposible para analizar y mejorar el proceso y la atención si no tengo una imagen coherente y precisa de los datos longitudinales completas de esos pacientes el flujo de pacientes, los procesos de diagnóstico, y. Por lo tanto, los datos agrupados siempre van a inhibir el alcance de lo que se puede lograr. Cuando más datos están disponibles para más partes de un sistema, el conjunto es mayor que la suma de las partes.
...