Gestión y análisis de Big Data
Enviado por Katherine Martinez • 28 de Mayo de 2023 • Ensayo • 1.106 Palabras (5 Páginas) • 151 Visitas
[pic 1]
[pic 2][pic 3]
Centro Universitario UAEM Atlacomulco
Informática Administrativa
Gestión y análisis de Big Data
Actividad: A13. Pandas Funciones | Investigación
M. En Adm. N. Carlos Alberto Baltazar Vilchis
María Guadalupe Miranda González
LIA D7
2023-A
Fecha: 25/03/2023
Introducción
Pandas es una biblioteca de Python de código abierto que se utiliza para el análisis de datos y la manipulación de los mismos. Esta biblioteca proporciona estructuras de datos flexibles y herramientas de análisis de datos de alto rendimiento para trabajar con datos tabulares, como hojas de cálculo o bases de datos SQL.
Algunas de las funciones que ofrecen Pandas son:
- Lectura y escritura de datos en varios formatos (Excel, CSV, SQL, etc.)
- Selección, filtrado y agrupación de datos
- Limpieza de datos, como la eliminación de valores faltantes o duplicados
- Cálculo de estadísticas descriptivas y agregados, como la media o la suma
- Transformación de datos a través de operaciones de mapeo, aplicación y reducción
- Manipulación de fechas y horas
- Visualización de datos con gráficos y tablas.
La linea 2 crea un DataFrame con tres columnas: 'col1', 'col2' y 'col3'. La columna 'col1' contiene valores numéricos, mientras que 'col2' contiene valores de punto flotante (números decimales) y la columna 'col3' contiene valores de cadena (texto).
Para utilizar esta función, primero necesitarías importar la biblioteca Pandas con el siguiente código:
import pandas as pd
Luego, podría crear el DataFrame utilizando el código que proporciona:
df = pd.DataFrame({'col1':[1,2,3,4,5],'col2':[0.8,55,44,25,4],'col3':[ 'abc','det','gxx','wer','udf']})
Después de ejecutar este código, tendrá el DataFrame almacenado en la variable df.
[pic 4][pic 5]
Línea 3, 4: La función 'def log(x): return np.log(x)' define una función llamada 'log' que toma un argumento 'x' y calcula el logaritmo natural de 'x' utilizando la función 'np.log' de la biblioteca NumPy y devuelve el resultado.
En el segundo comando, 'log(df['col2'])', la función 'log' se está aplicando a la columna 'col2' del DataFrame 'df'. En otras palabras, se está calculando el logaritmo natural de todos los valores en la columna 'col2' y devolviendo el resultado.
[pic 6][pic 7][pic 8][pic 9][pic 10]
Línea 5: La función 'def getsupport(X,data):' define una función llamada 'getsupport' que toma dos argumentos, 'X' y 'data'. 'X' es el valor para el cual se desea calcular el soporte y 'data' es el conjunto de datos en el que se desea calcular el soporte.
En el cuerpo de la función, la variable 'N' se define como la longitud de los datos, es decir, la cantidad de elementos en el conjunto de datos. Luego, se calcula el soporte dividiendo el número de veces que 'X' aparece en 'data' por la longitud total de 'data'. La función devuelve el valor del soporte calculado.
En el segundo comando, 'getsupport(55,df['col2'])', se está aplicando la función 'getsupport' al valor y la columna 'col2' del DataFrame 'df'. En otras palabras, se está calculando el soporte del valor en la columna 'col2' del DataFrame 'df'. El resultado será un número entre 0 y 1 que representa la fracción de elementos en la columna 'col2' que son iguales.
La línea 7: es una operación que aplica la función logarítmica a cada valor de la columna "col2" de un DataFrame llamado "df". La función logarítmica se utiliza habitualmente para calcular el logaritmo natural de un valor, lo que puede ser útil en una variedad de análisis de datos.
...