Gestión y análisis de Big Data

Katherine MartinezEnsayo28 de Mayo de 2023

1.106 Palabras (5 Páginas)209 Visitas

Página 1 de 5

[pic 1]

[pic 2][pic 3]

Centro Universitario UAEM Atlacomulco

Informática Administrativa

Gestión y análisis de Big Data

Actividad: A13. Pandas Funciones | Investigación

M. En Adm. N. Carlos Alberto Baltazar Vilchis

María Guadalupe Miranda González

LIA D7

2023-A

Fecha: 25/03/2023

Introducción

Pandas es una biblioteca de Python de código abierto que se utiliza para el análisis de datos y la manipulación de los mismos. Esta biblioteca proporciona estructuras de datos flexibles y herramientas de análisis de datos de alto rendimiento para trabajar con datos tabulares, como hojas de cálculo o bases de datos SQL.

Algunas de las funciones que ofrecen Pandas son:

Lectura y escritura de datos en varios formatos (Excel, CSV, SQL, etc.)
Selección, filtrado y agrupación de datos
Limpieza de datos, como la eliminación de valores faltantes o duplicados
Cálculo de estadísticas descriptivas y agregados, como la media o la suma
Transformación de datos a través de operaciones de mapeo, aplicación y reducción
Manipulación de fechas y horas
Visualización de datos con gráficos y tablas.

La linea 2 crea un DataFrame con tres columnas: 'col1', 'col2' y 'col3'. La columna 'col1' contiene valores numéricos, mientras que 'col2' contiene valores de punto flotante (números decimales) y la columna 'col3' contiene valores de cadena (texto).

Para utilizar esta función, primero necesitarías importar la biblioteca Pandas con el siguiente código:

import pandas as pd

Luego, podría crear el DataFrame utilizando el código que proporciona:

df = pd.DataFrame({'col1':[1,2,3,4,5],'col2':[0.8,55,44,25,4],'col3':[ 'abc','det','gxx','wer','udf']})

Después de ejecutar este código, tendrá el DataFrame almacenado en la variable df.

[pic 4][pic 5]

Línea 3, 4: La función 'def log(x): return np.log(x)' define una función llamada 'log' que toma un argumento 'x' y calcula el logaritmo natural de 'x' utilizando la función 'np.log' de la biblioteca NumPy y devuelve el resultado.

En el segundo comando, 'log(df['col2'])', la función 'log' se está aplicando a la columna 'col2' del DataFrame 'df'. En otras palabras, se está calculando el logaritmo natural de todos los valores en la columna 'col2' y devolviendo el resultado.

[pic 6][pic 7][pic 8][pic 9][pic 10]

Línea 5: La función 'def getsupport(X,data):' define una función llamada 'getsupport' que toma dos argumentos, 'X' y 'data'. 'X' es el valor para el cual se desea calcular el soporte y 'data' es el conjunto de datos en el que se desea calcular el soporte.

En el cuerpo de la función, la variable 'N' se define como la longitud de los datos, es decir, la cantidad de elementos en el conjunto de datos. Luego, se calcula el soporte dividiendo el número de veces que 'X' aparece en 'data' por la longitud total de 'data'. La función devuelve el valor del soporte calculado.

En el segundo comando, 'getsupport(55,df['col2'])', se está aplicando la función 'getsupport' al valor y la columna 'col2' del DataFrame 'df'. En otras palabras, se está calculando el soporte del valor en la columna 'col2' del DataFrame 'df'. El resultado será un número entre 0 y 1 que representa la fracción de elementos en la columna 'col2' que son iguales.

La línea 7: es una operación que aplica la función logarítmica a cada valor de la columna "col2" de un DataFrame llamado "df". La función logarítmica se utiliza habitualmente para calcular el logaritmo natural de un valor, lo que puede ser útil en una variedad de análisis de datos.

...

Descargar como (para miembros actualizados) txt (7 Kb) pdf (730 Kb) docx (664 Kb)

Leer 4 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com