De la Imaginación a la Realidad: Generando Dataset mediante Python.

0



Resumen

Saludos, estudiantes de ingeniería informática.  En este post, veremos cómo generar un dataset mediante Python.  Comenzaremos con una definición de dataset, luego cubriremos los procesos de importación de datos, creación de dataset desde cero y manipulación y limpieza de datos.

Definición de Datase

Un dataset es un conjunto de datos estructurados que se utilizan para el análisis de datos. Los datasets pueden contener una variedad de datos, como números, texto, imágenes y audio.



Creación de un Dataset

Desatando el Poder de Python

Crear un dataset desde cero es como ser un arquitecto de datos. Python, con su sintaxis clara y versátil, te permite esculpir tu dataset con precisión y elegancia.


Genera código Python con un ejemplo Práctico: Importación de Datos 

Copia y ejecuta el siguiente código en https://colab.research.google.com/

El archivo tu_dataset.csv, puedes descargarlo aquí, debes anexar a tu código, caso contrario, te saldrá un error al momento de ejecutar el código.

# Importa la biblioteca pandas

import pandas as pd

# Carga un conjunto de datos existente (por ejemplo, en formato CSV)
df = pd.read_csv('tu_dataset.csv')

# Visualiza las primeras filas del dataset
print(df.head())

En este ejemplo, hemos utilizado la biblioteca Pandas para importar un dataset existente. ¡Simple y efectivo!

Genera código Python con un ejemplo Creación de un Dataset desde Cero

Copia y ejecuta el siguiente código en https://colab.research.google.com/

# Crear un dataset desde cero utilizando pandas
nombres = ['Juan', 'María', 'Carlos']
edades = [25, 30, 22]
ciudades = ['México', 'Madrid', 'Buenos Aires']

# Crear un diccionario con los datos
datos = {'Nombre': nombres, 'Edad': edades, 'Ciudad': ciudades}

# Convertir el diccionario en un DataFrame de pandas
df_nuevo = pd.DataFrame(datos)

# Visualizar el nuevo dataset
print(df_nuevo)

Si realizaste el trabajo de manera adecuada, deberá mostrarte el siguiente resultado:

Aquí hemos creado un pequeño dataset con información sobre personas. Python nos permite ser creativos y estructurar datos de acuerdo con nuestras necesidades.

Descripción del Proceso de Manipulación y Limpieza de Datos

Esculpiendo el Mármol de los Datos

Una vez que tenemos nuestro dataset, la manipulación y limpieza son pasos cruciales. Python nos ofrece herramientas poderosas para dar forma y pulir nuestros datos.

Manipulación de Datos con Python

# Filtrar solo las personas mayores de 25 años
df_mayores = df_nuevo[df_nuevo['Edad'] > 25]

# Ordenar el dataset por edad de forma descendente
df_ordenado = df_nuevo.sort_values(by='Edad', ascending=False)

# Agregar una nueva columna con la longitud de los nombres
df_nuevo['Longitud de Nombre'] = df_nuevo['Nombre'].apply(len)

Limpieza de Datos con Python
# Verificar y eliminar filas duplicadas
df_nuevo = df_nuevo.drop_duplicates()

# Llenar valores faltantes con la media de la edad
df_nuevo['Edad'].fillna(df_nuevo['Edad'].mean(), inplace=True)

# Eliminar filas con valores nulos
df_nuevo = df_nuevo.dropna()

En estos ejemplos, hemos filtrado, ordenado y agregado columnas, demostrando cómo Python puede ser usado para manipular datos de manera eficiente.

Conclusión: Python, tu Herramienta de Creación de Datos

Python se erige como una herramienta esencial en el arsenal de un ingeniero informático. Con su capacidad para crear, manipular y limpiar datasets, te equipa para explorar los vastos territorios de datos con confianza. ¡Sigue explorando, aprendiendo y dando vida a tus ideas con Python!

Sin comentarios