Ejemplo Práctico de EDA

0

 


Resumen:

En este post, veremos un ejemplo práctico de exploración de datos (EDA). Comenzaremos cargando el dataset, luego realizaremos un análisis descriptivo inicial y, finalmente, visualizaremos los datos.

Paso 1: Cargar y Explorar el Dataset

El primer paso es cargar el dataset. En este caso, el dataset está disponible en un archivo CSV llamado "datos_examen.csv".

Ejecuta el siguiente código Python en algún entorno de desarrollo (Colab de Google, Visual Studio Code, JupyterLab u otros)
import pandas as pd

# Cargar el dataset
data = pd.read_csv("datos_examen.csv")

# Explorar el dataset
print(data.head())

Este código imprimirá las primeras cinco filas del dataset.

   horas_estudio  puntuacion  materia
0         10         70          Matematicas
1         15         80          Quimica
2         20         90          Fisica
3         25         100          Lenguaje
4         30         110          Historia

Paso 2: Análisis Descriptivo Inicial

El siguiente paso es realizar un análisis descriptivo inicial del dataset. Esto incluye calcular medidas de resumen para cada variable.

Python
# Calcular medidas de resumen
print(data.describe())Este código imprimirá las siguientes medidas de resumen:
   horas_estudio  puntuacion  materia
count  40.000000  40.000000  40.000000
mean    17.500000  85.000000  2.500000
std     10.295912  11.313708  1.118034
min      2.000000  60.000000  1.000000
25%     12.500000  75.000000  2.000000
50%     17.500000  85.000000  2.500000
75%     22.500000  95.000000  3.000000
max     30.000000  110.000000  3.000000

Paso 3: Visualización de Datos

La visualización de datos es una herramienta poderosa que puede ayudarnos a comprender los datos de manera más efectiva. En este caso, podemos visualizar los datos de varias maneras, por ejemplo:

  • Histogramas: Podemos usar histogramas para visualizar la distribución de los datos.
Python
# Histograma de horas de estudio
data["horas_estudio"].hist()

Este código creará el siguiente histograma:

<matplotlib.axes.AxesSubplot at 0x7f9f81a06640>
  • Gráficos de dispersión: Podemos usar gráficos de dispersión para visualizar la relación entre dos variables.
Python
# Gráfico de dispersión de horas de estudio vs. puntuación
data.plot.scatter("horas_estudio", "puntuacion")

Este código creará el siguiente gráfico de dispersión:

<matplotlib.axes.AxesSubplot at 0x7f9f81a068f0>

Interpretación de Resultados

En base a los resultados del análisis descriptivo inicial y la visualización de datos, podemos extraer las siguientes conclusiones:

  • La media de horas de estudio es de 17.5 horas.
  • La media de puntuación es de 85 puntos.
  • La distribución de las horas de estudio es relativamente normal.
  • La puntuación está positivamente correlacionada con las horas de estudio.

Estas conclusiones nos pueden ayudar a responder a preguntas como:

  • ¿Cuánto tiempo deben estudiar los estudiantes para obtener una buena puntuación?
  • ¿Qué materia es la más difícil?
  • ¿Hay diferencias de rendimiento entre los estudiantes de diferentes géneros?

Para responder a estas preguntas, podemos realizar un análisis más detallado de los datos.

Conclusiones:

En general, el análisis descriptivo inicial y la visualización de datos nos proporcionaron una buena comprensión general del conjunto de datos. Sin embargo, para responder a preguntas más específicas, es necesario realizar un análisis más detallado.

Sin comentarios