ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Analisis Exploratorio Datos


Enviado por   •  25 de Abril de 2021  •  Apuntes  •  8.637 Palabras (35 Páginas)  •  70 Visitas

Página 1 de 35

1  Introducción

1.1  Los primeros pasos para el analisis son

Obtencion de los datos: ficheros locales, consultas bbdd, repositorios web

Cargar los datos: Los datos pueden ser de diferentes formatos: csv, xls, html,JSON, xml, etc

Analisis exploratorio: Es un enfoque sistematico de analisis preliminar de datos. Este metodo esta basado en tecnicas graficas y descriptivas cuyo objetivo es ganar intuicion sobre los datos.

Detectar valores ouliers.

Extraer variables importantes

Evaluar la existencia de datos ausentes(alerta)

Limpiar los datos:

Eliminar columnas vacias

Unificar

Inputar, etc

target encoding: le brindan un peso por categoria

2  Tipos de variables¶

Cuantitativas: naturales numericas

Cualitaticas: Propiedades no cuantificables

Ordinales: sector social, grado de escolaridad

Nominales:

3  ¿ que debemos construir?

Los metodos EDA se pueden clasificar:

* Expresiones numericas: coeficientes, frecuencias etc

* Graficos informativos: Histogramas, barras, mapas de claro, barras apiladas, etc

4  Analisis Univariante: Tecnicas graficas y numericas

4.1  Variables cuantitativas:

4.1.1  Tecnicas numericas:

Medida de Tendencia de central:

Media:

  * indica un promedio de un conjunto de datos

  * Se ve afectado por valores atipicos

  * Para que sirve?:

      * Empleado para inputar los datos(missing values)

      * Empleado para reemplazar por los valores outliers

  podemos reemplazar los valores atipicos, por la media con Loc

  si la dispersion es muy grande se emplea la mediana

Mediana:

  * Es el valor central de la muestra, una vez ordenada

Moda:

  * Es el valor que mas se repite dentro de la muestra

La medida de dispersion:

  * Rango: rango=max(x)-min(x)

  * Variancia y desviación tipica

      * La varianza esta en unidad cuadratica, con respecto a la medioa

      * La desviacion standar es la raiz cuadrada de la varianza y se encuentra en las mismas unidades que la media

      * Los outliers: o valores atipicos pueden tener un efecto excesivo en la varianza o desviacion estandar

Coeficiente de variacion:

  * Es el cociente entre la desviacion tipica y la mediana. Empleado para comparar el grado de variabilidad de los

    datos de muestras diferentes

Rango intercuartil:

  * Rango intercuartil: Percentil 75 - Percentil 25

  * Limite superior= P75+1.5(Rintercuartil)

  * Limite inferior= P25-1.5(Rintercuartil)

  *Para eliminar los valores outliers son los que son menores al limite inf y los mayores al limite sup

Medidas de Formas:

Asimetria: Coeficiente de Fisher

Histogramas simetricos

Histogramas Asimetricos:

Cola Derecha( Asimetria positiva)

Cola Izquierda(Asimetria negativa)

Kurtosis:

Grado

5  Tecnicas graficas

Histograma

Boxplot

Diagrama de Lineas(series temporales)

5.1  Variables cualitativas:

El tratamiento de las variables cualitativas es diferente de las cuantitativas, ya que no podemos operar de manera algebraica.

5.1.1  Tratamiento de variables cualitativas:

Tablas de frecuencia

5.2  Discrtizacion

Las variables cuantitativas se pueden transformar en variables cualitativas mediante un proceso de discretizacion

5.3  Tecnicas graficas:

*

En base a los tipos de variables: Tecnicas

6  CASO DE ANALISIS

6.1  Primer paso importar las librerias

In [1]:

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

%matplotlib inline

6.2  Lectura de datos

In [44]:

#minuscula

#separacion por "_"

housing_price=pd.read_csv("housing_price.csv",sep=',')

housing_price.head()

Out[44]:

Id    MSSubClass    MSZoning    LotFrontage    LotArea    Street    Alley    LotShape    LandContour    Utilities    ...    PoolArea    PoolQC    Fence    MiscFeature    MiscVal    MoSold    YrSold    SaleType    SaleCondition    SalePrice

0    1    60    RL    65.0    8450    Pave    NaN    Reg    Lvl    AllPub    ...    0    NaN    NaN    NaN    0    2    2008    WD    Normal    208500

1    2    20    RL    80.0    9600    Pave    NaN    Reg    Lvl    AllPub    ...    0    NaN    NaN    NaN    0    5    2007    WD    Normal    181500

2    3    60    RL    68.0    11250    Pave    NaN    IR1    Lvl    AllPub    ...    0    NaN    NaN    NaN    0    9    2008    WD    Normal    223500

3    4    70    RL    60.0    9550    Pave    NaN    IR1    Lvl    AllPub    ...    0    NaN    NaN    NaN    0    2    2006    WD    Abnorml    140000

4    5    60    RL    84.0    14260    Pave    NaN    IR1    Lvl    AllPub    ...    0    NaN    NaN    NaN    0    12    2008    WD    Normal    250000

5 rows × 81 columns

In [45]:

#Revision de la cantidad de registros y columnas

housing_price.shape

Out[45]:

(1460, 81)

In [46]:

#Revisar si los rgistros se cargaron de manera correcta

housing_price.head()

housing_price.tail()

Out[46]:

Id    MSSubClass    MSZoning    LotFrontage    LotArea    Street    Alley    LotShape    LandContour    Utilities    ...    PoolArea    PoolQC    Fence    MiscFeature    MiscVal    MoSold    YrSold    SaleType    SaleCondition    SalePrice

1455    1456    60    RL    62.0    7917    Pave    NaN    Reg    Lvl    AllPub    ...    0    NaN    NaN    NaN    0    8    2007    WD    Normal    175000

...

Descargar como (para miembros actualizados)  txt (34 Kb)   pdf (95 Kb)   docx (20.2 Kb)  
Leer 34 páginas más »
Disponible sólo en Clubensayos.com