Fundamentos de minería de datos: normalización, partición de datos, discretización y transformación de variables nominales a numéricas

j_yanineApuntes19 de Noviembre de 2018

1.090 Palabras (5 Páginas)169 Visitas

Página 1 de 5

Cajas	Características y Especificaciones
Normalize	Method Range Transformation: Min 0.0 y Max 1.0. Convierte la base de datos a valores entre 0 y 1. Se utiliza para escalar los valores para que se ajusten a un rango específico. Ajustar el rango de valores es muy importante cuando se trata de atributos de diferentes unidades y escalas.
Split Data	Separa los datos en 70% y 30%. El 70% es entrenamiento y el 30% es la prueba, pudiendo ser esta aleatoria, estratificada o lineal. -Particions, eart: 0.7 ; 0.3; Sampling Type: Stratified Sampling.
Neural Net	Datos numéricos con la misma magnitud. -Training Cycles: 1000, las veces que quiero que pase. -Learning Rate: 0.2. -Momentum: 0.9. -Hidden Layers: Número de nodos, se escribe “primera capa” y “segunda capa”, en esta etapa se debe iterar. Este operador crea un modelo a partir de una retroalimentación de los datos de entrada. El usuario puede definir la estructura de la red neuronal de con la lista de parámetros “hidden_layers”. Cada entrada de la lista describe una nueva capa oculta. La clave de entrada debe corresponde con el nombre de la capa. El valor de cada entrada debe ser el número que define el tamaño de la capa oculta. Si el usuario no especifica ninguna de las capas ocultas, se crea una capa oculta por defecto con el tipo y tamaño y es agregada a la red.
Perfomance	Indica el desempeño predictivo del modelo. Clasificación, entrega matriz de confusión. Compara uno a uno. Esto arroja los indicadores de Accuracy y Precission Recall.
Multiply	Multiplica la base de datos despúes de ser separada por el Split Data para ser entrenada por los distintos modelos.
Discretize	By Binning: Datos Cuantitativos (numéricos). Discretiza (separa) los atributos numéricos en el número de contenedores especificados por el usuario (bins: 3) By Size: Este operador crea bandejas de tal manera que cada una tenga un tamaño especificado por el usuario. By User Specification: Este operador discretiza los atributos numéricos seleccionados en clases especificadas por el usuario.
Nominal	To Numerical: Convierte atributos de tipo no numéricos a un tipo numérico. -Atribute Filter Type: Single -Atribute: XXX -Goling Type: Unique Interges
CHAID	Datos Categóricos. Funciona exactamente igual que el operador del árbol de decisión con una excepción: utiliza un criterio basado en chi-cuadrado en lugar del criterio de ganancia de información o relación de ganancia. Además, este operador no se puede aplicar en BD con atributos numéricos.
K-NN	Datos Numéricos. Este algoritmo reúne a los K vecinos más cercanos y los hace votar, la clase con más vecinos gana, mientras más vecinos consideramos menor es la tasa de error.
SVM	Datos Numéricos. Utiliza planos complejos para encontrar la mejor división de las instancias que permita clasificarlas de manera óptima.
Weight by Chi Squared Stadistic	Jerarquiza los datos. Calcula el peso de los atributos con respecto al atributo de clase mediante el uso de la estadística de Chi Cuadrado. Cuanto mayor sea el peso de un atributo, más relevante se considera.
Impute Missing Values	Este operador estima valores para los valores faltantes de los atributos seleccionados aplicando un modelo aprendido para valores faltantes. Este es un operador anidado, es decir, tiene un subproceso. Este subproceso siempre debe aceptar una BD y devolver un modelo. El operador de valores perdidos imputados estima valores para valores perdidos al aprender modelos para cada atributo (excepto la etiqueta) y aplicar esos modelos al conjunto de ejemplo.
Select By Weights	Selecciona solo los atributos de un conjunto de ejemplo de entrada cuyos pesos satisfacen el criterio especificado con respecto a los pesos de entrada. Los pesos de entrada se proporcionan a través del puerto de entrada de pesos. El criterio para la selección de atributos por pesos se especifica mediante el parámetro de relación de peso.
Tree ID3	Utilizamos 70%
Apply Model	Utilizamos 30%, aplica el modelo del nuevo conjunto de datos.
Apply Threshold	Aplicar el valor umbral.
Find Threshold	Valor de umbral óptimo de clasificación.

...

Descargar como (para miembros actualizados) txt (6 Kb) pdf (92 Kb) docx (22 Kb)

Leer 4 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com