Apuntes RapidMiner
Enviado por j_yanine • 19 de Noviembre de 2018 • Apuntes • 1.090 Palabras (5 Páginas) • 105 Visitas
Cajas | Características y Especificaciones |
Normalize | Method Range Transformation: Min 0.0 y Max 1.0. Convierte la base de datos a valores entre 0 y 1. Se utiliza para escalar los valores para que se ajusten a un rango específico. Ajustar el rango de valores es muy importante cuando se trata de atributos de diferentes unidades y escalas. |
Split Data | Separa los datos en 70% y 30%. El 70% es entrenamiento y el 30% es la prueba, pudiendo ser esta aleatoria, estratificada o lineal. -Particions, eart: 0.7 ; 0.3; Sampling Type: Stratified Sampling. |
Neural Net | Datos numéricos con la misma magnitud. -Training Cycles: 1000, las veces que quiero que pase. -Learning Rate: 0.2. -Momentum: 0.9. -Hidden Layers: Número de nodos, se escribe “primera capa” y “segunda capa”, en esta etapa se debe iterar. Este operador crea un modelo a partir de una retroalimentación de los datos de entrada. El usuario puede definir la estructura de la red neuronal de con la lista de parámetros “hidden_layers”. Cada entrada de la lista describe una nueva capa oculta. La clave de entrada debe corresponde con el nombre de la capa. El valor de cada entrada debe ser el número que define el tamaño de la capa oculta. Si el usuario no especifica ninguna de las capas ocultas, se crea una capa oculta por defecto con el tipo y tamaño y es agregada a la red. |
Perfomance | Indica el desempeño predictivo del modelo. Clasificación, entrega matriz de confusión. Compara uno a uno. Esto arroja los indicadores de Accuracy y Precission Recall. |
Multiply | Multiplica la base de datos despúes de ser separada por el Split Data para ser entrenada por los distintos modelos. |
Discretize | By Binning: Datos Cuantitativos (numéricos). Discretiza (separa) los atributos numéricos en el número de contenedores especificados por el usuario (bins: 3) By Size: Este operador crea bandejas de tal manera que cada una tenga un tamaño especificado por el usuario. By User Specification: Este operador discretiza los atributos numéricos seleccionados en clases especificadas por el usuario. |
Nominal | To Numerical: Convierte atributos de tipo no numéricos a un tipo numérico. -Atribute Filter Type: Single -Atribute: XXX -Goling Type: Unique Interges |
CHAID | Datos Categóricos. Funciona exactamente igual que el operador del árbol de decisión con una excepción: utiliza un criterio basado en chi-cuadrado en lugar del criterio de ganancia de información o relación de ganancia. Además, este operador no se puede aplicar en BD con atributos numéricos. |
K-NN | Datos Numéricos. Este algoritmo reúne a los K vecinos más cercanos y los hace votar, la clase con más vecinos gana, mientras más vecinos consideramos menor es la tasa de error. |
SVM | Datos Numéricos. Utiliza planos complejos para encontrar la mejor división de las instancias que permita clasificarlas de manera óptima. |
Weight by Chi Squared Stadistic | Jerarquiza los datos. Calcula el peso de los atributos con respecto al atributo de clase mediante el uso de la estadística de Chi Cuadrado. Cuanto mayor sea el peso de un atributo, más relevante se considera. |
Impute Missing Values | Este operador estima valores para los valores faltantes de los atributos seleccionados aplicando un modelo aprendido para valores faltantes. Este es un operador anidado, es decir, tiene un subproceso. Este subproceso siempre debe aceptar una BD y devolver un modelo. El operador de valores perdidos imputados estima valores para valores perdidos al aprender modelos para cada atributo (excepto la etiqueta) y aplicar esos modelos al conjunto de ejemplo. |
Select By Weights | Selecciona solo los atributos de un conjunto de ejemplo de entrada cuyos pesos satisfacen el criterio especificado con respecto a los pesos de entrada. Los pesos de entrada se proporcionan a través del puerto de entrada de pesos. El criterio para la selección de atributos por pesos se especifica mediante el parámetro de relación de peso. |
Tree ID3 | Utilizamos 70% |
Apply Model | Utilizamos 30%, aplica el modelo del nuevo conjunto de datos. |
Apply Threshold | Aplicar el valor umbral. |
Find Threshold | Valor de umbral óptimo de clasificación. |
...