Algorítmo Random Forest

Jose SamperTrabajo20 de Septiembre de 2021

963 Palabras (4 Páginas)169 Visitas

Página 1 de 4

[pic 1]

RANDOM FOREST

El algoritmo Random Forest es una técnica de aprendizaje supervisado que genera múltiples árboles de decisión sobre un conjunto de datos de entrenamiento: los resultados obtenidos se combinan a fin de obtener un modelo único más robusto en comparación con los resultados de cada árbol por separado. Cada árbol se obtiene mediante un proceso de dos etapas:

Se genera un número considerable de árboles de decisión con el conjunto de datos. Cada árbol contiene un subconjunto aleatorio de variables m (predictores) de forma que (donde total de predictores).[pic 2][pic 3]
Cada árbol crece hasta su máxima extensión.

El Random Forest comienza con una técnica de aprendizaje automático estándar llamada "árbol de decisiones", que, en cuanto al conjunto, corresponde a un aprendizaje. En un árbol de decisión, una entrada se introduce en la parte superior y hacia abajo a medida que atraviesa el árbol de los datos se acumulan en conjuntos más pequeños y más pequeños. Las observaciones no estimadas en los árboles (también conocidas como “out of the bag”) se utilizan para validar el modelo. Las salidas de todos los árboles se combinan en una salida final Y (conocida como ensamblado) que se obtiene mediante alguna regla (generalmente el promedio, cuando las salidas de los árboles del ensamblado son numéricas y, conteo de votos, cuando las salidas de los árboles del ensamblado son categóricas).

[pic 4]

Las principales ventajas del algoritmo Random Forest son:

Pueden usarse para clasificación o predicción: En el primer caso, cada árbol “vota” por una clase y el resultado del modelo es la clase con mayor número de “votos” en todos los árboles, de forma que cada nueva observación se presenta a cada uno de los árboles y se asigna a la clase más “votada”. En el segundo caso, el resultado del modelo es el promedio de las salidas de todos los árboles.
El modelo es más simple de entrenar en comparación con técnicas más complejas, pero con un rendimiento similar.
Tiene un desempeño muy eficiente y es una de las técnicas más certeras en bases de datos grandes.
Puede manejar cientos de predictores sin excluir ninguno y logra estimar cuáles son los predictores más importantes, es por ello que esta técnica también se utiliza para reducción de dimensionalidad.
Mantiene su precisión con proporciones grandes de datos perdidos.

Por otra parte, sus principales desventajas son las siguientes:

La visualización gráfica de los resultados puede ser difícil de interpretar.
Puede sobre ajustar ciertos grupos de datos en presencia de ruido.
Las predicciones no son de naturaleza continua y no puede predecir más allá del rango de valores del conjunto de datos usado para entrenar el modelo. En el caso de predictores categóricos con diferente número de niveles, los resultados pueden sesgarse hacia los predictores con más niveles.
Se tiene poco control sobre lo que hace el modelo (en cierto sentido es como una caja negra).

CART

se trata de un algoritmo basado en árbol que funciona examinando muchas diversas maneras de particionar o dividir localmente los datos en segmentos más pequeños con base en diferentes valores y combinaciones de predictores. CART selecciona las divisiones de mejor rendimiento y luego repite este proceso de forma recursiva hasta encontrar el conjunto óptimo. Es capaz de generar automáticamente las particiones cada una con las agrupaciones más homogéneas posible. Se basa en la idea de impureza, CART selecciona el corte que conduce al mayor decrecimiento de la impureza. Así se consiguen descendientes homogéneos en la variable respuesta Y.

...

Descargar como (para miembros actualizados) txt (6 Kb) pdf (330 Kb) docx (837 Kb)

Leer 3 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com