Ingeniería de características en ciencia de datos

ALI CALVOApuntes26 de Julio de 2020

1.397 Palabras (6 Páginas)204 Visitas

Página 1 de 6

En este artículo, obtendrá información sobre la ingeniería de características y su rol en la mejora de los datos en el aprendizaje automático. Obtenga información de los ejemplos ilustrativos extraídos de los experimentos de Azure Machine Learning Studio (clásico).

Diseño de características: El proceso de crear nuevas características a partir de datos sin procesar para aumentar la eficacia predictiva del algoritmo de aprendizaje. La ingeniería de características debe capturar información adicional que no se pueda obviar fácilmente en el conjunto de características originales.

Selección de características: El proceso de seleccionar el subconjunto de claves de las características en un intento por reducir la dimensionalidad del problema de entrenamiento.

Normalmente, la ingeniería de características se aplica primero para generar características adicionales y, a continuación, se realiza selección de características para eliminar aquellas que son irrelevantes, redundantes o altamente correlacionadas.

La selección e ingeniería de características forman parte de la fase de modelado del proceso de ciencia de datos en equipo (TDSP). Para obtener más información sobre TDSP y el ciclo de vida de ciencia de datos, consulte ¿qué es el TDSP?

¿Qué es la ingeniería de características?

Los datos de entrenamiento se componen de una matriz formada por filas y columnas. Cada fila de la matriz es una observación o un registro. Las columnas de cada fila son las características que describen cada registro. Las características especificadas en el diseño experimental deben caracterizar los patrones de los datos.

Aunque muchos de los campos de datos sin procesar se pueden usar directamente para entrenar un modelo, a menudo es necesario crear características adicionales (de ingeniería) para un conjunto de datos de entrenamiento mejorado.

Las características diseñadas que mejoran el entrenamiento proporcionan información que ayuda a diferenciar de mejor manera los patrones de los datos. Pero este proceso es, en cierto modo, un arte. Las decisiones acertadas y productivas a menudo requieren conocimiento especializado.

Ejemplo 1: Incorporación de características temporales para un modelo de regresión

Usemos el experimento Previsión de demanda de los alquileres de bicicletas en Azure Machine Learning Studio (clásico) para mostrar cómo diseñar características para una tarea de regresión. El objetivo de este experimento es predecir la demanda de los alquileres de bicicletas en un mes/día/hora específico.

Conjunto de datos de alquiler de bicicletas

El Conjunto de datos UCI de alquiler de bicicletas se basa en datos reales de una empresa de uso compartido de bicicletas basada en Estados Unidos. Representa el número de los alquileres de bicicletas en una hora específica de un día para los años 2011 y 2012. Contiene 17.379 filas y 17 columnas.

El conjunto de características sin procesar contiene condiciones climáticas (temperatura/humedad/velocidad del viento) y el tipo de día (festivo/día de semana). El campo para la predicción es el contador, que representa las bicicletas alquiladas dentro de una hora específica. El recuento oscila entre 1 y 977.

Crear un experimento de ingeniería de características

Con el objetivo de construir características eficaces en los datos de entrenamiento, se crean cuatro modelos de regresión con el mismo algoritmo, pero con cuatro conjuntos de datos de entrenamiento distintos. Los cuatro conjuntos de datos representan los mismos datos de entrada sin procesar, pero con un número creciente del conjunto de características. Estas características se agrupan en cuatro categorías:

A = características de clima + festivo + día de semana + fin de semana correspondiente al día de la predicción

B = el número de bicicletas alquiladas en cada una de las 12 horas anteriores

C = el número de bicicletas alquiladas en cada uno de los 12 días anteriores a la misma hora

D = el número de bicicletas arrendadas en cada una de las 12 semanas anteriores a la misma hora y el mismo día

Aparte del conjunto de funciones A, que ya existe en los datos sin procesar originales, los otros tres conjuntos de funciones se crean mediante el proceso de diseño de funciones. El conjunto de funciones B captura la demanda de bicicletas reciente. El conjunto de características C captura la demanda de bicicletas en una hora específica. El conjunto de características D captura la demanda de bicicletas en una hora específica y un día de la semana específico. Los conjuntos de datos de entrenamiento incluyen el conjunto de características A, A+B, A+B+C y A+B+C+D, respectivamente.

Ingeniería de características

...

Descargar como (para miembros actualizados) txt (9 Kb) pdf (42 Kb) docx (11 Kb)

Leer 5 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com