Minería de datos

Benja Rodriguez LobosExamen13 de Octubre de 2022

3.164 Palabras (13 Páginas)173 Visitas

Página 1 de 13

Antecedentes

Los accidentes de tráfico y carretera son incidentes inciertos e impredecibles, y se necesita un análisis para saber los factores que les afectan. La siniestralidad vial y de tránsito es un conjunto de variables en su mayoría de carácter discreto. El principal problema en el análisis de datos de accidentes es su naturaleza heterogénea. Por tanto, se debe considerar la heterogeneidad en el análisis de datos para que no permanezca oculta alguna relación entre los datos. Aunque, algunos investigadores utilizan la segmentación de los datos para reducir esta heterogeneidad, pero no da garantía una segmentación optima que consiste en grupos homogéneos de accidentes de tráficos. Por lo tanto, el análisis de conglomerados puede ayudar a la segmentación de los accidentes de tráfico.

El análisis de conglomerados es una técnica importante de minería de datos, se utiliza como una tarea preliminar para lograr varios objetivos.

Karlaftis y Tarko, utilizaron el análisis de conglomerados para clasificar los datos de los accidentes en diferentes categorías y, además, analizaron los resultados de los conglomerados utilizando el Binomio Negativo (NB) para identificar el impacto de la edad del conductor en los accidentes de tráfico.

Ma y Kockelman, utilizaron clustering (primer paso), agrupando datos en diferentes segmentos y además utilizaron el modelo Probit.

Los modelos Poisson y Binomiales negativos se han utilizado para identificar la relación entre los accidentes de tráfico y los factores causales. A destacar, que el modelo Poisson superan a los modelos de regresión estándar en el manejo de características no negativas, aleatorias y discretas de los recursos de accidentes.

El análisis de regresión (como los modelos de regresión lineal, los modelos de regresión binomial negativa y los modelos de regresión de Poisson) es una buena técnica en el análisis de accidentes, ya que se puede identificar la conexión entre los accidentes y los factores que afectan. Los ingenieros de tráfico con esta información pueden localizar los lugares propensos a los accidentes y aplicar eficazmente medidas como la iluminación y el cumplimiento de la ley. Sin embargo, tienen una capacidad limitada para descubrir patrones y relaciones nuevos e imprevistos que están ocultos en las bases de datos convencionales, demuestra que pueden producirse problemas al utilizar el análisis estadístico tradicional para analizar conjuntos de datos con grandes dimensiones, como un aumento exponencial del número de parámetros con un aumento del número de variables y podría haber cierta invalidez de las pruebas estadísticas debido a la escasez de datos.

Los modelos de regresión suelen tener sus propios supuestos específicos del modelo y relaciones subyacentes predefinidas entre las variables dependientes e independientes. Su violación puede hacer que el modelo proporcione resultados erróneos.

La minería de datos se describe como el conjunto de técnicas utilizadas para la extracción de información implícita, previamente desconocida y oculta, de la enorme cantidad de datos. Este está siendo utilizado para el análisis de varios tipos de transportes. Minería de datos tiene varias técnicas, como la agrupación, la clasificación y la minería de reglas de asociación, para analizar los datos de seguridad vial.

Este trabajo propone un marco que se basa en el análisis de conglomerados utilizando los modos K y la minería de reglas de asociación mediante el algoritmo Apriori. El uso del análisis de clústeres como tarea preliminar permite agrupar los datos en diferentes segmentos homogéneos. La minería de reglas de asociación se aplica posteriormente a estos clústeres, así como a todo el conjunto de datos (EDS), para generar reglas de asociación. PRIMERA VES QUE SE USA CONJUNTAMENTE PARA EL ANALISIS DE DATOS DE ACCIDENTES DE TRAFICO.

El resultado del análisis, del análisis de conglomerados como tarea preliminar puede ayudar a eliminar la heterogeneidad en cierta medida en los datos de accidentes de tráfico.

Marco propuesto

Para analizar los datos de accidentes de tráfico.

Procesamiento de datos

Se ocupa principalmente de eliminar el ruido, manejar los valores que faltan y eliminar los atributos irrelevantes para que los datos estén listos para el análisis.

Algoritmo de agrupación

Su objetivo es dividir los datos en diferentes clusters o grupos, grupos que sean similares entre si mientas otros clusters sean diferentes entre sí. Para estos datos, se ha utilizado la técnica de clustering jerárquico, las medias K y el clustering de clases latentes. Otra técnica de clustering es clustering de modos K, que es una versión mejorada del algoritmo de medio K. LCC es otra técnica que determina el número de clusters, aunque se ha utilizado más en identificar los clusters en los datos de los accidentes.

Si los datos contienen un gran N° de atributos categóricos, es mejor usar el algoritmo de los modos K, y al revés con el LCC.

[pic 1]

También que los modos K son más rápidos y eficientes que LCC en la producción de resultados de clustering localmente mínimos.

Utilizamos tanto los modos K como los criterios de selección de clusters del análisis de clusters LCC por las siguientes razones:

Los modos K es la mejor opción para los datos con un gran número de atributos categóricos.
El problema de identificar el número de K puede resolverse mediante los criterios de selección de clusters que utiliza LCC.
Los modos K pueden manejar un gran número de datos con buena eficiencia.

Algoritmo de clustering de modos K, es una versión mejorada en cuanto a la medida de distancia y el proceso de agrupación que se explican a continuación:

Medida de la distancia

Conjunto de datos D, distancia entre Objetos X e Y, estas descritas por N variable categóricas, se calcula:

[pic 2]

Xi e Yi son los valores del atributo i en los objetos X e Y. Esta medida de distancia suele denominarse medida de disimilitud de coincidencia simple. Cuanto mayor sea el número de diferencias en los valores categóricos de X e Y, más diferentes serán los dos objetos.

Para agrupar el conjunto de datos D en k clusters, el algoritmo de clustering K modes realiza los siguientes pasos:

...

Descargar como (para miembros actualizados) txt (20 Kb) pdf (353 Kb) docx (243 Kb)

Leer 12 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com