Diseño de un modelo para la eficiente detección de fraude de tarjetas de crédito utilizando una técnica de conjunto de redes neuronales multicapa y automated feature engineering

Luis Kcomt LamDocumentos de Investigación6 de Octubre de 2020

6.775 Palabras (28 Páginas)227 Visitas

Página 1 de 28

PLANTILLA 04_INFORME PARCIAL_ TEMA DE INVESTIGACIÓN

DATOS GENERALES
Apellidos y nombres estudiante 1: Kcomt Lam Luis Eduardo	Código: u201614074
Carrera profesional: Ingeniería de Software
Sección: IG81
Asesor Metodológico: Victor Nuñez
Asesor temático: Wong Durand Sandra Analia
Línea de Investigación: Arquitectura de Software
Área de Investigación: Fraude de tarjeta

1. TÍTULO DEL TEMA DE INVESTIGACIÓN

Diseño de un modelo para la eficiente detección de fraude de tarjetas de crédito utilizando una técnica de conjunto de redes neuronales multicapa y automated feature engineering.

Propuesta: Diseño de un modelo de detección.

Problema: Detección de fraude de tarjetas eficiente.

Técnica: Conjunto de redes neuronales multicapa y automated feature engineering.

2. PROBLEMA DE INVESTIGACIÓN:

2.1 DESCRIPCIÓN E IMPORTANCIA DEL PROBLEMA

En nuestro mundo cada vez más digitalizado, es crítico guardar de manera segura información sensible, especialmente si esa información tiene relación a data bancaria. Vivimos en la era de la información, donde cantidades inmensas de data se guardan, transfieren y venden cada día. Si esta información fuera robada podría ser devastador para una persona, una entidad financiera o la economía en general.

El robo de información sensible, o también conocido como robo de identidad, se puede manifestar de varias formas, pero el que está creciendo a un ritmo alarmante y ha tenido el mayor impacto, es el fraude de tarjeta. Tanto así, que en España 2019 se reportó que el número de fraudes por operaciones de pago con tarjeta había incrementado en 30% comparado al año pasado (20Minutos, 2019). Ese mismo año, se hizo un censo en el Perú donde se determinó que alrededor de 6% de la población bancarizada ha sufrido algún tipo de robo o fraude financiero (Gestión, 2019).

Según el diario Debt (2020), el impacto de este robo financiero se estimó que fue alrededor de 21 mil millones de dólares al año, y una perdida aproximada de 1000 dólares por fraude al año por persona en estados unidos en 2016. Aun así, la cifra del fraude de tarjetas más impactante es que las entidades financieras americanas han tenido que cubrir el 72% de todas las perdidas, o sea las entidades financieras perdieron alrededor de un total de 15.12 mil millones de dólares directamente por el fraude de tarjeta en el 2016 (Iris, 2018).

Por lo general, este fraude sucede debido a que información financiera es obtenida por criminales mediante diversos métodos, como virus de computadoras, clonación de tarjetas, paginas falsas o “phishing”, fuga de información, etc. En la Figura 1 se puede apreciar las estadísticas de los diversos métodos de fraude de tarjeta.

Figura 1

Perdidas de fraude de tarjeta por tipo

[pic 2]

Nota. Se puede ver claramente en esta figura que, en 2018, el 76% de las causas de fraude de tarjeta fueron por remote purchase CNP (siglas en ingles por tarjeta no presente), o sea compras en línea que se transigieron debido a que los criminales conocían el número tarjeta y nombre de propietario.

Justamente debido a que estos robos no suceden directamente con una entidad financiera, si no por descuido o actividad maliciosa de terceros, es necesario implementar técnicas que se enfrenten al fraude de tarjetas desde el lado de la entidad financiera. Para esto, generalmente se usan técnicas para la detección de transacciones fraudulentas utilizando sistemas expertos de reglas, machine learning, modelos estadísticos y deep learning (redes neuronales). De todas estas técnicas, las redes neuronales son las que han tenido mejor rendimiento en términos de precisión. Se puede apreciar en la Tabla 1 y Tabla 2 las métricas de las técnicas de redes neuronales y modelos estadísticos. Se puede ver en esta comparación que las técnicas basadas en redes neuronales tienen una precisión mínima de 95% y una máxima de 99.93%, mientras que las técnicas basadas en modelos estadísticos tienen una precisión aproximada de 60% (Wadha et al. 2020).

Tabla 1

Resumen de técnicas basadas en modelos estadísticos

[pic 3]

Tabla 2

Resumen de técnicas basadas en redes neuronales

[pic 4]

Esta diferencia drástica de precisión entre técnicas se debe a que las personas por lo general tienen patrones de compras, y utilizando redes neuronales, que son herramientas excelentes para hallar patrones, se puede detectar transacciones tienen una alta probabilidad de ser fraudulentas. Aun así, estas métricas son halladas utilizando datasets en un ambiente controlado, y por lo general, las técnicas para la detección de fraude se enfrentan a varios problemas en el mundo real que hacen que su rendimiento baje de forma significativa (Munkhdalai et al., 2020). Esto es especialmente cierto con las técnicas basadas en las redes neuronales, ya que el área de fraude de crédito tiene obstáculos que lo hacen un problema complejo de resolver.

Primero, el fraude de tarjeta de crédito es un problema sensitivo de costo debido a que el costo de etiquetar falsamente a una transacción es diferente que, al costo de no etiquetarla. O sea, el costo de etiquetar falsamente fraudulenta a una transacción, costo que equivale a perder una venta y disminuir satisfacción del usuario, no es equivalente al costo de no detectar un fraude y perder el dinero de la transacción (Arévalo et al.,2017).

Segundo, el desbalance de clases en el área de tarjeta de crédito disminuye la precisión de los modelos debido a que afecta la fase de entrenamiento de las técnicas de machine learning, redes neuronales y deep learning. Esto se debe a que existen un número mayor de transacciones legitimas que transacciones fraudulentas. Una estadística de esta desproporción se puede encontrar en las transacciones del BBVA en el año 2014. Existen alrededor de 5000 transacciones legitimas por cada transacción fraudulenta (Arevalo et al.,2017). Esta desproporcionalidad puede hacer que los modelos no tengan una buena exactitud al momento de clasificar transacciones.

Por último, existen varios otros retos que las técnicas de detección en área de fraude de tarjetas de crédito se tienen que enfrentar. Por ejemplo, que los sistemas de detección deben tener un tiempo de respuesta corto. Además, los modelos deben poder adaptarse en tiempo real a la data nueva.

En conclusión, el fraude de tarjetas de crédito es un problema que implica perdida de grandes cantidades de dinero para clientes y para entidades financieras, y tiene un impacto en la economía de todos los países. Además, debido a avances tecnológicos de nuevos mercados, como e-commerce, el fraude de tarjeta de crédito se está volviendo más prevalente. Las técnicas de detección actuales se enfrentan a varios obstáculos en el área de fraude de tarjetas, y no han podido solucionar este problema de forma efectiva. Por ello, se plantea el diseño de un modelo para la eficiente detección de fraude de tarjetas de crédito utilizando una técnica de conjunto de redes neuronales multicapa y automated feature engineering.

2.2 ANÁLISIS DEL PROBLEMA (EJEMPLO)

[pic 5]

2.3 FORMULACIÓN DEL PROBLEMA

¿Se podrá diseñar un modelo para la eficiente detección de fraude de tarjetas de crédito utilizando una técnica de conjunto de redes neuronales multicapa y automated feature engineering?

La formulación nueva se debe a la información hallada en los artículos científicos recopilados para el estado del arte. Específicamente, se halló que se necesitaba una técnica que englobaba no solo un conjunto de redes neuronales, si no un método de preprocesamiento para la data. Para poder enfrentarse con los problemas “cost-sensitive”, desbalance de clase y otros más.

Anteriormente, solo se había propuesto una sola red neuronal para la clasificación y detección de transacciones fraudulentas, pero con los nuevos artículos se ha hallado que esto sería una propuesta ineficiente. Se necesita poder filtrar la data para disminuir el desbalance de clase; esto se lograría en la nueva propuesta con un conjunto de redes neuronales. Algunas redes tendrán el objetivo de filtrar la data, mientras que otra red solo clasificaría esta data ya filtrada. Además, se ha integrado más el aspecto de automated feature engineering, para poder entrenar a los modelos con data que represente de forma adecuada al problema, o sea que los features del dataset se relacionen explícita e implícitamente con el comportamiento y los patrones de las transacciones.

3. CASO DE ESTUDIO

3.1. DATOS GENERALES

Los cibercrímenes son definidos por Wadha et al. (2020) como cualquier tipo de actividad ilegal que sucede o es ayudado por el uso de computadoras o redes de comunicación para causar miedo o daño. Los cibercrímenes se manifiestan de diversas formas como el ciber terrorismo, ciber bullying, phishing, pornografía infantil, denial-of-service attack y fraude de tarjeta. Este último ha tenido un impacto grande en el mundo, y está cada año en aumento (Redseguridad, 2020).

...

Descargar como (para miembros actualizados) txt (46 Kb) pdf (909 Kb) docx (770 Kb)

Leer 27 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com