CASO DE INVESTIGACIÓN Y ANÁLISIS: “CAÍDA DE FACEBOOK 2021”
ft streamingEnsayo23 de Enero de 2023
2.682 Palabras (11 Páginas)159 Visitas
[pic 1]
Facultad de Ingeniería
Carrera de Ingeniería de Sistemas e Informática
(ACP-S03) Trabajo Grupal
CASO DE INVESTIGACIÓN Y ANÁLISIS:
“CAÍDA DE FACEBOOK 2021”
Integrantes:
Chuquino Vega Sofonias | U19208636 |
Fernández Delgado Rody Alberto | U21203959 |
Ticse Espinoza Franz Joel | U19306716 |
Yarango Villanueva Jorge Edixon | U20218896 |
Docente:
MG. JORGE HOMERO POZO CHUMACERO
Curso:
GESTION DE RIESGOS INFORMATICOS (48637) – CGT
Lima, Perú
2022
CONTENIDO
INTRODUCCIÓN 1
1. ANTECEDENTES 2
2. DESCRIPCIÓN DEL DESASTRE 4
2.1. Descripción de la causa 4
2.2. Problemas ocasionados 4
2.3. Después de la solución 5
3. IMPACTO Y DAÑO 5
4. LECCIONES APRENDIDAS 7
CONCLUSIONES 8
RECOMENDACIONES 9
REFERENCIAS 10
CASO DE INVESTIGACIÓN Y ANÁLISIS: “CAÍDA DE FACEBOOK 2021”
INTRODUCCIÓN
A medida que las empresas dependen cada vez más de la tecnología, no es de extrañar que aumenten los costes asociados al tiempo de inactividad de la red. En Norteamérica, se estima que las interrupciones de servicio cuestan un total de 700.000 millones de dólares al año -más que el PIB de algunas naciones pequeñas-, y las organizaciones informan de una media de cinco incidencias de inactividad y 27 horas de inactividad al mes. A pesar de lo asombroso de estas cifras, sólo representan la pérdida de ingresos y productividad, lo que proporciona una imagen incompleta del coste total de una interrupción. Además de paralizar el negocio, el tiempo de inactividad de la red también puede provocar daños a la reputación, sanciones por incumplimiento y otros problemas que pueden hacer que estas cantidades de dinero aumenten aún más.
Es en este escenario que el grupo investigador propone analizar el caso de la empresa Meta Platforms, Inc (anteriormente conocida como Facebook, Inc.), la cual presentó una caída en sus servicios a nivel global en 2021. Meta es una empresa de tecnología social. La empresa crea aplicaciones y tecnologías que ayudan a las personas a conectarse, encontrar comunidades y hacer crecer los negocios; asimismo, se dedica a la publicidad, la realidad aumentada y la realidad virtual. Meta es la empresa matriz de aplicaciones como Facebook, Messenger, Instagram, WhatsApp y Oculus VR.
Es debido a la importancia de Meta para las personas y empresas a nivel global que el equipo investigador elige el presenta caso de estudio. El análisis y desarrollo se realiza desde la perspectiva de la gestión de riesgos informáticos. Se empezará por listar los antecedentes de caídas de servicios tecnológicos, luego se describirán los hechos ocurridos con la caída de los servicios el 04 de octubre de 2021, se describirá el impacto y daño ocasionados, para finalizar analizando las lecciones aprendidas.
ANTECEDENTES
Por una parte, podemos listar dos antecedentes de caídas de servicios del conglomerado Meta, El primero se registró en 2008, cuando los servicios de Facebook estuvieron no disponibles durante casi un día entero, por un fallo que dejó a muchos de los 80 millones de usuarios de la plataforma sin poder cargar sus timelines por un error interno. El segundo se registró el 13 de marzo de 2019. Los servicios de Facebook, WhatsApp e Instagram se cayeron en cierta medida alrededor de las 11 de la mañana de aquel día, afectando a usuarios de todo el mundo. Para algunos, los servicios eran completamente inaccesibles; para otros, ciertas funciones como las historias o los mensajes directos dejaron de funcionar. Facebook se pronunció de manera oficial al día siguiente, atribuyendo el tiempo de inactividad de sus servicios a un "cambio de configuración del servidor". Durante la interrupción, el panel de control de los desarrolladores de Facebook informó de un aumento de la tasa media de errores de la API. La compañía dijo que no fue causado por un ataque de denegación de servicio distribuido (DDoS).
Por otra parte, se pueden mencionar ciertas caídas registradas, no relacionadas con el conglomerado Meta, pero que sirven a manera de estudio. La primera ocurrió el 8 de junio de 2021, Fastly tuvo una interrupción que duró casi una hora, provocando que sitios web importantes como Amazon, eBay, Reddit, Spotify, Twitch, The Guardian, The New York Times, e incluso los sitios web del gobierno del Reino Unido fueran inaccesibles. La empresa es una de las principales redes de distribución de contenidos del mundo y, como CDN, gestiona una red de borde en la nube que acerca los contenidos web a los usuarios, reduciendo así la latencia, al tiempo que facilita la gestión de los picos de tráfico y ofrece protección contra los ataques DDoS. Fastly explicó que el mes anterior, un despliegue de software introdujo un fallo latente en su red. Este fallo se desencadenó a raíz de un cambio de configuración impulsado por un cliente, lo que provocó que su red devolviera errores en el 85% de las solicitudes de enrutamiento. Los usuarios informaron de que recibían errores 503, lo que significaba que había un problema temporal de acceso a los servidores de alojamiento web. El equipo de Fastly se apresuró a aislar la causa y a desactivar la configuración, antes de dedicar su atención a desplegar una solución de errores y a llevar a cabo un postmortem sobre las medidas preventivas y correctivas para evitar que se repitiera.
El segundo caso que se debe señalar es el de Cloudflare y Akamai, quienes experimentaron cortes de red que provocaron la indisponibilidad del servicio para muchos de los usuarios finales de sus clientes. Cloudflare, que gestiona aproximadamente el 18% de todo el tráfico web, experimentó una interrupción de la red que afectó al 50% de su tráfico, lo que provocó que los principales sitios web estuvieran inaccesibles durante unos 27 minutos. Entre los sitios web afectados se encuentran Shopify, Discord y AWS. El incidente del 17 de julio de 2020 fue el resultado de un cambio de configuración realizado en su red troncal para aliviar la congestión. Desgraciadamente, un error dirigió todo el tráfico BGP a otro router de la red troncal en Atlanta que se saturó, lo que provocó una congestión y los consiguientes errores. Para resolver los problemas, el enrutador de Atlanta fue eliminado de la red y el tráfico fue redirigido a otros enrutadores. Por otra parte, el DNS de borde de Akamai tuvo un problema que afectó a un buen número de sitios web en todo el mundo el 22 de julio de 2021 durante aproximadamente una hora. Dado que la empresa presume de que el 85% de los usuarios de Internet del mundo están a un solo "salto de red" de un servidor CDN de Akamai, el tiempo de inactividad se sentiría de forma significativa en todo el mundo. Entre los servicios afectados se encuentran PlayStation Network, Airbnb, FedEx y UPS. En una serie de tweets, Akamai informó de que una actualización de la configuración del software desencadenó un error en el sistema DNS, lo que provocó el incidente. El problema se solucionó al volver a realizar la actualización, pero el daño ya estaba hecho.
DESCRIPCIÓN DEL DESASTRE
El tráfico de datos entre todas estas instalaciones informáticas es gestionado por routers, que determinan dónde enviar todos los datos entrantes y salientes. Y en el extenso trabajo diario de mantenimiento de esta infraestructura, nuestros ingenieros a menudo necesitan desconectar parte de la red troncal para el mantenimiento, tal vez reparando una línea de fibra, agregando más capacidad o actualizando el software en el propio enrutador.
Descripción de la causa
Esta fue la fuente del apagón de ayer. Durante uno de estos trabajos de mantenimiento de rutina, se emitió un comando con la intención de evaluar la disponibilidad de la capacidad troncal global, que involuntariamente eliminó todas las conexiones en nuestra red troncal, desconectando efectivamente los centros de datos de Facebook a nivel mundial. Nuestros sistemas están diseñados para auditar comandos como estos para evitar errores como este, pero un error en esa herramienta de auditoría le impidió detener correctamente el comando.
Este cambio provocó una desconexión completa de las conexiones de nuestros servidores entre nuestros centros de datos e Internet. Y esa pérdida total de conexión causó un segundo problema que empeoró las cosas.
Problemas ocasionados
Todo esto sucedió muy rápido. Y a medida que nuestros ingenieros trabajaban para averiguar qué estaba sucediendo y por qué, se enfrentaron a dos grandes obstáculos: primero, no fue posible acceder a nuestros centros de datos a través de nuestros medios normales porque sus redes estaban caídas, y segundo, la pérdida total de DNS rompió muchas de las herramientas internas que normalmente usaríamos para investigar y resolver interrupciones como esta.
...