Modelización comparativa para la predicción de la estructura de proteínas
Jj ZantEnsayo13 de Febrero de 2020
3.085 Palabras (13 Páginas)116 Visitas
Modelización comparativa para la predicción de la estructura de proteínas.
Introducción
El conocimiento de la estructura proteica tridimensional es crucial para responder muchas preguntas biológicas; sin embargo, el número cada vez mayor de genes secuenciados y genomas está superando ampliamente el número de estructuras determinadas experimentalmente. A pesar del progreso considerable en la predicción de la estructura de novo , los métodos de modelado comparativo, cuando corresponde, proporcionan los modelos de estructura de proteínas más confiables y precisos . El modelado comparativo se basa en la observación general de que las secuencias relacionadas evolutivamente tienen estructuras tridimensionales similares . Como consecuencia, se puede construir un modelo tridimensional de una proteína de interés (objetivo) a partir de proteínas relacionadas de estructura conocida [plantilla (s)] que comparten similitud de secuencia estadísticamente significativa. El procedimiento de modelado comparativo tradicional consiste en varios pasos consecutivos que generalmente se repiten de forma iterativa hasta que se obtiene un modelo satisfactorio [4]: encontrar proteínas de plantilla adecuadas relacionadas con el objetivo; alinear las secuencias de destino y plantilla (s); identificación de regiones conservadas estructuralmente; predicción de regiones estructuralmente variables, incluidas las inserciones y los extremos N y C faltantes; sidechains de modelado; y refinando y evaluando el modelo resultante. Aunque cada paso puede introducir errores que afectan la estructura modelada, el uso óptimo de la información estructural de las plantillas disponibles y la corrección de la alineación de la secuencia a la estructura son los determinantes más significativos de la calidad del modelo final.
Tradicionalmente, el modelado comparativo se refiere a casos en los que se pueden encontrar proteínas relacionadas de estructura conocida con PSI-BLAST [5]. La reciente introducción de métodos más sofisticados (revisados en [6]) que derivan su poder de la comparación de perfil de perfil [7, 8,9] y el uso efectivo de la información estructural [10,11] ha aumentado significativamente no solo la alineación resultante Calidad, sino también la capacidad de detección de homólogos remotos. En consecuencia, el límite en el modelado basado en plantillas entre el modelado comparativo y el reconocimiento de pliegues ahora está bastante borroso. El mayor interés en el desarrollo de nuevos modelos comparativos y algoritmos de reconocimiento de pliegues ha llevado a una variedad de servicios de predicción disponibles en Internet [6], incluidos los meta-servidores de predicción de estructuras [12]. Los últimos son de enorme importancia para los biólogos y modeladores porque brindan un acceso conveniente a los resultados de varios métodos independientes de predicción de estructuras en dos y tres dimensiones. Además, se utilizan con frecuencia como puntos de partida en el análisis de secuencias y en la construcción de modelos tridimensionales. Esta revisión resume el progreso reciente y analiza los roles actuales, las limitaciones y los desafíos de los modelos comparativos
Evaluación objetiva de métodos - estado actual de la técnica en modelos comparativos
El lanzamiento del experimento bianual CASP (Evaluación crítica de técnicas para la predicción de la estructura de proteínas) [13,14,15], establecido para detectar las capacidades y limitaciones de los métodos de modelado actuales, para determinar el progreso realizado y resaltar cuellos de botella específicos, Hito crucial en el campo de la predicción de la estructura proteica. Los resultados de los últimos experimentos CASP muestran que, en la categoría de modelos comparativos [16], los enfoques más exitosos utilizan estrategias de consenso para construir modelos finales basados en múltiples plantillas o recombinación de fragmentos de proteínas. Los resultados de consenso de varios métodos de reconocimiento de pliegues o búsquedas de secuencias múltiples [20] se utilizan con frecuencia para la selección de plantillas y la detección de regiones de alineación confiables, mientras que las variantes de alineación alternativas se evalúan a nivel de la estructura terciaria utilizando métodos de evaluación de la calidad [21,22] inspección visual. El análisis detallado de la secuencia de las familias objetivo y de la plantilla, la investigación de los rasgos característicos del pliegue y las búsquedas exhaustivas en la literatura de cualquier información bioquímica disponible (mutaciones, residuos catalíticos, etc.) son usualmente obligatorios, ya que incluso pequeños detalles pueden servir como anclajes de alineación y plomo a la identificación exitosa del mapeo correcto de la estructura de secuencia en regiones cuestionables. También se recomienda encarecidamente la división de la secuencia de destino en dominios únicos, la eliminación de inserciones largas en el núcleo del pliegue y el envío iterativo a los servidores de predicción. Finalmente, la construcción de modelos para homólogos cercanos del objetivo puede permitir la detección de errores significativos de alineación, que se manifiestan en modelos tridimensionales solo para algunos miembros de la familia [17].
El modelado basado en varias plantillas suele ser ventajoso, entre otras cosas porque aumenta la posibilidad de que la plantilla óptima se encuentre entre las utilizadas [18]. Sin embargo, no es fácil beneficiarse de la gran cantidad de plantillas disponibles, especialmente cuando sus estructuras locales difieren significativamente. Aunque los métodos existentes pueden proporcionar predicciones razonablemente precisas para bucles cortos, el modelado de regiones más largas que no están presentes en las plantillas disponibles sigue siendo un desafío y se realiza con frecuencia utilizando métodos de novo , con ejemplos anecdóticos de éxito relativo [14,16]. Es importante destacar que la calidad de una región estructuralmente variable modelada se ve afectada en gran medida por su longitud, la exactitud de la alineación y la precisión de las regiones vecinas predichas . Nuestra capacidad para predecir correctamente las conformaciones de cadena lateral, que dependen de la conformación de la red troncal, es, como es lógico, bastante limitada [16]. Los rotámeros de cadena lateral incorrectos son causados principalmente por residuos desalineados y / o desplazamientos de la red troncal, que deben modelarse con precisión inicialmente o refinarse simultáneamente para mejorar las predicciones de la cadena lateral.
La experiencia humana parece ser muy valiosa para modelar objetivos difíciles (plantilla detectada por PSI-BLAST) y crítica en casos de cambios evolutivos inesperados en la estructura de la proteína (Figura 1). En contraste, para objetivos de modelado comparativo fáciles (estructura relacionada detectada por BLAST simple), las mejoras humanas a menudo son marginales, si no perjudiciales, ya que el rendimiento de los métodos automáticos en estos objetivos ha aumentado sustancialmente [14,16].
[pic 1]
Este ejemplo de modelación comparativa difícil basada en una plantilla relacionada de forma distante ilustra el importante papel de los aportes humanos en casos de cambios evolutivos inesperados en la estructura de la proteína. (a) Estructura experimental del objetivo CASP6 T0223, una nitroreductasa putativa de Thermotoga maritima (código PDB 1vkw, verde) y el mejor modelo (T0223TS4501, azul). (b) La plantilla disponible, flavin reductasa P de Vibrio harveyi (código PDB 1bkj, monómeros en gris y naranja), comparte un 18% de identidad de secuencia con el objetivo. T0223 es un pseudodímero monomérico que contiene dos dominios de reductasa duplicados dispuestos exactamente como dentro de la plantilla dimérica. El modelado correcto de la cadena de proteína completa requirió el uso de una plantilla dimérica en lugar de un monómero.
La evaluación de los métodos automáticos de predicción de estructuras se realiza mediante el experimento CAFASP (Evaluación crítica de la predicción de estructuras completamente automatizada) [24], que se ejecuta en paralelo con CASP en el mismo conjunto de objetivos. Live-Bench [25] y EVA [26] proporcionan una evaluación más continua de los servidores, que operan en un número relativamente grande de objetivos de predicción compilados cada semana a partir de las estructuras recientemente publicadas de PDB [27]. Sin embargo, LiveBench excluye objetivos de modelado comparativo fáciles y, lo que es más importante, no es una prueba de predicción ciega. Como lo demuestran claramente los experimentos de CAFASP y LiveBench, se ha logrado un progreso significativo en la predicción de la estructura de proteínas automatizada basada en plantillas mediante el desarrollo de meta-servidores [24,25], que detectan motivos estructurales comunes (consenso) en el conjunto de tres Modelos dimensionales generados por diversos servicios independientes de predicción de estructuras. Los meta-servidores generan un nuevo ranking general y seleccionan el mejor modelo potencial [28] o realizan modificaciones adicionales (por ejemplo, construyen un híbrido a partir de fragmentos de los modelos originales) [29]. Un meta-predictor bien diseñado debería funcionar al menos tan bien como el mejor de sus componentes de entrada; los meta-servidores superan a los servidores individuales y ya están desafiando a la mayoría de las predicciones de expertos humanos [25]. Sin embargo, el rendimiento de varios servidores autónomos recientemente desarrollados parece ser uno de los mejores en el modelado comparativo, lo que sugiere que se han obtenido mejoras adicionales en los métodos individuales [16,25]. Estos nuevos métodos autónomos basan su fuerza en la comparación de los perfiles de secuencia combinados con la estructura secundaria predicha [30] o, además, la puntuación de energía del perfil basado en la estructura [31].
...