Logo
DATOS DEL INVESTIGADOR PRINCIPAL
Nombre Ricardo Antonio Mendoza Leon
Nombre del perfíl Investigador Por Proyecto
Grupo de investigación Sistemas y Computación
Línea de investigación Bioinformática e Informática teórica (BIT)
Equipo del proyecto
TÍTULO DEL PROYECTO Patrones dinámicos de plegamiento y formación de Laminas Beta en proteínas globulares.
PALABRAS CLAVE Lamina Beta, Proteínas globulares, problema del plegamiento de proteínas, Inferencia estadística
OBJETIVOS DEL PROYECTO Objetivo general:
Proponer un modelo dinámico del plegamiento en la cadena péptida, que facilite la predicción de láminas beta, particularmente las distantes, al interior de las proteínas globulares en estado nativo.

Objetivos específicos:
Definir un sistema de clasificación para los plegamientos, con base en su impacto en la topología de la proteína en estado nativo.

Definir un sistema de clasificación para los plegamientos, con base en su probable orden de formación al interior de la cadena péptida.

Diseñar un modelo matemático, que represente las relaciones entre las categorías topológicas y su orden de plegamiento.

Desarrollar un método computacional para la predicción de Laminas Beta, que evalué las posibles configuraciones de ensamble y contacto de los residuos beta, dada la identificación de clases de plegamientos y su orden probable de formación.
PERTINENCIA ESPISTEMOLÓGICA DEL PROYECTO La comprensión de la dinámica de formación de Laminas Beta y la predicción de las mismas a partir de su secuencia, es un paso importante hacia la comprensión, catalogación y predicción Ab initio, de las estructuras terciaria y cuaternaria en proteínas. Lo anterior es esencial para el desarrollo de los proyectos de investigación actuales en biología, bioquímica, química farmacéutica y medicina principalmente, ya que soporta la labor del investigador en la identificación, análisis y categorización de conjuntos de proteínas.
RELEVANCIA DEL PROYECTO PARA LA INSTITUCIÓN Y PARA LOS BENEFICIARIOS DEL PROYECTO La promoción del conocimiento, avance y difusión de la Bioinformática como disciplina de investigación en la facultad, al interior y el exterior de la institución.
La integración con cursos de la facultad que incluyen Bioinformática, Estadística y otras asignaturas relacionadas con los métodos formales, sirviendo como referente de la aplicación en la práctica y profundización de los conocimientos adquiridos en estos cursos, así como la vinculación de los estudiantes de estas asignaturas al semillero de investigación del proyecto y la integración de los proyectos de aula con el proyecto de investigación.
PROBLEMA DE INVESTIGACIÓN El estudio y categorización de la estructura y función de las proteínas, es uno de los ejes principales en investigación científica actual en Biología y Bioquímica (Baldi, et al, 2001). Lo anterior se sustenta en la ineludible necesidad de entender su función como prerrequisito para la comprensión profunda de la dinámica de los sistemas vivos, así como en la comprensión de grandes problemas de salud, como por ejemplo el cáncer. En este sentido proteínas globulares, son un importante tipo de proteínas, dado su rol fundamental, en la bioquímica de los sistemas vivos.

Sin embargo la abrumadora diversidad del proteoma de los seres vivos, representa uno de los mayores retos prácticos de la ciencia, dada nuestra incapacidad técnica de estudiar experimentalmente, siquiera una minúscula proporción de las mismas empleando tiempos y recursos razonables (Lesk 2002).

Durante más de 30 años la Bioinformática, ha formulado propuestas con el ánimo de superar este reto y sus problemas derivados, mediante el uso de modelos computacionales que implementan modelos teóricos y empíricos, que buscan aproximar la dinámica subyacente del objeto de estudio.

Uno de estos problemas es la predicción tanto del ensamble y contactos inter residuo, de un importante tipo de estructuras presentes en las proteínas conocidas como Laminas Beta (Beta-Sheets). En particular, el problema de la predicción de Laminas Beta con ensambles distantes y con alineación de múltiple (Ruczinski et al, 2002., Bradley et al, 2006., Cheng et al, 2007), ha presentado dificultades importantes, para los métodos de predicción, principalmente por la gran diversidad de configuraciones topológicas probables que se deben evaluar.

Soportado en las dificultades anteriores y en la perspectiva que la construcción de un modelo dinámico, pueda representar de mejor forma aspectos claves inherentes a la formación de las Laminas Beta, este proyecto se plantea como pregunta: ¿Qué aspectos de la dinámica del plegamiento en la cadena péptida, gobiernan la formación de láminas beta, al interior de las proteínas globulares en estado nativo?

Para contestar a esta pregunta se evaluaran y emplearan diversas técnicas de inferencia estadística computacional, provenientes del Aprendizaje de Maquinas (Machine Learning), tales como las Redes Neuronales, Modelos Ocultos de Markov y Redes Bayesianas, sobre una muestra de proteínas globulares no homologas, pertenecientes a la clasificación Superfamilia Beta-estructural del sistema SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/), con estructura tridimensional determinada experimentalmente.
METODOLOGÍA Tipo de investigación:
La investigación es enfoque cuantitativo de alcance explicativo, no experimental, de diseño correlacional.

Universo de investigación:
Proteínas globulares Procariotas y Eucariotas, que contengan el motivo estructural Lamina Beta, existentes en la naturaleza.

Tamaño y características de la muestra:
Se empleara para el entrenamiento del modelo de inferencia estadística, una muestra con un mínimo de 20 secuencias de proteínas globulares no homologas, pertenecientes a la clasificación Superfamilia Beta-estructural del sistema SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/), con estructura tridimensional determinada experimentalmente, con longitudes de secuencia entre 60 y 500 aminoácidos

Para la validación del modelo de inferencia estadística entrenado se empleara una muestra de mínimo 50 secuencias de proteínas globulares no homologas, tanto entre si, como con la muestra de entrenamiento, pertenecientes a la clasificación Superfamilia Beta-estructural del sistema SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/), con estructura tridimensional determinada experimentalmente, con longitudes de secuencia entre 60 y 500 aminoácidos.

Técnicas de recolección y procesamiento de la información:
La recolección de las secuencias de proteínas de las muestras de entrenamiento y validación, serán obtenidas empleando los servicios de consulta de los sitios SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/), Protein Data Bank (www.pdb.org/) y SwissProt (www.ebi.ac.uk/uniprot/). La verificación de homología de las secuencias será verificada mediante el sistema PSI-BLAST (www.ebi.ac.uk/Tools/psiblast/) y otros métodos detección de homología remota como HMMER.

Se pre-procesaran las muestras de entrenamiento y validación, anexando la anotación de su estructura secundaria, los motivos estructurales Laminas Beta, presentes en las mismas y características topológicas adicionales derivadas de su estructura tridimensional experimental.

Las secuencias y sus correspondientes anotaciones del conjunto de entrenamiento, serán procesadas mediante un modelo de inferencia estadística, diseñado específicamente para modelar la dinámica de plegamiento probable de las secuencias, empleando el principio de máxima verosimilitud como función objetivo. Lo anterior con el objetivo de capturar las relaciones subyacentes entre la secuencia, la secuencia de plegamiento y la formación de las láminas beta.

Con base en el resultado del entrenamiento del modelo de inferencia estadística, se procederá a realizar una validación del mismo, mediante su empleo en la predicción de Laminas Beta sobre la muestra de validación. Finalmente los resultados de predicción serán evaluados y analizados estadísticamente y comparados frente a los resultados publicados provenientes de otros métodos de predicción de Laminas Beta en la bibliografía.
RESULTADOS ESPERADOS Se espera que el modelo de inferencia estadística diseñado y las pruebas sobre el mismo empleando el conjunto de validación, provean soporte estadístico amplio y suficiente para evaluar las hipótesis a continuación, relacionadas con la dinámica del plegamiento de las proteínas globulares y sus implicaciones en la formación de láminas beta.

Hipótesis principal:
Existe una relación fuerte entre el orden en que se crean los plegamientos de la cadena péptida y la formación de las Laminas Beta en las proteínas globulares.

Hipótesis nula:
No existe una relación entre el orden en que se crean los plegamientos de la cadena péptida y la formación de las Laminas Beta en las proteínas globulares.

Hipótesis complementaria:
El orden de creación de los plegamientos en la cadena péptida se encuentra codificado de forma local.
Existe un conjunto pliegues que son determinantes en en la conformación de las Laminas Beta de alineación distante y múltiple.


Adicionalmente se espera que las predicciones de Laminas-Beta, generados por el modelo de inferencia desarrollado, sean de mayor precisión en comparación a otros métodos de predicción disponibles, particularmente en la identificación de Laminas Beta distantes y de alineación múltiple.
DURACIÓN DEL PROYECTO
POSIBLES FUENTES DE FINANCIACIÓN EXTERNA
REVISIÓN BIBLIOGRÁFICA Las laminas beta son estructuras Super-secundarias o motivos estructurales, muy comunes en las proteínas. Estas se caracterizan principalmente por la alineación paralela o anti paralela, de uno o más segmentos de la cadena poli péptida, por medio de uniones de hidrogeno (hidrogeno-hidrogeno y hidrogeno-oxigeno) entre los átomos de segmentos adyacentes (Branden et al, 1991).

Estos segmentos conocidos como Hilos beta (Beta-Strands), hacen parte de los tres tipos de estructuras secundarias existentes en las proteínas (siendo los Loops y las Alfa-Helices los otros dos), caracterizados por exhibir ángulos de rotación (phi) entre (-150º, -60º) y (psi) entre (90º y 180º) para los carbones alfa (Ramachandran et al, 1968), presentar longitudes típicas entre 5 y 10 residuos y su estructura no es favorable energéticamente, motivo por el cual su alineación con otros Hilos Beta es necesaria, para dar estabilidad a la proteína en su estado nativo (termodinámicamente estable) (White et al, 1999).

Diversos investigadores, han formulado diferentes modelos que buscan representar leyes en la formación de las Láminas Beta. Estos modelos han empleado en aspectos tales como: características estadísticas locales de las Laminas Beta (Asogawa, 1997., Ruczinski, et al, 2002., Koh, et al, 2006), propiedades físico-químicas como la favorabilidad energética (Cheng, et al, 2005), homología estructural y de secuencia (Bystroff, et al, 2000), configuraciones posibles de enlaces de hidrogeno de los residuos (Cheng, et al, 2005,. Jeong, et al, 2007., Cheng, et al, 2007., Randall, et al, 2009., Kumar, et al 2010) y configuraciones topológicas entre los Hilos Beta (Beta-Strands) (Aydin, et al, 2008).

Los anteriores corresponden a enfoques estáticos, en el sentido que no modelan la posible historia de plegamiento (etapas del plegamiento) en la cadena poli péptida, hasta alcanzar su estado nativo. Esta historia tendría una influencia determinante en la formación de dos clases de las Laminas Beta, las distantes y las múltiples.

Las Laminas Beta distantes, cuentan con una estructura formada por Hilos Beta adyacentes, los cuales presentan un gap de separación entre sus segmentos de diez o más aminoácidos. Este gap frecuentemente contiene una o más estructuras secundarias (por ejemplo Alfa-Hélices), pertenecientes a motivos estructurales diferentes en la proteína.

Las Laminas Beta múltiples por su parte, cuentan con una estructura formada por la alineación de consecutiva de múltiples Hilos Beta adyacentes (3 o más), los cuales pueden ser consecutivos (gap menor a diez) o distantes.

La predicción de las clases anteriores de Laminas Beta, ha presentado grandes inconvenientes por la naturaleza particularmente compleja de su topología (Ruczinski et al, 2002., Bradley et al, 2006., Cheng et al, 2007).

REFERENCIAS BIBLIOGRAFICAS:

Asogawa, Minoru., Beta-sheet prediction using inter-strand residue pairs and refinement with hopfield neural network. in Proc. Int. Conf. Intell. Syst. Mol. Biol., vol. 5, (1997), pp. 48–51.

Aydin, Zafer., Altunbasak, Yucel., Erdogan, Hakan. Bayesian Models and Algorithms for Protein Beta-Sheet Prediction. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 30 Dec. 2008. IEEE computer Society Digital Library.

Baldi, P., Brunak, S. (2001) Bioinformatics: the machine learning approach. MIT Press, Boston.

Bradley, P., & Baker, D. (2006). Improved beta-protein structure prediction by multilevel optimization of nonlocal strand pairings and local backbone conformation. Proteins: Structure, Function, and Bioinformatics, 65(4), 922–929.

Branden, C., Tooze, J., & others. (1991). Introduction to protein structure. Garland Publ. New York.

Bystroff, Christopher., Thorsson Vesteinn., Baker, David. HMMSTR: a hidden Markov model for local sequence-structure correlations in proteins. J Mol Biol 301:173–190. (2000)

Cheng J, Baldi P. Improved residue contact prediction using support vector machines and a large feature set. BMC Bioinformatics (2007) 8:113

Cheng J, Baldi P. Three-stage prediction of protein ß-sheets by neural networks, alignments and graph algorithms. (2005) Bioinformatics, 21 (1), pp. i75-i84.

Jeong, Jieun., Berman1, Piotr., Przytycka, Teresa. Workshop on Algorithms for Bioinformatics. Vol. 4645.
WABI 2007, Lecture Notes in Bioinformatics 4645; (2007); pp. 38–49.

Koh, Eunhee.,Kim, Taehyo., Cho, Hyun-soo. Mean curvature as a major determinant of ß-sheet propensity. (2006) Bioinformatics, 22 (3), pp. 297-302.

Kumar, Anoop., Cowen, Lenore. Recognition of beta-structural motifs using hidden Markov models trained with simulated evolution. Bioinformatics, 15 June 2010; 26: i287 - i293.

Lesk., Arthur. Introduction to Bioinformatics. University of Cambridge. (2002) New York., Oxford University Press Inc.

Randall, Arlo., Cheng, Jianlin., Sweredoski, Michael., Baldi, Pierre. TMBpro: secondary structure, b contact and tertiary structure prediction of transmembrane b-barrel proteins. (2009) Bioinformatics, 24 (4), pp. 513-520.

Ramachandran, G. N. (1968). Conformation of polypeptides and proteins. Adv. Protein Chem, 23(283), 438.

Ruczinski, Ingo.,Kooperberg, Charles., Bonneau, Richard., Baker, David. Distributions of Beta Sheets in Proteins With Application to Structure Prediction. (2002) PROTEINS: Structure, Function, and Genetics. 48:85–97

White, S. H., & Wimley, W. C. (1999). Membrane protein folding and stability: physical principles. Annual review of biophysics and biomolecular structure, 28(1), 319–365.
ENTREGABLES
CRONOGRAMA
TIPO DESCRIPCIÓN F.INICIO F.FINAL
Actividad Revisión del Estado del Arte. 01/06/2011 18/10/2011
Entregable Articulo de revisión. 01/06/2011 18/10/2011
Actividad Análisis de métodos de inferencia estadística y modelos de prediccion. 19/10/2011 15/11/2011
Actividad Diseño del método de predicción por inferencia estadística 16/11/2011 30/11/2011
Actividad Implementación y pruebas al software (método de predicción). 01/12/2011 23/12/2011
Actividad Obtención y procesamiento de muestras de entrenamiento y validación. 24/12/2011 06/01/2012
Actividad Entrenamiento del método de predicción. 07/01/2012 20/01/2012
Actividad Pruebas y análisis comparativo del método de predicción. 21/01/2012 04/02/2012
Entregable Registro de software (método de predicción) 05/02/2012 30/04/2012
Seleccione...
PEDIDO DE BIBLIOGRAFÍA
AUTOR TÍTULO EDITORIAL
Carl Branden, John Tooze Introduction to Protein Structure (ISBN 978-0815323051) Garland Publishing Inc., New York, 1999
ANEXOS