Herramientas Personales
Usted está aquí: Inicio Agenda Defensa Tesis Licenciatura Leandro Radusky

Defensa Tesis Licenciatura Leandro Radusky

— archivado en:

Título: Búsqueda de motivos funcionales en proteínas mediante una heurística Greedy utilizando la Teoría de la Información Molecular. Director: Ignacio Enrique Sánchez (QB, FCEN, UBA)

Qué
  • Tesis de Licenciatura
Cuándo 11/07/2011
de 03:00 pm a 04:00 pm
Dónde Aula E24
Agregar evento al calendario vCal
iCal
  • Título: Búsqueda de motivos funcionales en proteínas mediante una heurística Greedy utilizando la Teoría de la Información Molecular
  • Director: Ignacio Enrique Sánchez (QB, FCEN, UBA)
  • Jurado: Esteban Mocskos (DC), Cristina Marino Buslje (Instituto Leloir)
  • Resumen:

El presente trabajo se propone implementar un algoritmo capaz de identificar y describir de forma cuantitativa el motivo lineal cuya presencia hace posible una interacción entre dos proteínas.

El problema biológico que se pretende abordar es la identificación de motivos lineales de proteínas responsables del establecimiento de interacciones físicas con otras proteínas. En los últimos años, los métodos experimentales de alto rendimiento han permitido la identificación de un gran número de interacciones físicas entre proteínas. Tales métodos proporcionan la identidad de las proteínas interactuantes, pero ningún detalle de las interacciones moleculares que hacen posible esta interacción.

Desde el punto de vista computacional, se conocen las secuencias que forman un conjunto de proteínas interactuantes (las cuales son representadas mediante cadenas de caracteres, cada uno de estos caracteres representando una molécula constitutiva de la proteína, denominada monómero) y se busca el patrón de caracteres con mayor sobrerrepresentación en el conjunto de entrada. Denominamos “motivo lineal” a este patrón.

Consideramos a este patrón o motivo sobrerrepresentado como una característica compartida por las secuencias de caracteres (representando proteínas) de entrada del algoritmo, y por lo tanto candidato a ser la secuencia de monómeros que permiten la interacción de estas proteínas con una misma proteína, denominada “compañero de interacción”.

Se implementa para los motivos lineales una forma de visualización probabilística, la cual permite conocer la certidumbre de encontrar un determinado monómero en una posición particular del motivo.

Multitud de interacciones entre proteínas dependen fuertemente de uno o varios motivos lineales. Los motivos lineales de proteínas consisten en pequeños fragmentos de la secuencia de una proteína, típicamente de entre 5 y 15 monómeros de longitud total.

Trabajos publicados por los grupos de Thomas Schneider y Gary Stormo muestran que la teoría de la información de Shannon puede adaptarse al estudio de las interacciones moleculares entre proteínas y motivos lineales de ADN. El resultado de dicha adaptación se denomina “Teoría de la Información Molecular”.

Esta teoría nos permite puntuar la sobrerrepresentación de un patrón o motivo lineal sobre el conjunto de proteínas que sirven como entrada del algoritmo desarrollado, asignando una “cantidad de información” contenida en cada motivo, calculada en función de la certidumbre de encontrar un determinado monómero en una posición determinada del motivo. Buscamos aquel motivo que maximice la cantidad de información sobre el conjunto de secuencias de entrada.

La combinación de un algoritmo goloso y de la teoría de la información molecular permitió en el pasado identificar y describir de forma cuantitativa el motivo lineal de ADN cuya presencia hace posible una interacción entre una proteína y el ADN genómico.

Computacionalmente, el ADN se representa con un alfabeto de cuatro caracteres, que son un subconjunto de los veinte caracteres con los que representamos a las proteínas.

La hipótesis de trabajo es que las interacciones mediadas por motivos lineales de proteínas y las interacciones mediadas por motivos lineales de ADN son equivalentes desde el punto de vista formal y que, por lo tanto, podemos adaptar el algoritmo mencionado al estudio de motivos lineales de proteínas.

La validación de los resultados es doble: por un lado se contrastan los resultados obtenidos contra una base de datos de motivos ya validados mediante otros métodos aceptados por la comunidad; por otro lado, se hace una comparación del output de nuestro algoritmo con los resultados de un algoritmo de “fuerza bruta” para este mismo problema y para pequeños ejemplos en los que es posible ejecutar este método (de resultados exactos pero impracticable en ejemplos interesantes).

Como caso de estudio, se ejecuta el método para un conjunto de proteínas sobre las que se sabe que cumplen una función biológica determinada, buscando un motivo lineal que defina este comportamiento.