La teoría matemática de la comunicación de Shannon aplicada al secuenciado de ADN

Artículo publicado el 2 de abril de 2012 en The Physics Arxiv Blog

Nadie sabe qué tecnología de secuenciado es más rápida debido a que nunca ha habido una forma justa de comparar las tasas a las que se extrae información del ADN. Hasta ahora.

Uno de los grandes héroes desconocidos de la ciencia del siglo XX es Claude Shannon, ingeniero de los famosos Laboratorios Bell durante su auge en la mitad del siglo XX. La más perdurable contribución a la ciencia por parte de Shannon es su teoría de la información: la idea que apuntala toda la comunicación digital.

En un famoso artículo que data de finales de la década de 1940, Shannon fijó el problema fundamental de la comunicación: reproducir en un punto del espacio un mensaje que se había creado en otro punto. El mensaje se codificaba inicialmente de alguna manera, se transmitía, y luego se decodificaba.

ADN© by www.ruffrootcreative.com


Shannon demostró que un mensaje siempre puede reproducirse en otro punto del espacio con una precisión arbitraria siempre que el ruido esté por debajo de un nivel umbral. Pasó luego a calcular cuánta información podría enviarse de esta forma, una propiedad conocida como capacidad del canal de información.

Las ideas de Shannon se han aplicado ampliamente a todas las formas de transmisión de información con gran éxito. Una vía particularmente interesante ha sido la aplicación de la teoría de la información a la biología – la idea de que la propia vida es la transmisión de información de una generación a la siguiente.

Este tipo de pensamiento revolucionario está en proceso y aún en sus primeras etapas. Queda mucho por llegar.

Hoy revisamos un interesante corolario en el área de la transmisión de información biológica. Abolfazl Motahari y sus colegas de la Universidad de California en Berkeley, usan la aproximación de Shannon para examinar cómo de rápidamente puede extraerse la información del ADN usando el proceso del secuenciado de escopeta.

El problema aquí es determinar la secuencia de nucleótidos (A,G,C y T) en un genoma. Esto requiere tiempo debido a que los genomas tienden a ser largos – por ejemplo, el genoma humano consta de unos 3000 millones de nucleótidos o pares de bases. Secuenciar esta cantidad en serie llevaría una infinidad de tiempo.

La aproximación de escopeta implica cortar el genoma en trozos aleatorios, que constan de entre 100 y 1000 bases, y secuenciarlas en paralelo. La información se vuelve a pegar in silico mediante un algoritmo conocido como de re-ensamblado.

Por supuesto, no hay forma de saber cómo re-ensamblar la información procedente de una única ‘lectura’ del genoma. Por lo que en la aproximación de escopeta, este proceso se repite muchas veces. Dado que cada lectura divide el genoma de una forma distinta, los otros inevitablemente se solapan con segmentos de la ejecución anterior. Estas áreas de solapamiento hacen posible el re-ensamblado de todo el genoma, como un rompecabezas.

Esto tiene el aspecto del problema clásico de la teoría de la información y, efectivamente, distintas personas han pensado en ello de esta forma. Sin embargo, Motahari y compañía van un paso más allá cambiando su enunciado más o menos exactamente a un análogo de la famosa aproximación de Shannon.

Dicen que el problema del secuenciado del genoma es esencialmente la reproducción de un mensaje escrito en el ADN a un formato electrónico digital. Según esta forma de abordarlo, el mensaje original está en el ADN, se codifica para su transmisión mediante el proceso de lectura y luego se decodifica por el algoritmo de re-ensamblado para producir una versión electrónica.

Lo que demuestran es que hay una capacidad del canal que define una tasa máxima para el flujo de información durante el proceso de secuenciado. “Ofrece el número máximo de pares de bases de ADN que pueden resolverse en cada lectura, mediante cualquier algoritmo de ensamblaje, sin importar las limitaciones computacionales”, comentan.

Esto es un resultado significativo para cualquiera interesado en el secuenciado de genomas. Un tema importante es lo rápido que una tecnología concreta de secuenciado puede realizar esta tarea, y si es más rápida o lenta que otras aproximaciones.

Por el momento no es posible calcularlo debido a que muchos de los algoritmos usados para ensamblado están diseñados para tecnologías y aproximaciones específicas a la lectura. Motohari y sus colegas dicen que hay, al menos, 20 algoritmos distintos de re-ensamblado, por ejemplo. “Esto hace difícil comparar distintos algoritmos”, comentan.

Por consiguiente, nadie sabe realmente cuál es más rápido, o incluso cuál tiene el potencial de ser más rápido.

El nuevo trabajo cambia esto. Por primera vez debería ser posible calcular lo cerca que está una tecnología concreta de secuenciado del límite teórico.

Esto podría forzar una limpieza de la madera muerta en esta área y estimular un periodo de innovación rápida en la tecnología del secuenciado.


Artículo de Referencia: arxiv.org/abs/1203.6233: Information Theory of DNA Sequencing
Fecha Original: 2 de abril de 2012
Enlace Original

Comparte:
  • Print
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • Twitter
  • Google Bookmarks
  • Bitacoras.com
  • Identi.ca
  • LinkedIn
  • Meneame
  • Netvibes
  • Orkut
  • PDF
  • Reddit
  • Tumblr
  • Wikio
This page is wiki editable click here to edit this page.

Like This Post? Share It

Comments (4)

  1. gustavocarra

    En fin, la genómica avanza a pasos que te cortan el aliento. Donde antes te secuenciaban un gen, ahora te secuencian el genoma completo por el mismo precio y en menos tiempo.

    Pero en biología eso no es lo importante. La gente está alucinando con este tipo de técnicas pero…

    Tenemos casi la misma biblia desde tiempos históricos, pero las interpretaciones son distintas. La biblia tiene muchísima menos fiabilidad de copia y han salido mormones y monofisitas con el mismo texto. Química, ¿cuántica?, epigenética… En ciencia es imprescindible conocer el mecanismo. Es una exigencia. Hay muchísima ciencia por hacer después de shanon, y demasiada información redundante para despistar a los no espabilados.

    • RoseMary

      Es muy interesante tu comentario.. en este campo la biosemiótica se está abriendo paso a través de aspectos como la interpretación de la información, o los sistemas de signos y códigos presentenes en la biología.

  2. Información Bitacoras.com…

    Valora en Bitacoras.com: Artículo publicado el 2 de abril de 2012 en The Physics Arxiv Blog Nadie sabe qué tecnología de secuenciado es más rápida debido a que nunca ha habido una forma justa de comparar las tasas a las que se extrae informació……

  3. [...] Matemáticas, Tecnologí­a. Puedes seguir cualquier respuesta a esta entrada a través del feed RSS 2.0. Puedes dejar una respuesta, o trackback desde tu propio sitio web. [...]

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *