Datanalytics

Minería de datos y el genoma humano

El genoma humano es el mayor de los secuenciados hasta ahora. Los demás corresponden a algunos virus y bacterias, un nemátodo, un pez, la mosca de la fruta y la planta Arabidopsis. Contiene 3,2 gigabases (Gb) correspondientes a un número aproximado de 30.000 genes distribuidos en los 22 pares de cromosomas homólogos y un par de cromosomas heterólogos, el XX en la mujer y el XY en el hombre.

En total, las bases de datos públicas de información genómica contienen alrededor de 100 Gb. Comprimidos ocupan la (todavía) astronómica cifra de 99 GB.

En la era postgenómica iremos conociendo cada vez mejor nuestros genes. Es posible que existan tres categorías diferentes de ellos:

  • aquellos de los cuales sabemos algo o imaginamos lo que pueden hacer;
  • otros de cuya existencia estamos seguros por evidencias indirectas, pero de los que sabemos poco o nada y que se manifiestan a través de fenómenos de interacción recíproca y sobre los que el ambiente, en el sentido más amplio del término, tiene una notable influencia, por ejemplo, el lugar de nacimiento, la dieta, etc.; y, por fin,
  • es posible, aunque no sabemos decir cómo de probable, que exista una tercera categoría de genes de los que no sabemos nada y de los cuales no imaginamos nada. Son aquellos escondidos en ese 97 por ciento de ADN humano que se considera superfluo, es decir, que no sirve para nada.

Sin duda, la minería de datos resultará instrumental para entender el mensaje de la vida encerrado en toda esta cantidad de información.