Desde que se desarrolló la escritura hace cuatro mil años en Sumeria, nos hemos dedicado a registrar nuestras actividades con fines utilitarios. Al principio solo registrábamos las actividades comerciales y administrativas, pero conforme se fueron desarrollando las civilizaciones hubo la necesidad de registrar las observaciones acerca del mundo que nos rodea así como el pensamiento de la época. Conforme crecía el número de registros fue necesario organizarlos, catalogarlos y almacenarlos en lugares especializados como las bibliotecas o los archivos para poder acceder a la información de manera rápida y dirigida, ya sea para tomar decisiones o generar nuevo conocimiento. Y esto último ha sido una constante desde hace ya varios siglos, sin embargo es hasta ahora que tenemos cantidades inmensas de datos e información que necesitamos almacenar y organizar, es por ello que me gusta pensar en esta época como la era de los datos. En la actualidad se estima que se generan alrededor de 0.4 zettabytes de información al día, tal vez así como está escrito nos es difícil dimensionar la cantidad de datos, pero pensemos que actualmente una computadora personal tiene 1 tera de capacidad de almacenamiento, pues bien estos 0.4 zettabytes equivalen a llenar 400 millones de esas computadoras cada día y se espera que esa cantidad aumente en un 20% este año. La siguiente pregunta que surge es quién o quiénes están generando esa información, bueno pues alrededor del 50% es responsabilidad de los videos en las diferentes plataformas, ya sea Youtube, Tik Tok, etc., el resto se divide en las diferentes redes sociales, por ejemplo se calcula que se generan alrededor 500 millones de tuits al día en la plataforma X, que se envían 16 millones de textos por minuto en plataformas como Whats App, Telegram, correos etc. Otro de los grandes generadores de datos son algunas disciplinas científicas como la astronomía y astrofísica con la generación de datos especiales, la genómica y las ciencias biológicas con sus tecnologías de alto rendimiento que nos permiten generan grandes cantidades de información de una sola célula y otras disciplinas como climatología y ciencias ambientales así como las áreas de negocios y finanzas, por las transacciones que se llevan a cabo en todo el mundo.
En esta ocasión me quiero centrar específicamente en la información generada en proyectos “omicos”, ya que provienen de experimentos de alto rendimiento que nos permiten analizar miles de moléculas de manera simultánea y la integración de esta información eventualmente nos dará las claves para mejorar la salud e incluso aumentar la longevidad humana, siempre y cuando esa información sea de buena calidad.
Los datos provenientes de experimentos de alto rendimiento son relativamente nuevos, ya que no tiene más de 20 años, por lo que aún a la fecha nos enfrentamos a problemas de estandarización de métodos, es decir, que los datos se obtengan de la misma forma independientemente del país y laboratorio que los obtenga. Uno de los muchos retos que hay que enfrentar es el del almacenamiento. En la actualidad, tenemos 2 opciones, la primera es tener la infraestructura para guardar la información manteniendo la seguridad y privacidad, pero donde se tiene un poco más de control del acceso a la información, y la otra es rentar espacios en la nube, donde las compañías que brindan este servicio se encargan también de mantener la seguridad y privacidad, y que aunque hay cláusula que en principio garantizan la integridad de los datos, no están exentos de riesgos.
Otro de los retos es la distribución de los datos, es decir, la facilidad con la que se puede acceder y/ o descargar esos datos, ya que no es lo mismo que 10 personas entren a un sitio a descargar información, a que lo hagan mil, y aunque las nubes resuelven gran aporte del problema, también es importante. Finalmente, para que los datos puedan tener utilidad hay que analizarlos e interpretarlos, y para ello es necesario desarrollar algoritmos capaces de manejar grandes volúmenes de datos, así como aplicaciones que nos permitan procesar los datos dentro de las nubes. En este sentido, la inteligencia artificial promete ser de gran ayuda no solo para desarrollar programas, sino para desarrollar aplicaciones que faciliten el análisis.
Una vez analizados los datos, deberían ser incorporados a bases de datos que permitan cumplir con los principios FAIR, por sus siglas en inglés, que indican que los datos deben ser: a) localizables, es decir, deben tener suficientes metadatos, así como un identificador único y persistente y deben estar registrados o indexados en un sitio que permita realizar búsquedas b) accesibles, es decir, deben ser legibles por humanos y máquinas, y deben residir en un repositorio confiable c) interoperables, es decir, que los datos deben compartir una estructura común y los metadatos deben utilizar terminologías formales reconocidas para la descripción y d) reutilizables, es decir, deben tener licencias de uso claras, una procedencia trazable y cumplir con los estándares comunitarios relevantes para el dominio.
Y aquí es donde en México tenemos muchas tareas pendientes si queremos convertirnos eventualmente en una sociedad del conocimiento. Necesitamos invertir en infraestructura para organizar y almacenar de manera segura y privada los datos que generan en los diferentes centros de investigación que reciben fondos públicos, es necesario también poner a disposición estos datos para que puedan ser enriquecidos y reutilizados, pero dando el crédito a las personas que colectaron y analizaron previamente los datos para que todos los involucrados reciban un beneficio por compartir la información. Sin una política de estado que fomente la colección estandarizada de datos y su posterior análisis e interpretación, seguiremos extrapolando información generada en otros lugares y perdiendo oportunidades de resolver problemas que nos aquejan de manera particular.
Ligas de interés:
[1]https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002195
[2]https://www.weforum.org/stories/2019/04/how-much-data-is-generated-each-day-cf4bddf29f/