miércoles, 24 de abril de 2013

Posted: 24 Apr 2013 03:40 AM PDT
Referencia: Kurzweilai.net, 23 de abril 2013

Mantenerse al día con la literatura científica actual es una tarea de gigantes, teniendo en cuenta que cada día se publican cientos de miles de documentos. Puestos a ello, los investigadores de la Universidad Estatal de Carolina del Norte han desarrollado un programa informático con capacidad de evaluar y clasificar los artículos científicos de campo.

Los investigadores utilizan un algoritmo de minería de texto que dé prioridad a los trabajos de investigación para leer e incluir en su base de datos comparativa toxicogenómica (CTD), una base de datos pública mantenida y codificada de forma manual proveniente de los datos de la literatura científica, y que describe cómo los productos químicos ambientales interactúan con los genes que afectan a la salud humana.

"Desde 1926, se han publicado sobre la toxicidad de metales pesados ​​más de 33.000 artículos científicos", explica el Dr. Allan Peter Davis, gestor del proyecto de bioconservación CTD en la estatal de Carolina del Norte, que trabajó en el proyecto y es co-autor principal de un artículo sobre este trabajo. "Simplemente no podemos leer y codificarlo todo. Y, con la ayuda de este nuevo algoritmo, ya no tenemos que hacerlo."

Para ayudar a seleccionar los artículos más relevantes para su inclusión en el CTD, Thomas Wiegers, investigador bioinformático de la NC State y otro co-autor principal del informe, desarrollaron un sofisticado algoritmo como parte de un proceso de minería de textos. La aplicación evalúa el texto entre miles de trabajos y asigna una puntuación de relevancia a cada documento. "Esta clasificación al conjunto de artículos ayuda a separar el grano de la paja, por así decirlo," dice Wiegers.

Pero, ¿en qué medida un algoritmo puede determinar los mejores trabajos? Para probar esto, los investigadores de extrajeron texto de 15.000 artículos y enviaron una muestra representativa a su equipo de bioconservadores para leer manualmente y evaluarlos por sí mismos, sin saber nada de la puntuación asignada. "Los resultados fueron impresionantes", comenta Davis. Los bioconservadores estuvieron de acuerdo con el algoritmo en un 85 por ciento de las veces respecto a los documentos más puntuados.

Utilizar el algoritmo para clasificar documentos permitió a los bioconservadores centrarse en los trabajos más relevantes, aumentando la productividad en un 27 por ciento y en contenidos novedosos en un 100 por ciento. "Es un tremendo paso para ahorrar tiempo", explica Davis. "Con esto podemos distribuir nuestros recursos de manera mucho más efectiva haciendo que el equipo se centre en los documentos más informativos."

Siempre hay valores atípicos en este tipo de experimentos: puede ocurrir que el algoritmo asigne una puntuación muy alta a un artículo que el bioconservador humano descarte rápidamente como irrelevante. El equipo que analizó los valores extremos a menudo fue capaz de ver un patrón en el por qué el algoritmo identificaba erróneamente un determinado documento como importante. "Ahora podemos volver atrás y modificar el algoritmo para dar cuenta de eso y afinar el sistema", dice Wiegers.

"No estamos aún en ese punto en que un equipo pueda leer y extraer todos los datos relevantes por sí mismo", concluye Davis, "pero si con este proceso de minería de texto nos dirigirnos hacia los artículos más informativos es un gran primer paso. "

Este trabajo fue apoyado por el Instituto Nacional de Ciencias de Salud Ambiental.


- Imagen: CTD minería de texto, crédito:. Allan Peter Davis et al / PLoS ONE
- Referencias: Allan Peter Davis et al., Text Mining Effectively Scores and Ranks the Literature for Improving Chemical-Gene-Disease Curation at the Comparative Toxicogenomics Database, PLoS ONE, 2013, DOI: 10.1371/journal.pone.0058201 (open access).

Fuente: Pedro Donaire. Bitnavegantes.