Yahoo libera un gran dataset para investigaciones académicas

Yahoo anuncia que pondrá a disposición de la comunidad académica un gran dataset para investigaciones que permitan desarrollar sistemas de aprendizaje automático.

Yahoo contribuirá al avance del aprendizaje automático

Los sistemas de aprendizaje automático pueden ser muy útiles, sin embargo requieren de la recolección de una gran cantidad de datos para poder explotar todas sus características, algo a lo que habitualmente los investigadores académicos no suelen tener acceso.

Esto es algo que está por cambiar ya que Yahoo acaba de anunciar que pondrá a disposición de la comunidad académica un gran conjunto de datos (dataset) recogidos a través de su web para ayudar al progreso de sus investigaciones.

Este ‘dataset’ contiene información recogida entre los meses de febrero a mayo del pasado año 2015 y cuenta con un tamaño de 13,5 terabytes (o lo que es lo mismo, la información que llenaría la memoria de 200 iPhone 6, vamos, una barbaridad). La gran mayoría de la información tiene una naturaleza demográfica y registra las interacciones con los servicios de Yahoo de noticias, deportes o finanzas y los asocia a la edad, género y localización de sus usuarios.

La Universidad de Carnegie Mellon ya ha confirmado que utilizará esta base de datos para estudiar un método de automatizar la muestra de contenido personalizado para cada usuario en base a sus búsquedas.

El Director de ciencia personalizada en Yahoo Labs, Suju Rajan se mostraba esperanzado en lo que la liberación de esta información puede suponer, “los datos son vitales para la investigación utilizando aprendizaje automático. Sin embargo, el acceso a estas grandes bases de datos es un privilegio que tradicionalmente ha estado reservado para científicos o investigadores del sector en grandes compañías, alejándolo del mundo académico y esto hace que el progreso se vea ralentizado”.

A pesar de tratarse del mayor conjunto de datos liberado, Yahoo no es la pionera en este tipo de contribuciones. En los meses pasados pudimos ver a Google convertir a código libre su tecnología de aprendizaje automático, Tensorflow.

Según ha confirmado la tecnológica, toda esta información es anónima, sin embargo ha sido concretamente Yahoo la compañía que albergaba las cuentas personales de correo electrónico hackeadas a los altos cargos de departamentos de inteligencia de Estados Unidos por lo que no son pocos los navegantes que ya se muestran escépticos ante esta publicación de datos.


Compartir en :


Noticias relacionadas




Comentarios