Facebook libera el código de su sistema de clasificación de textos

El laboratorio de Investigación en Inteligencia Artificial de Facebook libera en GitHub el código abierto de fastText, su sistema propio clasificación y aprendizaje de palabras.

Facebook-suggested-videos.jpg

Cada día más de un millón de usuarios utilizan Facebook como medio de comunicación con otros usuarios, compartiendo millones mensajes que la plataforma analiza y clasifica gracias a una serie de herramientas tradicionales, como las redes neuronales, pero también y otras de desarrollo propio.

Facebook es un social media pionero y como tal se ha visto en la necesidad de crear sus propias infraestructuras, físicas y de software, para dar respuesta a los retos que la plataforma le va planteando. Así, desde el laboratorio de Investigación en Inteligencia Artificial (FAIR) se desarrolló ‘fastText’, un sistema para clasificar de forma más precisa y rápida el contenido compartido en la red social.

Ahora el código de esta herramienta ha sido liberado en GitHub para que otros desarrolladores puedan implementarlos en sus librerías, incluso funciona para otros idiomas aparte del inglés como el español, alemán, francés o checo.

FastText está basado en el modelo denominado ‘skip-gram’, donde las palabras se representan como bolsas de caracteres ‘n-grams’ (elementos de texto repetidos consecutivamente ‘n’ veces) junto a vectores que representan cada caracter ‘n-gram’. De esta manera el sistema no sólo clasifica sino que también aprende representaciones de vectores de palabras.

“FastText utiliza un clasificador jerárquico, en el cual las diferentes categorías se organizan en forma de árbol, en lugar de en una estructura plana” explican los autores del sistema de Facebook, Armand Joulin, Edouard Grave, Piotr Bojanowski, y Tomas Mikolov en una publicación online que recoge TechCrunch.

Por ejemplo, a principios de este mes, Facebook anunciaba la implementación de un algoritmo anti-clickbait en el newsfeed de la plataforma. Con este tipo de procedimientos, de gran complejidad, desde el laboratorio de IA de la red social han conseguido que su herramienta sea más rápida que los métodos tradicionales de aprendizaje profundo, con los que las máquina ‘aprenden’ a pensar por sí mismas gracias a la programación.

Los de Menlo Park aseguran que su nueva tecnología open source puede ser “entrenada sobre más de un millón de palabras en menos de diez minutos usando un CPU multicore estándar”, es más, “fastText puede clasificar medio millón de frases en más de 300.000 categorías en menos de cinco minutos”.


Compartir en :


Noticias relacionadas




Comentarios