BAQUIA

Rastreadores de contenido, un arma contra la sobrecarga de información

¿Cómo puede usted extraer toda la información que afecta a su compañía en medio del inmenso volumen de datos que existe disperso en Internet? Los rastreadores de contenido, (compañías de ingeniería/gestión de contenido) parecen tener la respuesta. Utilizan tecnologías que indagan en la Red para obtener, analizar y ordenar datos relevantes.

La enorme avalancha de información que se desplaza por Internet …

En la Economía del Conocimiento —y para los trabajadores del conocimiento— la sobrecarga de información (en inglés \”information overload\”) es uno de los problemas más acuciantes. En Internet hay 3.000 millones de páginas con información. [Esta cifra no incluye el contenido de las Intranets corporativas]. Este enorme volumen de contenido crece a un ritmo de más de 7 millones de páginas al día. La consultora estadounidense IDC estima que a finales de 2003 el número de páginas superará los 13.000 millones.

Según la Computer Desktop Encyclopedia, \”el volumen de información que atravesaba un cerebro durante una semana al final del siglo XX es mayor que el que una persona recibía durante una vida entera al principio del mismo siglo\”.

¿Cómo digerir este inmenso volumen de información? ¿Cómo separar lo relevante de lo que no lo es? ¿Cómo acceder a la información importante en el momento adecuado y no cuando ya es tarde?

…exige filtros tecnológicos para frenarla y dotarla de relevancia y significado…

Para John Blossom, analista de la consultora estadounidense Outsell, \”la información no es contenido hasta que se haya creado un entorno útil para su consumo por una audiencia concreta situada en un contexto informativo específico\”.

El desafío es especialmente importante para los departamentos de estrategia e inteligencia competitiva de las grandes empresas. La respuesta está en tecnologías que permiten rastrear la Red buscando y clasificando la información (\”datamining\”). Se trata de tecnologías que permiten extraer y organizar datos provenientes de unidades de contenido sin estructurar como lo son las páginas web u otros documentos de texto.

… y ha hecho emerger al sector a todo un sector de \”ingeniería de contenido\”

En la jerga del sector las empresas que proveen estos servicios se denominan de \”ingeniería de contenido\” (en inglés \”content engineering\”) y/o de gestión de contenido (\”content management\”). Entre estas compañías están las estadounidenses Connotate y Eliyon. La mayoría de estas empresas utilizan tecnologías de procesamiento de la información basadas en lenguajes naturales. Algunos \’infomediarios\’ o brokers de contenido, que en su mayor parte reparten información a granel, también ofrecen servicios más especializados de \”rastreo de contenido\” para su integración en las intranet de empresas. Uno de ellos es Newsedge.

Eliyon, fundada en 1999, es una compañía estadounidense que aplica estas tecnologías para obtener un contenido específico para un sector (recursos humanos, búsqueda de ejecutivos). Según afirma en su website, \”el software de Eliyon lee constantemente Internet, las 24 horas del día, siete días a la semana, recopilando información sobre personas y compañías para crear una enorme base de datos\”. La base de datos consta de 9 millones de biografías de personas que forman parte de la fuerza laboral estadounidense y 620.000 compañías. La tecnología de Elyon monitorea prácticamente todo el contenido que se publica en Internet para determinar si es relevante para sus clientes. Entre el contenido que más supervisa están artículos de prensa, comunicado de prensa, sitios web de empresas y documentos archivados en la comisión bursátil SEC (Securities and Exchange Commission)\”. Con los resultados de estas búsquedas crea fichas sobre ejecutivos/trabajadores (nombre, título, información de la compañía, historia laboral y educación), y las entrelaza entre sí combinando menciones múltiples de manera que el usuario acceda a una única ficha..

No todos los rastreadores de contenido tienen en la tecnología su principal componente. Algunas compañías, como la finlandesa Esmerk, siguen teniendo en la selección de contenido por parte de humanos (analistas) un factor importantísimo, además del tecnológico (software de taxonomía).

Alacra, en el subsector de contenido de finanzas, y atomz.com, que ofrece servicios de integración de contenido en motores de búsqueda, son otros ejemplos de compañías del sector de ingeniería y gestión de contenido.

Un nuevo desafío: obtener información relevante a través de aplicaciones alternativas a Internet

Los rastreadores de contenido se han encontrado con un problema. Saben que los datos en HTML (Hypertext Markup Language), en el que está representado la gran mayoría del contenido de la Red, no puede ser pasada a otras aplicaciones de provisión de contenido como, por ejemplo el teléfono móvil. Esta propiedad sólo la tiene el contenido representado en XML (eXtensible Markup Language), que sí puede ser transferido a otras aplicaciones.

A finales de 2002 habrá más de 1.000 millones de usuarios de telefonía móvil en el mundo, más del doble del número de usuarios de ordenadores personales. El problema es que sólo un 1% de las 3.000 millones de páginas están representadas en XML. La mayoría de los proveedores de contenido no pueden reestructurar sus páginas web y su contenido hacia el XML sin incurrir en altos costes de reconversión. Algunos de los rastreadores de contenido como Connotate, aportan valor extrayendo contenido en XML de las miles de millones de páginas escritas en HTML.

Por su parte, Factiva, una compañía que provee información financiera participada al 50% por Reuters y Dow Jones, lanzó el mes pasado un API (Applications Programming Interface; en lo que se basan lo programadores para hacer compatible un programa con el sistema operativo) llamado \”Communications Management Tool\”, con tecnología XML, que permite al equipo informático de sus clientes integrar el contenido y la funcionalidad de los servicios de Factiva en sus aplicaciones de negocios. El XML facilita una mejor integración del contenido de Factiva en los distintos \”entornos informativos\” de los que disponen sus clientes.


Compartir en :


Noticias relacionadas

Recomendamos




Comentarios