BAQUIA

Recuperación de información y conocimiento lingüístico: el buscador inteligente

Los avances experimentados en los últimos años en la tecnología para la gestión de contenidos, así como en la gestión del conocimiento, han tenido un impacto determinante en los hábitos y prácticas del mundo empresarial. Los modos de crear, estructurar y acceder a la información corporativa han cambiado radicalmente.

Sin embargo, estas tecnologías siguen tratando la información textual (ya la consideremos contenido o conocimiento) de forma mecánica, de la misma forma que tradicionalmente se ha tratado, por ejemplo, la información numérica.

Esta situación se ha sustentado, en gran medida, en el hecho de que en la interacción hombre-máquina ha sido el hombre quien se ha adaptado al lenguaje de la máquina (como sucede, por ejemplo, en aplicaciones como la gestión de clientes o de almacenes).

Sin embargo, esto está cambiando. Las cantidades masivas de información textual a las que tenemos acceso en la actualidad (jurisprudencia, legislación, informes de bolsa, revistas especializadas, etc.), y su valor para la gestión de la empresa, han dado lugar al uso generalizado de indexadores y buscadores en los que la interacción hombre-máquina empieza a inclinarse hacia el lado del hombre. Por ejemplo, existe una tendencia desde hace algún tiempo a desarrollar, con éxito desigual, aplicaciones que permitan consultar a bases de datos (textuales o no) en lenguaje natural.

La gestión de bases de datos textuales: el truncamiento

En palabras de A. Smeaton, uno de los expertos más reconocidos en el campo de la investigación sobre buscadores, “Con mucho, el problema que más complica las tareas de la recuperación de información es el hecho de que estamos tratando con lenguaje natural”.

El problema que el lenguaje natural plantea para cualquier aplicación informática estriba en que una misma idea puede expresarse de muy diferentes maneras (lo que definimos como “variación lingüística”). Así, cuando un usuario busca documentos relacionados con una idea concreta (por ejemplo, “fusiones entre empresas”), se enfrenta con el problema de que, para realizar la consulta, debe elegir una de entre todas sus posibles formulaciones. Sin embargo, en el conjunto de textos en los que busca puede aparecer cualquiera de estas formulaciones (“las empresas se fusionaron”, “se produjo una fusión entre las dos empresas”, “ambas empresas se fusionaron”, etcétera). Como consecuencia, el usuario se ve obligado a realizar diferentes variaciones de la misma consulta, lo que implica pérdida de productividad y falta de eficiencia, ya que es prácticamente imposible asegurar que se han usado todas las posibles variantes.

La respuesta más frecuente que el mundo de la recuperación de información ha dado a estos problemas ha sido la utilización de algoritmos de truncamiento (en inglés, stemming) que popularmente conocemos como comodines (como “*” o “?”). Estos algoritmos de truncamiento se utilizan normalmente para gestionar de manera automática las diferentes formas de una palabra. Así, un algoritmo de este tipo extrae los pseudo-sufijos, las terminaciones de una palabra, y crea una pseudo-raíz de la misma. En la práctica, si queremos encontrar documentos realcionados con “pago” o “pagar”, deberíamos usar “pag*” en nuestra consulta; sin embargo, esta consulta podría devolvernos documentos con palabras como “pagoda” o “pagano”, lo que se conoce como “ruido“.

El origen de esta deficiencia está en que las técnicas de truncamiento se basan en reglas mecánicas, no en información lingüística (morfológica, tanto derivativa como flexiva). Porter, autor de uno de los algoritmos de truncamiento más conocidos, ya advierte de las desventajas que conlleva esta aproximación.

La solución

El conocimiento lingüístico, aliado con la informática, permite resolver los problemas que genera al usuario la variación lingüística y evita los problemas que produce el truncamiento (el ruido). Si dotamos a un buscador de conocimiento lingüístico, tendremos garantizado que recuperaremos todos los documentos relevantes para nuestra consulta, independientemente de cómo la formulemos (“fusiones y empresas”, “empresas fusionadas”, etc.). Además, obtendremos estas ventajas evitando el ruido que causa el truncamiento, es decir, no nos encontraremos con “pagoda” si buscamos “pagos”.

Actualmente, esta tecnología está ya disponible en el mercado y poco a poco la iremos viendo aparecer en distintos entornos. Pero sobre esto hablaremos en nuestro próximo artículo, que se centrará en casos prácticos.


Compartir en :


Noticias relacionadas

Recomendamos




Comentarios