Recuperación de información y conocimiento lingüístico: el buscador inteligente
por
Antonio S. Valderrábanos - Bitext
25/06/2004, 08:31 GMT+1
Los avances experimentados en los últimos años en la tecnología
para la gestión de contenidos, así como en la gestión del
conocimiento, han tenido un impacto determinante en los hábitos y prácticas
del mundo empresarial. Los modos de crear, estructurar y acceder a la información
corporativa han cambiado radicalmente.
Sin embargo, estas tecnologías siguen tratando la información
textual (ya la consideremos contenido o conocimiento) de forma mecánica,
de la misma forma que tradicionalmente se ha tratado, por ejemplo, la información
numérica.
Esta situación se ha sustentado, en gran medida, en el hecho de que
en la interacción hombre-máquina ha sido el hombre quien se ha
adaptado al lenguaje de la máquina (como sucede, por ejemplo, en aplicaciones
como la gestión de clientes o de almacenes).
Sin embargo, esto está cambiando. Las cantidades masivas de información
textual a las que tenemos acceso en la actualidad (jurisprudencia, legislación,
informes de bolsa, revistas especializadas, etc.), y su valor para la gestión
de la empresa, han dado lugar al uso generalizado de indexadores y buscadores
en los que la interacción hombre-máquina empieza a inclinarse
hacia el lado del hombre. Por ejemplo, existe una tendencia
desde hace algún tiempo a desarrollar, con éxito desigual, aplicaciones
que permitan consultar a bases de datos (textuales o no) en lenguaje natural.
}
else{// Mostramos el contenido de la noticia / artículo
echo $Articulo;
}?>
La gestión de bases de datos textuales: el truncamiento
En palabras de A. Smeaton, uno de los expertos más reconocidos en el
campo de la investigación sobre buscadores, "Con mucho, el problema
que más complica las tareas de la recuperación de información
es el hecho de que estamos tratando con lenguaje natural".
El problema que el lenguaje natural plantea para cualquier aplicación
informática estriba en que una misma idea puede expresarse de
muy diferentes maneras (lo que definimos como "variación
lingüística"). Así, cuando un usuario busca documentos
relacionados con una idea concreta (por ejemplo, "fusiones entre empresas"),
se enfrenta con el problema de que, para realizar la consulta, debe elegir una
de entre todas sus posibles formulaciones. Sin embargo, en el conjunto de textos
en los que busca puede aparecer cualquiera de estas formulaciones ("las
empresas se fusionaron", "se produjo una fusión entre las
dos empresas", "ambas empresas se fusionaron", etcétera).
Como consecuencia, el usuario se ve obligado a realizar diferentes variaciones
de la misma consulta, lo que implica pérdida de productividad
y falta de eficiencia, ya que es prácticamente imposible asegurar que
se han usado todas las posibles variantes.
La respuesta más frecuente que el mundo de la recuperación de
información ha dado a estos problemas ha sido la utilización de
algoritmos de truncamiento (en inglés, stemming) que popularmente
conocemos como comodines (como "*" o "?"). Estos algoritmos de truncamiento se utilizan
normalmente para gestionar de manera automática las
diferentes formas de una palabra. Así, un algoritmo de este tipo extrae
los pseudo-sufijos, las terminaciones de una palabra, y crea una pseudo-raíz
de la misma. En la práctica, si queremos encontrar documentos realcionados
con "pago" o "pagar", deberíamos usar "pag*" en nuestra consulta; sin embargo, esta consulta podría devolvernos documentos
con palabras como "pagoda" o "pagano", lo que se conoce
como "ruido".
El origen de esta deficiencia está en que las técnicas de truncamiento
se basan en reglas mecánicas, no en información lingüística
(morfológica, tanto derivativa como flexiva). Porter, autor de uno de
los algoritmos de truncamiento más conocidos, ya advierte de las desventajas
que conlleva esta aproximación.
La solución
El conocimiento lingüístico, aliado con la informática,
permite resolver los problemas que genera al usuario la variación lingüística
y evita los problemas que produce el truncamiento (el ruido). Si dotamos a un
buscador de conocimiento lingüístico, tendremos garantizado que
recuperaremos todos los documentos relevantes para nuestra consulta, independientemente
de cómo la formulemos ("fusiones y empresas", "empresas
fusionadas", etc.). Además, obtendremos estas ventajas evitando
el ruido que causa el truncamiento, es decir, no nos encontraremos con "pagoda"
si buscamos "pagos".
Actualmente, esta tecnología está ya disponible en el mercado
y poco a poco la iremos viendo aparecer en distintos entornos. Pero sobre esto
hablaremos en nuestro próximo artículo, que se centrará
en casos prácticos.