BAQUIA

Ydilo: hablad, hablad, malditos

Un ciudadano camina con prisas por la calle. Tiene una cita pero no sabe muy bien dónde llevar a su acompañante. Saca su teléfono móvil del bolsillo, marca el número de teléfono 902 888 902 (Ydilo) y, como sabe de la afición de su amiga por la comida japonesa, pregunta por los restaurantes orientales del barrio. Una voz en apariencia humana le enumera los distintos locales, describiéndole la especialidad de cada uno. Tras unos segundos de duda, el apurado galán escoge uno de ellos y el sistema le transfiere la llamada para que pueda realizar la reserva. Todo en cuestión de una o dos calles…

Para dar respuesta a estas y otras muchas necesidades es para lo que nacieron los portales de voz, compañías que dan servicios unificados a través de un número de teléfono. Ydilo, el principal portal de voz español, nace a comienzos de 2001 en el seno de People Communications, una empresa que desarrolla tecnologías de reconocimiento de voz y que fue fundada dos años antes. Pero el interés de los responsables de People Communications por estas tecnologías se remonta a una época anterior, cuando el desarrollo de los interfaces hombre máquina comenzaba a cobrar cada vez mayor importancia en EEUU.

De capital mayoritariamente español (un 52% está en manos de Mercapital Sociedad Financiera, BBVA, Ericsson Innova y Dinamia; el resto, en poder de los socios fundadores), People Communications demuestra que los portales de voz como Ydilo pueden jugar un papel importante entre otros canales de comunicación como la Internet y los operadores de carne y hueso. Estas y otras tecnologías de reconocimiento de voz van acercando al hombre a un viejo sueño de los grandes autores de la ciencia-ficción: el diálogo con las máquinas.

¿Para qué teclear cuando se puede hablar?

Ydilo se construye sobre la tecnología base proporcionada por Nuance, un fabricante y proveedor de servicios de voz estadounidense, gracias a un acuerdo de licenciamiento. Esta tecnología fue modificada para adaptarla al lenguaje español y permitir el desarrollo sencillo de aplicaciones. Este entorno tecnológico flexible (en Java) se denomina PeopleBase, y es la clave del negocio de Ydilo, pues es el que permite a la compañía ofrecer distintos servicios personalizables a las operadoras de telefonía.

Los portales de voz aglutinan alrededor de un único número de teléfono un variado conjunto de servicios de información y, en un futuro inmediato como en el caso de Ydilo (que pronto empezará a vender entradas de cine), servicios transaccionales. Pero eso sólo es el comienzo. El paso siguiente consistirá en aunar los portales de voz con la obtención de datos, de tal forma que con GPRS y sobre todo con UMTS los usuarios sean capaces de obtener información por voz contra un terminal, es decir, introducir y obtener datos mediante voz y no con un teclado. Como señala Domingo Montesdeoca, consejero delegado de Ydilo, esto sucederá cuando el ancho de banda sea el adecuado. Así, se podrá por ejemplo solicitar mediante la voz la información bursátil sobre un determinado valor y también su gráfico histórico.

Para Domingo, la tecnología de la compañía española es equiparable a las de Tellme Networks y BeVocal, los dos principales proveedores de servicios de voz estadounidenses. Únicamente en términos de mercado, matiza Domingo, y dado que Ydilo comenzó su andadura con seis meses de retraso sobre esas dos compañías, se produce alguna desventaja.

El modelo de negocio de Ydilo, pese al portal de voz, no se articula en torno a los usuarios finales, sino que lo hace alrededor de las operadoras de telefonía. Ydilo ofrece un núcleo tecnológico sobre el cual las compañías pueden desarrollar servicios en un tiempo reducido. Es lo que en Estados Unidos hace BeVocal con compañías como Sprint, Qwest o AT&T Wireless. A las empresas de telecomunicaciones les resulta muy atractivo (reducen sus costes e incluso aumentan sus ingresos) y además no han de arriesgar en un desarrollo incierto. Ydilo como portal es, por tanto, una carta de presentación que enseña lo que la compañía es capaz de hacer. Como afirma su consejero delegado, \”Ydilo es un voice ASP\”.

Además, y para aquellos mercados en los que no ofrezca sus servicios de forma directa, la compañía, de la mano de Ericsson, uno de sus accionistas, licenciará su tecnología a terceros. Apenas un mes después del comienzo de la comercialización de sus productos, los responsables de Ydilo se muestran optimistas.

Su objetivo declarado es realizar cerca de 100.000 llamadas diarias para finales de año, incluyendo las realizadas por todas las operadoras que utilicen sus servicios. A modo de referencia, sólo los clientes de Fidelity Investments, uno de los grandes grupos financieros de EEUU, realizan más de 250.000 llamadas informativas y transaccionales diarias por sistemas automáticos.

Aunque Ydilo todavía no puede celebrar con champán la consecución de sus objetivos, la aceptación entre el público parece ser grande, como muestran los elevados ratios de conversión de usuarios. Entre el 40% y 50% de las personas que lo prueban por primera vez se convierten en habituales del servicio, según los estudios preliminares de la compañía. Ydilo recibe actualmente 2.000 llamadas diarias y cuenta con decenas de miles de personas en su base de datos de usuarios.

Bueno, bonito y barato…

El boca a oreja se erige así en la mejor política de marketing. Ydilo, como muchas empresas de tecnología en una época de mayor cautela financiera, está más preocupada por desarrollar una infraestructura y tecnología robustas que en gastar millones en marketing y publicidad. La estrategia le está dando sus frutos y el coste de adquisición por cliente se mantiene en un nivel razonable. Como afirma Domingo, ellos no quieren (ni pueden) competir con unas operadoras que ya tienen al cliente en nómina. A estas compañías no les cuesta nada notificarles a sus clientes la existencia de un nuevo servicio; a Ydilo, sí.

Su mejor tarjeta de visita es por tanto su propio servicio. Este es útil (se puede acceder a él desde cualquier teléfono), sencillo (no hay barreras de conocimiento, no es necesario aprender complejos comandos y reconoce cualquier tipo de voz), barato y diferente de otros a los que puede tener acceso los particulares.

El coste por llamada para el cliente particular (a un teléfono 902 desde un fijo) es de un máximo (con I.V.A incluido) de 15 pesetas por minuto. Es decir, 30 pesetas menos de lo que cobra Telefónica por una llamada a su servicio de información desde un domicilio privado, teniendo en cuenta que Ydilo permite hacer consultas múltiples y redirigir posteriormente la llamada al teléfono que el usuario elija (un taxi, restaurante, etc.)

Ydilo cobra a las operadoras un coste por llamada con un mínimo, que cubre los gastos de infraestructura. Las compañías de telecomunicaciones pueden luego cargar la tarifa que deseen o tengan establecida en sus políticas comerciales.

El futuro está a la vuelta de la esquina

El perfeccionamiento de las tecnologías de reconocimiento de voz desembocará en el ofrecimiento de servicios atractivos y novedosos. La mayor parte de estas tecnologías todavía están en una fase embrionaria. Hasta ahora, los ratios de comprensión de los programas de reconocimiento han sido muy pobres. Eso no ha frenado sin embargo la evolución y expansión de los servicios. Telecos españolas como Telefónica o Amena tienen servicios de lectura de correo electrónico por voz y Terra, la puntocom hispana de mayor renombre, dispone de su propio portal. En esto imitan a los grandes portales de allende los mares como AOL, que se hizo con Quack.com, una empresa de tecnología de reconocimiento de voz y la base sobre la que construyó su AOL by Phone, Lycos, que adquirió Mobilee Inc. y también dispone de su propio portal o Yahoo!, con un servicio algo más tosco que el de sus competidores. Pero también compañías tradicionales como General Motors, con su servicio de ayuda en el vehículo OnStar, exploran las aplicaciones de los programas de reconocimiento de voz en sus industrias.

Sin embargo, los productos todavía distan de impresionar al usuario. Algunas de las aplicaciones del reconocimiento del habla más útiles son los conversores habla-texto (programas de dictado) y los navegadores de voz, que utilizan el estándar VXML. Su funcionamiento resulta sin embargo complejo y obligan al usuario, en el caso de los navegadores, a aprender muchos comandos como \”back\”, \”go to\”, etc. Es por eso que el sector, como afirma Domingo, camina hacia interfaces hombre-máquina más naturales. El objetivo es hablar con una máquina tal y como lo hacemos con una persona de carne y hueso. Los interfaces más avanzados permitirán obtener todo tipo de cosas: información multimedia, 3-D, gráficos, streaming vídeo, etc.

A este escenario con paradigmas de navegación menos rígidos y más cercanos al diálogo natural es al que pretende llegar Ydilo, que trata de ocupar el vacío dejado en el mercado en español en este campo. Una vez consolidados en España, desembarcarán en Latinoamérica mediante acuerdos con aliados locales.

Su tecnología de reconocimiento del habla y de síntesis de voz intenta ser lo más rigurosa y simple posible. Si el usuario dice \”quiero un fontanero\”, el sistema te transfiere inmediatamente al servicio de \”reparaciones del hogar\”. Ydilo tiene lingüistas y fonetistas que estudian las variantes de los sonidos y confeccionan una gramática de reconocimiento, el lenguaje que la máquina entiende. Los ratios de comprensión para estas gramáticas generadas son superiores al 98%. En cada instante de la aplicación los expertos determinan aquello que es razonable que el usuario pida. La gramática del portal de voz es hoy más extensa que la utilizada por una persona al comunicarse con un navegador de Internet -el individuo, aunque sea poco consciente de ello, tan sólo dispone al navegar de un grupo de comandos ejecutados sobre una gramática acotada.

La rápida evolución de estas tecnologías de reconocimiento de voz en el último año y medio ha permitido impulsar el desarrollo de los servicios transaccionales. Los sistemas de verificación de voz permiten identificar a las personas con un factor de seguridad diez veces superior al de la huella digital. Esto unido a una clave operativa (password) da lugar a transacciones prácticamente seguras. En Estados Unidos, compañías como Home Shopping Network utilizan ya esta tecnología de autenticación en sus transacciones.

En cualquier caso, parece claro que la voz, como interfaz, tiene un éxito asegurado. Su utilización resulta sencilla, cómoda y fácil -no hay que saber leer ni escribir ni poseer ningún tipo de conocimiento informático. Y eso que las tecnologías de reconocimiento, todavía con limitaciones, se enfrentan a un competidor fenomenal, como aseguran personajes de la talla de Bill Gates: la voz humana. Pese a ello, su fiabilidad va creciendo a pasos agigantados. Ahora sólo falta que los usuarios \”hablen\” y sean conscientes de ello.


Compartir en :


Noticias relacionadas

Recomendamos




Comentarios