Publicado: El sábado 10 junio 2017, a las 09:21
Visto en: Abc
La voz es la próxima pantalla del móvil

Los programas de reconocimiento de voz y asistentes virtuales como Siri, Alexa, Google Assistant y ahora Bixby se vuelven más inteligentes pero siguen presentando limitaciones

Abra los ojos y mire a su alrededor. Los avances tecnológicos han dibujado en las sociedades un ecosistema en donde los aparatos electrónicos quieren ayudar a las personas en algunas tareas diarias. Llegamos a la era del todo-conectado cuyas implicaciones socio-económicas son todavía algo sombrías. Pero hasta ahora, el método en que el ser humano interactuaba y controlaba esos aparatos se había basado en dos elementos, pantallas y texto. Ahora la voz quiere cambiarlo todo. Y tiene como mejor socio a los teléfonos móviles más avanzados.

Desde hace tiempo la industria de la tecnología busca un nuevo método para dar instrucciones a las máquinas. El empleo de la voz empieza a ser una alternativa a seguir. En una primera fase ha llegado al mundo de la telefonía, donde muchos modelos actuales cuentan con asistentes virtuales que reconocen las palabras y actúan en consecuencia. Uno de los últimos en sumarse es Samsung, que recientemente ha presentado su nuevo buque insignia, el Galaxy S8. Entre sus novedades se encuentra un novedoso mayordomo llamado Bixby. Ha sido desarrollado por los creadores de Siri, integrado en productos de Apple. Esta aparición refleja que la batalla por popularizar estos sistemas no ha hecho más que comenzar. El siguiente paso es incorporarlo de una manera más natural en los dispositivos y dotarle de capacidades «inteligentes» que dejen a un lado los comandos de voz convencionales y traten a la persona con un lenguaje natural. De tú a tú.

Pero Bixby, de ambiciosa propuesta, debutará en el nuevo terminal con un catálogo de opciones limitadas, aunque la firma surcoreana aspira a que pronto otros fabricantes y desarrolladores adopten esta nueva forma de interactuar en sus servicios. Un gran paso en comparación con otros rivales es que es capaz de ejecutar instrucciones desde la propia pantalla una vez que el usuario lo invoca, logrando minimizar las interrupciones que se producen cuando se le da una instrucción.

A diferencia de su competencia, se basa en dos pilares, la Inteligencia Artificial (capaz de «aprender» sobre la marcha y mantener auténticas conversaciones con el usuario) y la cámara (al reconocer objetos). Pronunciando las palabras adecuadas una persona puede activar y gestionar algunas de las aplicaciones principales. La voz está integrada en el terminal, de tal forma en que se le puede pedir que seleccione una imagen determinada y la coloque como salvapantalla. Sin embargo, por ahora solo entiende dos idiomas, inglés y español internacional.

El reto tecnológico en la actualidad es que estos mayordomos digitales sean más eficientes, aprendan a captar el tono de las palabras, sean más precisos en el reconocimiento y hasta comprendan del comportamiento humano al tiempo que formen parte de la fauna electrónica que nos rodea. La comunidad de usuarios es una de las claves para acelerar esa transición hasta alcanzar que las máquinas y aparatos electrónicos interpreten el lenguaje natural y sean más útiles al humano.

Convivencia con el texto

Y se han dado pasos importantes. Gran parte proveniente de los superodenadores. Ejemplo es Watson, desarrollado por IBM, y que está basado en computación cognitiva. Intenta emular y superar al cerebro humano. Para ello, se centra en interpretar el lenguaje natural y aprender a medida que opera y registra nueva información. Es decir, a través de un entrenamiento continuado, al igual que AlphaGo, desarrollado por Google.

«Actualmente ya nos comunicamos con dispositivos a través de la voz. Lo que iremos viendo es una evolución en los próximos años para que más y más dispositivos utilicen la voz como la forma de comunicarse. Esto no quiere decir que la forma en la que la actuamos actualmente desaparecerá, sino que las utilizaremos cuando lo necesitemos», señala a este diario Elisa Martín, directora de tecnología de IBM.

Esa idea de «hablarle» a las máquinas y equipos informáticos no es nueva, pero en los últimos años se ha visto un gran interés en la industria de la tecnología de consumo por incorporar en sus productos estos mayordomos digitales capaces de controlar algunas funciones. Siri (Apple), Alexa (Amazon), Assistant (Google) o Cortana (Microsoft) son algunos de los más sonados y al que se le acaba de unir Bixby. Pero todavía tienen muchas limitaciones y sufren fallos habituales. Aún así, el futuro de la voz está ahí.

¿Estamos llegando al punto de madurez para que la voz se imponga sobre la pantalla? «Claramente. Los últimos años los márgenes de error de reconocimiento han bajado. Antes era de un 20%. De cada cien palabras podría equivocarse en veinte palabras. Y había que corregirlo. Ahora estamos en torno al 3%. Si coges el móvil y le dices que te busque algo de manera coloquial, funciona. Eso va a transformar la manera en la que te comunicas con el móvil», apunta Sergio Guadarrama, ingeniero de aprendizaje profundo de Google. Aunque por ahora están disponibles en dispositivos móviles y altavoces inteligentes, los gigantes de la tecnología trabajan para que estos mayordomos digitales estén presentes en infinidad de aparatos que nos rodean, desde neveras, televisores, termostatos o sistemas domóticos.

La voz es la próxima pantalla del móvil

El camino hacia la verdadera edad de oro de la Inteligencia Artificial es complejo. Normalmente, estos sistemas operan a través de una base de datos cargadas previamente, pero los expertos creen que el uso continuado por parte de las personas contribuirá a ser más eficientes en sus comportamiento y ampliarán, con ello, las tareas que son capaces. «Cuando hablamos de aprendizaje informático hablamos de técnicas que permiten a partir de ejemplos intentar extraer cómo se han producido, es decir, cuál es el comportamiento del humano que las ha generado. Cuando Google te da una sugerencia de palabras lo que hace es aunar comportamientos similares de otras personas para extraer una generalización. Del hecho de extraer el comportamiento de muchas personas se pueden utilizar escrituras en un futuro y dar mejores respuestas», opina por su parte José Manuel López Molina, catedrático del departamento de Informática de la universidad Carlos III de Madrid. Pero estamos en la prehistoria digital.