La sala que observa, escucha y decide

Publicado en Público en marzo de 2009


Es una de las escenas que más nos impactaron de la película “Minority report”. El agente del departamento de precrimen John Anderton, papel interpretado por Tom Cruise, se pone unos guantes negros y empieza a mover sus manos de forma harmónica. Acto seguido, las imágenes de los crímenes del futuro aparecen proyectadas en una pantalla transparente. El agente Anderton las puede deslizar, rebobinar, parar, sin ni siquiera tocar la pantalla, sólo con mover sus manos. Aunque la historia de la película nos traslada al año 2054, la tecnología que posibilita esta interfaz computacional es una realidad en el presente. ¿Pero qué pasaría si le quitáramos los guantes?

Éste es, a grandes rasgos, el objeto de estudio de un grupo de investigadores del departamento de Teoría de la Señal y Comunicaciones de la Universitat Politècnica de Catalunya (UPC), en Barcelona. El proyecto, según explica su responsable, el profesor Josep Ramon Casas, trata de cambiar la forma en que interactuamos con los ordenadores. “La manera tradicional de relacionarnos con el ordenador es a través de un teclado, un ratón y una pantalla: introduces unos códigos con el teclado, te mueves con el ratón y el ordenador reacciona a través de una pantalla”.

Este simple gesto, que muchos llevan interiorizado desde su más tierna infancia, es impensable para las personas mayores, por ejemplo, puesto que requiere un aprendizaje, una adaptación, y por tanto se trata de un entorno muy poco natural de relación. “Lo que pretendemos es cambiar este paradigma, y que sea el sistema el que se adapte a la persona, y no al revés –afirma Casas-. Es decir, si una persona mayor habla y hace gestos, pues que el sistema los interprete”.

Para ello, trabajan, desde hace varios años, en el diseño de una “smart room” o habitación inteligente. Es un espacio de 20 m² organizado como una sala de reuniones, con una mesa central y sillas alrededor. Se ha instalado una red de sensores audiovisuales compuesta por 96 micrófonos y nueve cámaras (que se prevé ampliar hasta 12). Las cámaras funcionan a modo de ojos del sistema informático, mientras que los micrófonos permiten localizar la fuente sonora, ya sea voz o cualquier otro sonido. La interfaz computacional interpreta lo que pasa en la sala y reacciona a través de un “talking head” o cabeza parlante, un busto de una mujer proyectado en una pantalla, a la que los investigadores han bautizado como Xil·la.

 

 

 

habitacion-inteligente

Foto: Edu Bayer

 

Un ejemplo para ilustrar su funcionamiento. Pongamos por caso que los usuarios son los responsables de un periódico que se reúnen en una sala para decidir los titulares del día. Llaman a la puerta, Xil·la les hace pasar y les da la bienvenida. Se sientan alrededor de la mesa o caminan por la sala y comienzan a solicitar información como que les enseñe los titulares del día anterior. La cabeza parlante es capaz de seguir a cada persona con la mirada y de mostrar la información demandada en una pantalla fija, que es a lo que se aspira a sustituir. También es capaz de reconocer determinados tipos de sonidos introducidos previamente en su base de datos. Si oye el sonido de unas llaves, se dirige a su propietario para recordarle que no se las deje. Ahora imaginemos esta interfaz computacional aplicada en el hogar de una persona mayor, detectando si se ha caído y necesita que venga un médico, o recordándole la medicación que tiene que tomar, y vislumbraremos todo su potencial.

Uno de los problemas a los que se enfrenta el sistema es el error de interpretación. Por ejemplo, cuando Xil·la detecta que uno de los participantes en una reunión se dirige a la puerta para salir, le pregunta si quiere que le pida un taxi. ¿Pero qué pasa si éste sólo va al lavabo y tiene pensado volver? “Una interficie computacional avanzada tiene la parte sensorial, la parte de respuesta y además la parte de estrategia inteligente, pero para integrarlo todo se necesitaría trabajar en inteligencia artificial, y nuestro grupo somos especialistas en el análisis de señales de voz e imagen”, explica Casas. Otra dificultad es interpretar correctamente los gestos, cuyo significado depende de la cultura. Y por último, “está la cuestión de lo fácil que es acostumbrarse a la comodidad de las tecnologías, no queremos volver atrás”. ¿Y quién querría volver a utilizar un teclado y un ratón después de esto?

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s