Cooking Ideas - un blog para alimentar tu mente de ideas

¿Ronquidos o fuegos artificiales? El español que enseña a las máquinas a distinguir sonidos

sonido

Bochornosas equivocaciones aparte, los ordenadores han llegado a ser muy diestros a la hora de reconocer una imagen y los elementos que aparecen en ella. Ya han aprendido suficiente como para no confundir a una pareja de personas con una de gorilas, que no era algo de lo que pudieran presumir hace bien poco. Sin embargo, ¿son igualmente hábiles cuando se trata de diferenciar sonidos?

Es lo mismo que se preguntaban el español Antonio Torralba y sus compañeros científicos del Instituto Tecnológico de Massachusetts (el prestigioso MIT), que se pusieron manos a la obra para descubrirlo. Su idea era aplicar el mismo patrón de aprendizaje que se sigue con lo visual para intentar enseñar a las máquinas a distinguir lo auditivo.

Identificar el trino de los pájaros, la lluvia, el golpe de una puerta al cerrarse o distinguir entre un sonoro ronquido o el estruendo de los fuegos artificiales son tareas que, incluso en plena era de la inteligencia artificial, siguen siendo complicadas para un ordenador. Si logran dominarlas, los dispositivos que usamos cada día (nuestros teléfonos móviles, sin ir más lejos, pero también los robots o los futuros hogares inteligentes) podrían comprender mucho mejor lo que sucede en nuestro entorno y ayudarnos en un sinfín de situaciones.

Para conseguirlo, el problema al que se enfrentan los investigadores es de tipo material. Si bien existe una ingente cantidad de contenido en vídeo que se puede utilizar para enseñar a las máquinas, el sonido aparejado a una descripción escasea. Por eso Torralba, junto a sus colegas Carl Vondrick y Yusuf Aytar, se tuvo que buscar las sonoras habichuelas.

pantallas515x342

Lo que hicieron fue descargar más de dos millones de vídeos de Flickr, el equivalente a más de un año viendo clips uno tras otro, y darle a los ordenadores solo las imágenes, para que identificaran los distintos elementos que se estaban mostrando en la escena principal (obviando las posibles distracciones). Aparte, proporcionaron a las máquinas el audio en bruto, con la esperanza de que lograsen asociar lo que estaban ‘viendo’ con lo que estaban ‘escuchando’.

“Buscábamos la forma de transferir el conocimiento visual que han aprendido las máquinas a otro dominio donde no se contaba con datos, pero donde sí existía esa sincronización natural entre imágenes y sonidos”, detalla Vondrick.

Entre otras cosas, los expertos del MIT querían que la máquina aprendiera a distinguir el balbuceo de un bebé. Y la pusieron a analizar un amplio y variado repertorio de vídeos de recién nacidos para que sacara conclusiones. Después, tras el entrenamiento, fuera capaz de identificar ese particular sonido incluso sin la pista visual.

Los resultados del experimento fueron más que satisfactorios. Los voluntarios artificiales del experimento llegaron a alcanzar un 92,2 % de aciertos, una cifra muy cercana al 95,7 % que se obtuvo al realizar las mismas pruebas con personas. Estas conclusiones las presentará el propio Torralba en la próxima NIPS (Conferencia de Procesamiento de Sistemas Neuronales) que se celebrará del 5 al 10 de diciembre en Barcelona.

La inteligencia artificial, cada vez más ‘humana’

Preguntar a nuestro frigorífico si necesitamos comprar leche o llamar a nuestro coche para que en cinco minutos pase a recogernos, como si fuéramos Michael Knight y su querido KITT, pueden ser escenas cotidianas más pronto de lo que pensamos. De momento ya tenemos asistentes personales, como el Siri de Apple, la Cortana de Microsoft o los hogareños Google Home y Amazon Echo, que procuran satisfacer nuestros deseos y cumplir las órdenes que les dictamos de viva voz.

casasinteligentes515x342

En materia de seguridad para el hogar también encontramos algunos ejemplos de máquinas que saben escuchar, como el servicio que ofrece la empresa inglesa de alarmas antirrobo Audio Analytic, que permite identificar sonidos de peligro como la rotura de una ventana o la alarma de incendios. Y quién sabe si el día de mañana podremos hablar con nuestra casa inteligente desde el móvil para que nos cuente lo que está ocurriendo en tiempo real.

Un avance que tampoco nos resultará costoso. “Los micrófonos son mucho más baratos y consumen mucha menos batería que una cámara, por lo que si deseamos contar con esta tecnología en nuestro móvil, no consumiremos tanta batería como si estuviera la cámara encendida continuamente”, detalla Vondrick.

Ahora el reto está en seguir perfeccionando la escucha e identificación de sonidos. Que los ordenadores puedan distinguir entre la risa y el ruido de las gallinas o, simplemente, sepan obviar el sonido de una ambulancia o el ladrido de un perro cuando no nos aporta información relevante, todavía son asignaturas pendientes. Algún día, las máquinas comprenderán que el mundo también se mueve por sonidos. Y será un gran día para los humanos.

————————

Con información de Newscientist e Instituto de Tecnología de Massachusetts. Las imágenes son propiedad de Flickr y Pixabay (2) y (3)

Mientras afinas tu oído, échale un vistazo a esto otro:

– Paleta de sonidos: así dibuja un artista a base de canciones

– Los sonidos más perros: esta discografía es experta en música para mascotas

– ¿Un mensaje nuevo? El origen de los sonidos más reconocibles de la tecnología

– La sintonía de Batman, recreada con sonidos de murciélago

Comentarios: Sé el primero

Posts Relacionados

No comments yet.

Leave a comment

Nombre (requerido)

Comentario

Últimos Tweets

Feeds. Network


Copyright © CookingIdeas. Puedes copiar, distribuir el contenido de este blog, pero por favor utiliza el enlace permanente que tiene cada uno de los post, al hacer mención a los contenidos de este blog. Los contenidos de CookingIdeas están bajo una licencia Creative Common 3.0


Copyright @ 2011 Vodafone España, S.A.U.
Privacidad | Legal y Regulatorio | Vodafone