Este episodio explora una experiencia inesperada con clones de voz generados por inteligencia artificial. Aunque dos versiones sintéticas de una misma voz (una en español y otra en inglés) resultaban técnicamente convincentes, las reacciones de quienes las escucharon fueron muy diferentes. A partir de esa observación, el podcast examina el concepto del uncanny valley o valle inquietante, no como un problema de semejanza, sino de identidad. Recurriendo a ideas de Masahiro Mori, Sigmund Freud y Terry Eagleton, reflexiona sobre la relación entre voz, cuerpo, presencia e intuición, y plantea una pregunta fundamental: ¿qué reconocemos realmente cuando reconocemos una voz?
Guion de Podcast: El Valle Inquietante de la Voz
Durante los últimos años se ha hablado mucho sobre inteligencia artificial en términos de producción de textos, imágenes, videos y voces sintéticas. Especialmente en el campo de la voz, los avances han sido sorprendentes. Hoy es posible entrenar un modelo con relativamente pocas horas de audio y obtener una voz capaz de leer textos nuevos con una naturalidad que, hasta hace muy poco, parecía imposible.
Desde una perspectiva práctica, las ventajas son evidentes: permiten acelerar procesos, producir contenido de manera más eficiente y separar la producción de una idea del esfuerzo físico necesario para grabarla.
Sin embargo, quizás la cuestión más interesante no sea tecnológica, sino nuestra reacción frente a estas nuevas formas de presencia. Porque cuando una voz sintética comienza a parecerse mucho a una persona concreta, empiezan a ocurrir cosas inesperadas. Y una de ellas nos lleva directamente a un conceptoconocido como el uncanny valley, el valle inquietante.
Hace poco tuve ocasión de experimentar con dos clones de voz entrenados sobre una misma persona: uno en español, que estoy utilizando en este mismo podcast, y otro en inglés. Ambos eran razonablemente buenos, reconocibles y permitían producir contenido de forma rápida y eficiente. Sin embargo, apareció un fenómeno inesperado. Algunas personas, algunas de ellas de mi familia, que escucharon ambas versiones aceptaron sin mayores problemas el clon en español, pero reaccionaron de manera muy distinta frente al clon en inglés.
No porque sonara peor, tuviera errores evidentes o pareciera artificial. La reacción fue más inmediata y más difícil de explicar: — “No.” — “Ese no sos vos.” — “Hablá vos.” — “No me gusta.”
Lo interesante es que no parecían estar realizando una crítica técnica; no estaban evaluando la fonética ni la calidad de audio. Parecían reaccionar a otra cosa, algo más difícil de nombrar. Y precisamente allí comienza nuestra pregunta.
Vale aclarar que estas personas me conocen desde hace más de treinta años. Algunas interactúan conmigo principalmente en español; otras, principalmente en inglés. Todas son bilingües y conocen ambas facetas lingüísticas de mi identidad. Y sin embargo, apareció un patrón sorprendentemente consistente: la versión en español generaba observaciones menores, comentarios sobre matices o pequeñas diferencias, pero no rechazo. La versión en inglés, en cambio, provocaba una reacción mucho más inmediata; algo parecía no encajar.
Lo curioso es que la respuesta no dependía de la calidad técnica. De hecho, desde una perspectiva lingüística, podría argumentarse que la versión inglesa era incluso más eficiente, más clara, más estable y más fácil de procesar para un oyente nativo. Sin embargo, precisamente esa versión era la que generaba incomodidad. Al limpiarla de imperfecciones, la inteligencia artificial la había despojado también de la geografía emocional, de los vicios afectivos y de la calidez que habita en mi identidad bilingüe real.
Y aquí aparece una posibilidad interesante: tal vez el problema no sea que la voz sintética se parezca demasiado poco; tal vez el problema sea que se parece demasiado. Lo suficiente para activar el reconocimiento, pero no lo suficiente para completar la identificación. Y aquí es donde aparece el uncanny valley.
El concepto fue propuesto en 1970 por Masahiro Mori. La explicación popular es relativamente sencilla: un robot claramente mecánico no suele generar incomodidad, y una persona real tampoco. La incomodidad aparece en la región intermedia, en ese espacio ambiguo donde algo parece humano sin llegar a serlo completamente.
Durante décadas se interpretó este fenómeno como un problema de parecido: cuanto más se acerca una máquina al ser humano, mayor es nuestra aceptación, hasta que llegamos a un punto donde ocurre algo inesperado: la aceptación se desploma, aparece el rechazo, la extrañeza y la sensación de que algo no encaja.
Sin embargo, con el tiempo surgieron interpretaciones más profundas. Algunos investigadores comenzaron a sospechar que el problema no era simplemente el parecido, sino que podría ser cognitivo. Nuestro cerebro depende constantemente de sistemas de clasificación; necesitamos identificar rápidamente qué tenemos delante: ¿Es una persona? ¿Es una herramienta? ¿Es un animal? ¿Es una máquina?
Estas categorías no son un lujo intelectual, son mecanismos de orientación que nos permiten saber cómo relacionarnos con el mundo. Diversos estudios en psicología cognitiva sugieren que las entidades ambiguas generan una carga especial porque obligan al cerebro a mantener simultáneamente interpretaciones incompatibles. Cuando observamos una persona esperamos ciertos comportamientos; cuando observamos una máquina, esperamos otros. Las entidades ambiguas producen errores primitivos de predicción: no sabemos exactamente qué esperar de ellas, y esa incertidumbre genera incomodidad.
Existe además otra hipótesis particularmente interesante: la hipótesis de la violación categorial. Los seres humanos toleramos bastante bien las diferencias; lo que nos resulta más difícil tolerar son las entidades que parecen pertenecer simultáneamente a categorías incompatibles. No porque sean peligrosas, sino porque desafían la estructura mediante la cual organizamos nuestra experiencia. Quizás por eso el valle inquietante se parece menos a una reacción estética que a una crisis de orientación. No sabemos qué tenemos delante y, al no saberlo, tampoco sabemos exactamente cómo relacionarnos con ello.
Los seres humanos vivimos rodeados de categorías: persona, animal, objeto, herramienta, máquina. No solemos pensar demasiado en ellas porque normalmente funcionan y son necesarias para orientarnos en el mundo. Sabemos qué hacer con las cosas porque sabemos qué son. Sabemos cómo relacionarnos con una persona, con una herramienta, con una fotografía o con una grabación. El problema aparece cuando una entidad comienza a ocupar más de una categoría simultáneamente o, peor aún, cuando ya no pertenece claramente a ninguna. Quizás el verdadero problema del uncanny valley no sea el parecido imperfecto, sino la imposibilidad de decidir qué estamos observando o qué estamos escuchando.
Mucho antes de la robótica y de la inteligencia artificial, Sigmund Freud escribió un ensayo fundamental sobre lo siniestro y lo ominoso. En su texto analizó el término alemán Das Unheimliche, que contiene un matiz muy particular: no describe simplemente algo aterrador, sino algo familiar que deja de ser completamente familiar; algo conocido que se vuelve extraño; algo cercano que comienza a generar distancia. Lo ominoso no es el encuentro con lo desconocido, es el encuentro con algo que reconocemos y, al mismo tiempo, no reconocemos.
Freud analiza muñecos, dobles, reflejos, automatismos y presencias ambiguas. En todos los casos aparece una estructura similar: algo ocupa simultáneamente dos posiciones incompatibles. Está presente y ausente; está vivo y no vivo; es conocido y desconocido; es uno mismo y no lo es. Y la cuestión interesante es si algo semejante puede ocurrir con las voces.
Tradicionalmente pensamos la voz como un fenómeno acústico: timbre, entonación, acento, pronunciación. Pero tal vez una voz sea mucho más que eso. Cuando escuchamos una voz humana no escuchamos solamente sonidos: escuchamos una presencia, escuchamos a alguien, escuchamos una historia, una biografía, una intención, una conciencia situada en un cuerpo. Y, normalmente, todo esto ocurre de manera automática; ni siquiera pensamos en ello. La voz parece inseparable de quien la produce.
Quizás aquí convenga detenerse un momento, porque la relación entre voz y cuerpo es una de las asociaciones más antiguas de la experiencia humana. Durante milenios ambas cosas estuvieron unidas: una voz implicaba un cuerpo presente, y un cuerpo presente implicaba una voz posible. Escuchar una voz significaba que alguien estaba allí, respirando, articulando, ocupando un lugar, existiendo junto a nosotros. La voz funcionaba como una huella inmediata del cuerpo, como una evidencia de presencia. Y precisamente por eso ha ocupado un lugar tan importante en la filosofía, la literatura y la teoría del lenguaje: no es simplemente una señal, es una manifestación de alguien.
La inteligencia artificial ha comenzado a alterar esa asociación. Por primera vez podemos conservar la voz después de haber retirado el cuerpo del acto de hablar. La voz permanece; el cuerpo desaparece de la escena. Y sin embargo, seguimos escuchando algo que remite a una persona concreta.
Quizás la ciencia ficción anticipó este problema mucho antes que la tecnología. En la clásica película 2001: Odisea del espacio, HAL 9000 resulta inquietante precisamente porque posee una voz. No vemos un rostro, no vemos un cuerpo y, sin embargo, percibimos una presencia, una inteligencia, una subjetividad. La voz produce la ilusión de alguien, y esa ilusión resulta tan poderosa que terminamos atribuyendo intenciones, emociones y conciencia a una entidad que carece de forma humana.
Las voces sintéticas contemporáneas parecen introducir una variación nueva de ese mismo problema. No escuchamos simplemente una máquina; escuchamos algo que remite a una persona específica. Y tal vez aquí aparece una diferencia importante: HAL nunca pretendió ser una persona concreta; los clones de voz sí. No escuchamos simplemente una inteligencia artificial, escuchamos algo que reclama una identidad, y quizás allí comienza la incomodidad.
Resulta interesante que la literatura y la teoría estética hayan explorado durante mucho tiempo cuestiones semejantes. El crítico británico Terry Eagleton dedicó buena parte de su trabajo a reflexionar sobre la relación entre cuerpo, percepción y experiencia. En sus investigaciones sobre la ideología de lo estético y el sufrimiento, sostiene que la tradición estética occidental no surge solamente de ideas abstractas sobre la belleza. Su origen está profundamente ligado al cuerpo, a la sensibilidad, al dolor, al placer; a la experiencia física de habitar el mundo. La estética comienza cuando el cuerpo percibe, cuando siente, cuando reacciona, cuando algo nos afecta antes incluso de que podamos explicarlo.
Esta observación resulta especialmente interesante en nuestro contexto, porque tendemos a imaginar que comprendemos el mundo principalmente mediante conceptos, pero muchas veces ocurre lo contrario: primero sentimos, luego interpretamos. Primero percibimos una tensión y después construimos una explicación.
Quizás por eso las reacciones más interesantes frente a estas voces sintéticas no son necesariamente racionales, sino intuitivas. Aparecen antes de cualquier teoría, de cualquier análisis, antes incluso de que podamos explicar qué nos molesta exactamente. Y tal vez esa intuición esté señalando una fractura profunda: la separación definitiva entre la voz y el cuerpo, la distancia entre la presencia real y la producción técnica de esa presencia.
Esto nos conduce a una pregunta difícil: ¿Qué reconocemos realmente cuando reconocemos una voz? ¿Qué percibimos cuando decimos “ese es él” o “esa es ella”? ¿Reconocemos simplemente un conjunto de rasgos acústicos o reconocemos algo más? Una historia, una presencia, una identidad encarnada.
Cuando escuchamos a alguien que conocemos desde hace décadas, entran en juego el timbre, la prosodia y el acento, pero también algo que emerge de la acumulación de miles de conversaciones, recuerdos y experiencias compartidas. Cuando la semejanza fonética está presente pero la intuición sigue rechazando la identificación, nuestra percepción detecta un vacío antes de que podamos ponerlo en palabras. Alguien dice inmediatamente “ese no sos vos” porque está movilizando un conocimiento que va mucho más allá de una simple observación lingüística.
Durante mucho tiempo hemos tendido a pensar que la intuición es una forma imperfecta de conocimiento, pero tal vez ocurra exactamente lo contrario. Quizás la intuición detecta patrones antes de que seamos capaces de formularlos conceptualmente. Reconocemos un rostro antes de describirlo, reconocemos una emoción antes de explicarla y reconocemos una voz antes de analizarla. Tal vez por eso estas reacciones resultan tan interesantes: porque parecen señalar un problema antes de que exista una teoría capaz de explicarlo.
Tal vez la pregunta fundamental no sea cuánto se parece una voz sintética a una voz humana. La pregunta es qué ocurre cuando una voz conserva todos los signos de una presencia humana y, sin embargo, ya no depende de un cuerpo presente; qué pasa cuando reconocemos una identidad sin poder aceptarla completamente, o cuando una voz parece pertenecer a alguien y al mismo tiempo se ha emancipado de él.
¿Qué hay en una voz que construye una imagen de identidad que va más allá de la cercanía fonética? Si la explicación fuera puramente acústica, bastaría con mejorar la tecnología. Pero si el problema reside en otro lugar, entonces nos encontramos ante una cuestión mucho más profunda.
Quizás allí aparezca una nueva forma de lo ominoso. No porque la tecnología fracase, sino porque comienza a tener éxito; no porque la copia sea demasiado imperfecta, sino porque se acerca peligrosamente a una región intermedia. Un territorio donde nuestras categorías dejan de funcionar con claridad: entre la voz humana y la voz artificial, entre la presencia and la ausencia, entre el cuerpo y su representación, entre la persona y su simulación.
Tal vez ese sea el verdadero valle inquietante: no un problema de semejanza, sino un problema de ser. Y quizá las voces sintéticas nos estén obligando, por primera vez, a escucharlo.