La clonación de voz con Inteligencia Artificial
¿Alguna vez has escuchado hablar de las voces artificiales o las voces sintéticas? La clonación de voz, ha sido uno de los avances de herramientas de Inteligencia Artificial que ha logrado adaptarse a numerosos formatos digitales e incluso el cine.
Las tecnologías de voces artificiales (como los asistentes de voz) se han convertido en una parte indispensable de nuestra vida cotidiana, ya que nos ayudan con tareas sencillas como programar temporizadores, dar actualizaciones del tiempo y reproducir música.
Sin embargo, con el aumento de las noticias falsas y la creciente adopción de los asistentes de voz con Inteligencia Artificial, los expertos en ciberseguridad han comenzado a plantear su preocupación por los posibles riesgos que rodean a estas tecnologías.
Y cuando se trata de actividades creativas como el doblaje o la locución comercial, el debate es un poco diferente.
En este artículo analizaremos las tecnologías voces artificiales a la luz de los últimos acontecimientos y le daremos ideas sobre cómo puedes mantenerte a salvo sin dejar de disfrutar de sus ventajas.
Aclaro que en esta publicación te compartiré información técnica y de hechos noticiosos; no nos adentraremos en el campo artístico e interpretativo relacionado a la locución o actuación de voz que incumbe a esta tecnología.
¿En qué consiste la clonación de voz?
La clonación de voz, es un proceso realizado a través de modelos de inteligencia artificial (IA), en el que una computadora imita la voz de una persona, creando de este modo una réplica de su voz, que puede alcanzar un alto nivel de similitud con la voz original.
Para emplear un programa de clonación de voz, se usa un audio de la voz real, a partir de la cual el software replica este sonido desarrollando un clon de dicha voz.
Lo más asombroso de este tipo de programas, es que considera los elementos más importantes para el desarrollo de la réplica, como, por ejemplo, el timbre de voz, el tono, el acento la fluidez e incluso la respiración captado en la voz original.
Esta voz artificial puede adaptarse a cualquier tipo de emoción; pero además puede emplearse en diferentes idiomas, lo que le brinda una estupenda perspectiva para romper las barreras idiomática, y poder adaptar cualquier tipo de contenido de una forma globalizada.
Es indudable el potencial que tienen las herramientas de clonación de voz. Es por esto que en la actualidad encontramos desde grandes corporaciones como Google, hasta pequeñas empresas participar en el desarrollo de soluciones cada vez más desarrolladas.
Sin embargo, la clonación de voces, es un tema que ha generado gran polémica, y ha dado mucho de que hablar dentro de los modelos de seguridad, lo que ha generado una gran variedad de opiniones al respecto de su uso en el campo artístico de la voz.
Avances de la Inteligencia Artificial en el campo de las voces
Aunque las tecnologías de clonación de voz existen desde hace varias décadas, solo hasta hace poco la se han logrado avances significativos en la clonación de voz. La IA ha hecho posible entrenar a una computadora para que produzca una voz sintética que no se distinga de la original.
Esto ha sido posible gracias a un tipo de IA llamado «Red Generativa Adversarial» (GAN: Generative Adversarial Network).
La GAN funciona haciendo que dos redes neuronales compitan entre sí. Una red produce imágenes y la otra juzga si son reales o falsas.
La red que juzga si las imágenes son reales o falsas se entrena marcando las que son reales y marcando las que son falsas.
Con GAN, ahora es posible entrenar a una máquina para que produzca un archivo de audio que sea prácticamente indistinguible del original. Esta tecnología ha permitido producir voces sintéticas que pueden utilizarse de diversas maneras.
La voz de Darth Vader con Inteligencia Artificial
Este tipo de programas de Inteligencia Artificial sigue abarcando terreno dentro de diferentes industrias; ha permitido adaptarse al doblaje de películas en diferentes idiomas, video juegos, e incluso adaptación de audiolibros.
El caso más reciente ha sido el anuncio del nuevo episodio de la Guerra de las Galaxias y la voz de su villano: Darth Vader, un papel que ha sido representado durante más de 40 años por el actor James Earl Jones.
La avanzada edad de Jones, quien arriba a sus 91 años, se ha convertido en una de las principales razones por las que Disney, ha decidido emplear programas de inteligencia artificial para perpetuar la voz de este personaje, y mantener su vigencia dentro de la saga.
Para lograr este propósito, Jones concretó un acuerdo con Lucasfilm en el que será posible replicar su voz a través de programas de IA, y de esta forma garantizar la voz del personaje.
El programa seleccionado para esta réplica es Respeecher, un software desarrollado en Ucrania, el cual se encargará de clonar la voz de Jones utilizando un grupo archivos de audio de las películas anteriores, y de esta forma recopilar el duplicado de la voz de este personaje.
Otros usos de las voces sintéticas en el cine
La voz de James Earl Jones no ha sido la única voz famosa que se ha replicado a través de inteligencia artificial, ya que Val Kilmer, luego de un acuerdo en sociedad con Sonatic, permitió realizar la voz artificial del actor a través de Inteligencia Artificial.
Algo que permitió a este inmortalizar la voz de su personaje en la película Top Gun, luego de que este hubiese perdido su voz a causa del cáncer en el año 2014, de manera que si, han sido muchas las oportunidades dentro de la industria del cine.
Pero no todo es color de rosa para la clonación de voz, en algunos casos, a pesar de los beneficios obvios de estas herramientas, también se ha enfrentado a la percepción de que esta representa un riesgo al talento humano, pues para muchos existe la posibilidad latente de ir dismunuyendo más y más espacios a través de estas herramientas de Inteligencia Artificial.
Además de ser una amenaza al talento, también se han desarrollado numerosos análisis de seguridad que ponen en tela de juicio la seguridad personal en el uso de este tipo de herramientas.
El lado oscuro de las voces de Inteligencia Artificial
Es claro que el objetivo de la clonación de voces a través de IA ha traído muchas oportunidades y beneficios dentro de la industria digital, sin embargo, la incertidumbre con respecto a los riesgos de la clonación de voz es creciente y realmente alarmante para los expertos.
Como cualquier otro programa, la clonación de voz acarrea algunos riesgos de seguridad, y en este caso, la posibilidad de que estos modelos de voces sintéticas se utilicen con propósitos delictivos.
Esa una de las principales razones por las que aún existen dudas y obstáculos para emplearse abiertamente en diferentes tareas, ya que puede ser fácilmente utilizado por ciberdelincuentes
Andrew Grotto, quien fue miembro del Centro de Política Cibernética de la Universidad de Stanford, mencionó que “Los delincuentes van a utilizar cualquier herramienta que les permita lograr sus objetivos.»
Las alarmas han saltado, tras cada una de los casos de estafa que se han materializado utilizado este tipo de herramientas.
Una compañía británica, del sector energético, tuvo pérdidas más de $240.000, cuando delincuentes utilizaron la voz falsa de un directivo para hacer transferir a una cuenta en Hungría dichos fondos.
Es lógico que la incertidumbre sea parte del proceso, porque a pesar que los avances son notables en los años de trayectoria que suma esta tecnología, aún se encuentran aspectos en los que se debe trabajar para evitar que sean utilizados con fines no apropiados.
Por lo que el verdadero desafío en este particular es evitar el crecimiento no regulado de estos programas, y restringir de alguna forma el acceso gratuito a estos dentro de la red digital.
El caso de la voz de TikTok
Si frecuentas esta red social, probablemente hayas encontrado voces repetitivas que se usan en la narración de contenidos dentro de la plataforma.
Una de ellas es la voz de la canadiense Beverly Standing, para quien resultó ser una completa sorpresa saber que su voz estaba siendo utilizada en este formato dentro de la red social sin su autorización.
Standing emprendió una demanda contra ByteDance por el uso no autorizado de su voz, sin embargo, para su sorpresa, se descubrió que su voz había sido comprada para el generador de noticias de TikTok.
Esto ocurrió luego de que Standing fuera contratada para realizar algunos trabajos de voz para el Instituto de Acústica de China, sin embargo nunca se consideraron términos para el uso de su voz, ni se estableció ningún tipo de contrato que impidiera que su voz fuera usada para convertir textos por ninguna otra persona o empresa.
La ausencia de un acuerdo legal sobre los derechos de su voz finalmente hizo que se desestimara la demanda de Standing.
Al parecer, la experiencia de Standing es apenas la punta del iceberg, pues aún hay muchos problemas que se han identificado con el uso de este tipo de herramientas dentro de plataformas digitales.
Esto no es más que una muestra de lo que han venido alertando los expertos en seguridad, lo que en definitiva nos lleva a la imperante necesidad de desarrollar tecnologías completamente reguladas que permitan establecer mejores controles.
Deeptrace, una respetable empresa de ciberseguridad, informó que durante el año 2019 la cantidad de videos falsos profundos que se habían publicado en línea se habría duplicado, con la publicación de al menos unos 15.000, un número bastante significativo para los expertos.
El crecimiento de las voces artificiales
Ahora bien, nada ha detenido el crecimiento de las herramientas de clonación de voz, pues para el año 2021, el tamaño del mercado global de clonación de voz alcanzaba los $ 1,038 millones.
Y a pesar de los obstáculos, se estima que el crecimiento de este tipo de herramientas, pueda alcanzar los $5,000 millones para el 2025, con una tasa de ingresos del 30,7 %, donde destaca como uno de los países con mayor participación, los de América del Norte, seguido por Europa,
Esto hace de este un lucrativo sector en el cual invertir, sin embargo, lo realmente importante en esto es asegurarse que, dentro de la cadena de desarrollo de la clonación de voces, se proteja realmente el talento, y el uso de las herramientas.
Entre algunas de las más grandes e importantes corporaciones del mundo, que actualmente participan en el crecimiento de herramientas de clonación de voz; están Google, IBM, Microsoft y Amazon; que hoy día desarrollan estas herramientas respaldando su potencial, y estableciendo modelos que permitan reforzar los elementos de seguridad en Internet.
¿Cómo evitar el uso indebido tu voz de si eres locutor?
Tal como hemos visto antes, esta tecnología también ha expuesto a locutores y actores al uso sin escrúpulos de sus voces. Como actor de voz, ¿Cómo puedes proteger tu trabajo de locución en Internet?
1. Copyright
Todo lo que produzcas como material de locución, al igual que las obras pictóricas y literarias, está protegido por derechos de autor. Esto significa que nadie tiene derecho a utilizar tu material (tu voz) sin tu permiso. Del mismo modo, nadie puede imitar tu obra, ni modificarla y distribuirla para su consumo público, sin tu consentimiento explícito.
2. Marca de agua digital
La marca de agua digital es una forma eficaz de proteger el material de locución en Internet. Con este método, puedes incrustar datos en un material de locución digital para ocultar información, haciendo que la grabación quede incompleta.
Importante: Una guía para crear una marca de agua de audio
3. Haz preguntas
Una vez que la grabación sale de tus manos, puede ser difícil rastrear si se está utilizando legalmente. Antes de vender tu material, asegúrate de hacer las preguntas adecuadas a tu cliente.
Querrás saber dónde van a utilizar el trabajo de locución y durante cuánto tiempo. Algunos clientes también optan por no dar crédito al actor de voz una vez que pagan el material. Los acuerdos son diferentes para cada persona, así que asegúrate de que entiendes perfectamente lo que te propone tu cliente.
Te puede ayudar: Importancia del contrato de locución
Sé cauteloso
No es muy difícil identificar cuándo una voz será utilizada para un software de inteligencia artificial. Por norma, te van a solicitar extensiones de textos muy muy muy largos y varias repeticiones de dichos textos.
Internet ha abierto enormes oportunidades para los actores de doblaje de todo el mundo. Pero esto no significa que cualquier grabación accesible deba descargarse sin el consentimiento del propietario.
Como profesional de la locución, tienes la responsabilidad de proteger tu trabajo y tener siempre presente la infracción de los derechos de autor.
Las voces humanas siguen siendo superiores
Hay varias razones por las que el uso de voces sintéticas o de IA puede ser problemático para muchos.
Quizás la más relevante hoy día es que la tecnología aún no está perfeccionada al máximo. Las voces creadas con IA aún carecen de la emoción, la inflexión y, a veces, incluso de la pronunciación adecuada de las frases clave. Estos errores pueden ser a veces chocantes, y los oyentes podrán detectar sin duda un sonido robótico en la voz.
Teniendo en cuenta todo esto que hemos visto, creo que estamos de acuerdo en que es preferible utilizar una voz humana real.
La calidad del contenido será sin duda mucho mayor, y tendrá todos los matices y la emoción que las voces humanas reales pueden proporcionar.
Al utilizar voces reales, el contenido suena y se siente real para los oyentes. Esta autenticidad es muy importante cuando se crean contenidos, sobre todo si se quiere conectar con un público más joven.
¿Tú qué opinas de la tecnología de voz de Inteligencia Artificial?