Blog

Cómo clonar tu voz usando la IA: guía paso a paso

8 enero, 2025

Rate this post

En esta guía te voy a explicar cómo clonar tu voz usando la IA. Aunque en Internet hay varios servicios de pago, de los que más abajo te hablo, lo que te propongo aquí es usar una herramienta totalmente gratuita que, además, vas a poder ejecutar en tu ordenador. Por mi parte, voy a usar la versión online para elaborar esta guía, ya que considero que es mucho más conveniente para la mayoría de los lectores. No obstante, también te explico qué debes hacer para descargar el modelo en tu equipo y, simplemente, aprovechar los recursos de tu PC para clonar tu voz. ¡No te lo pierdas!

Clonar tu voz con inteligencia artificial gracias a F5-TTS

F5-TTS es un modelo que permite generar voces personalizadas y lograr que lean cualquier texto. Básicamente, lo que hace esta IA es sintetizar la voz humana de tal manera que puedas usarla para leer cualquier cosa. Originalmente, el modelo solo soportaba el inglés y el chino como idiomas de origen y de salida. Ahora bien, gracias a la contribución de un desarrollador español, Juan Pablo Gallego, ahora también es posible utilizarla con textos en castellano.

Estos modelos, tanto el F5-TTS original, como el que ha sido adaptado para leer textos en español, tienen ventajas notables. Son estas:

Se pueden usar en línea. Así que no hace falta que descargues nada.
Si lo prefieres, funcionan en local. Así te aseguras de preservar tu privacidad.
Los modelos F5-TTS solo necesitan una muestra de 15 segundos. Por lo tanto, no tienes que subir muchos archivos de audio ni leer un montón de frases para sintetizar la voz.
Tardan unos pocos segundos en generar el audio de salida. No hace falta que esperes demasiado para obtener los resultados.

El primer paso que debes dar para aprovechar el potencial de esta IA es acceder a su web en Hugging Face. Este enlace te lleva a la versión en español, aunque si haces clic aquí accederás al modelo original. La interfaz es muy sencilla y te llevará pocos segundos clonar tu voz.

Cómo clonar tu voz usando la IA: guía paso a paso

Sube un audio de al menos 15 segundos o graba el clip directamente desde la web

Una vez que has abierto la web de Hugging Face, haz clic en el icono del micrófono. Está junto al botón de subida de archivos. ¡Ojo! Si ya tienes un archivo de audio de al menos 15 segundos donde se escucha con claridad tu voz, puedes cargarlo. No es necesario que digas nada en concreto, sino que basta con que tu voz se oiga clara. Si quieres grabar directamente el audio desde la web, presiona en Record.

Introduce el texto que generará el audio de salida

El siguiente paso es introducir el texto que deseas que tu voz sintetizada lea. Yo voy a usar la introducción de este mismo artículo, pero tú puedes elegir el texto que prefieras. Obviamente, no hace falta que lo pegues desde otro sitio. Puedes escribirlo desde cero usando el campo de texto que ves en pantalla.

Ajustes avanzados de F5-TTS

Antes de sintetizar la voz, te recomiendo que eches un vistazo a los ajustes avanzados. Bueno, estos se pueden modificar después de obtener el primer resultado y, entonces, volver a ejecutar el proceso de sintetizado. Con todo, en este primer intento, te recomiendo seleccionar la opción Eliminar silencios. También puedes transcribir manualmente el audio para que el resultado sea todavía más preciso. En el caso de que no lo hagas, la herramienta se vale de Whisper de OpenAI para transcribir el audio. Recuerda que es la misma empresa que desarrolla los modelos GPT-4o que dan vida a ChatGPT actualmente.

Botón para iniciar el proceso de clonación

Una vez hayas configurado el modelo, simplemente, presiona en Sintetizar.

La clonación está en marcha

Aparecerán una serie de avisos en pantalla como estos:

La clonación está en marcha

Más abajo, en la misma página, vas a poder ver el progreso:

Ya casi estamos

Usando los parámetros que te muestro en este artículo, el procesamiento de la voz y la clonación solo han tardado unos 10 segundos. ¡Es realmente rápida esta herramienta! Al terminar, el audio con la voz clonada estará disponible al final de la página.

Usa los controles para reproducir el audio. También lo puedes descargar en formato WAV. Este es un tipo de formato mucho más pesado que un MP3. Así que lo mejor es que, si deseas subirlo a algún sitio o guardarlo en la nube, leas la guía sobre cómo convertir un archivo WAV en MP3 directamente desde tu móvil Android o en el PC.

Y ya tenemos el resultado

¿Y qué pasa con la ejecución del modelo en local? Aunque ejecutarlo desde Hugging Face es muy cómodo, si prefieres tener bajo control el sintetizado de tu voz y asegurarte de que ninguno de tus datos va a parar a un servidor remoto, es posible usar Pinokio. Esta es una aplicación que te permitirá descargar y ejecutar el modelo en local, usando los recursos de tu PC.

Con Pinokio puedes descargar y usar el modelo F5-TTS en local

El rendimiento que obtengas dependerá de las especificaciones de tu ordenador, aunque generalmente este tipo de modelos se pueden ejecutar con solvencia en la mayoría de los equipos.

Sitios online para clonar tu voz de forma profesional

El modelo que te mostré en el apartado anterior tiene enormes ventajas. La principal es que es gratuito y que vas a poder ejecutarlo en tu ordenador gracias a herramientas como Pinokio. Con todo, si lo que buscas son resultados profesionales, lo ideal es que optes por un servicio profesional. Por ejemplo, tienes MyVocal AI, que es compatible con diferentes idiomas y hasta te puede hacer cantar. Además, reconoce las emociones y las usa en los audios de salida.

Estas plataformas son muy recomendables para doblar automáticamente vídeos, crear audiolibros y otros trabajos similares. También puedes echar un vistazo a Invideo AI o Veed.io. En la mayoría de los casos, vas a tener que pagar para usar sin limitaciones estos servicios.

El artículo Cómo clonar tu voz usando la IA: guía paso a paso fue publicado originalmente en Andro4all.