Una funcionalidad de la nueva plataforma de Google permite crear voces personalizadas en Dialogflow CX. Actualmente sólo está disponible, en beta, para inglés americano.
Hace poco más de una semana Google Cloud lanzó Dialogflow CX, una plataforma que supone un nuevo modo de entender el desarrollo de agentes conversacionales, mucho más visual y enfocado desde el diseño.
Dialogflow CX aún está en fase beta y disponible sólo en inglés, pero presenta nuevas características que supondrán un salto de calidad en los proyectos creados en la herramienta de Machine Learning de Google.
Una de las nuevas funcionalidades permitirá crear voces personalizadas en Dialogflow, pensadas sobre todo para call centers. Con ello, será posible la existencia de una “voz de marca” (voice brand) que identifique a la empresa y, al mismo tiempo, la distinga de otros proyectos realizados en Dialogflow.
En efecto, la diferenciación entre marcas será la principal ventaja de esta nueva característica. De esta forma, será un rasgo más a tener en cuenta a la hora de desarrollar la personalidad de un asistente desde el punto de vista del diseño conversacional.
Voces personalizadas en Dialogflow
Hasta ahora, Dialogflow ofrece dos tipos de voces para bots conversacionales, procedentes de Text-To-Speech, que es otro de los servicios existentes en Google Cloud Platform. Por un lado, la versión estándar que posee un sonido más robótico, muy parecido a las centralitas a las que estamos acostumbrados. Por otro lado, encontramos la versión WaveNet, que son voces generadas mediante Inteligencia Artificial (IA) y que presentan rasgos más similares a la voz humana. En la documentación de Google, puedes encontrar el listado de idiomas y tipos de voces correspondientes.
Sin embargo, las voces WaveNet no están disponibles en todos los idiomas. De hecho, en Español, Text-To-Speech sólo ofrece una única voz (femenina) y es quizá una de las principales limitaciones de esta herramienta en nuestro idioma. Aún así, Dialogflow presenta cierto nivel de personalización gracias al ajuste de algunos aspectos de prosodia como velocidad y pausas.
Cómo funciona el Voice Brand de Dialogflow CX
La función para crear voces personalizadas está sólo disponible en inglés americano y en versión beta. Además, su acceso está restringido y para usarlo es necesario solicitarlo a Google mediante un formulario, ya que está pensada para clientes con casos de uso aprobados según los principios de Google AI. Google responderá a la solicitud en un plazo máximo de 14 días.
Concedido el acceso, se podrá utilizar la característica que permite entrenar el modelo de voz personalizado utilizando grabaciones de audio propias. Google suministra un guión para las locuciones que han de realizarse en estudio, ya que la calidad del audio será fundamental para el entrenamiento. De hecho, el propio Google recomienda trabajar con personas que se dediquen profesionalmente a la locución o el doblaje para que den la personalidad deseada.
“Esta nueva funcionalidad permitirá crear asistentes virtuales con una voz de marca que identifique a la empresa”.
Los audios deberán pasar la verificación y validación interna de Google, de lo contrario será necesario volver a grabarlos. Por su parte, el entrenamiento y evaluación del modelo llevará varias semanas. Al finalizar el entrenamiento, Google llevará a cabo una ronda inicial de evaluación del modelo y, si pasa los criterios internos de calidad, enviará a la empresa algunas muestras de audio offline grabadas con su modelo personalizado. Tras esto, continuará con el proceso de prueba y evaluación de locuciones hasta la aprobación final del modelo.
WaveNet vs Custom Voice
Para el mercado hispanohablante la función Custom Voice que añade Dialogflow CX queda aún bastante lejos. Antes de que dicha función esté disponible, los desarrolladores de asistentes virtuales en español esperan la llegada de voces WaveNet que permitan una mayor diversificación en las personalidades de los proyectos.
En un primer momento serán pocas las empresas que apuesten por estas “Voice Brand” ya que su implantación supone un coste alto debido a la inversión que hay que realizar para las grabaciones en estudio.
No obstante, se trata de una interesante función que permitirá a las empresas llevar su imagen de marca un paso más allá, sumando a los atributos visuales una voz que les identifique para siempre.