02 marzo 2021

¿Qué es el text-to-speech?

Close-up,Of,Desktop,Microphone,The,Old,Book,Turned,Out,To

El audio digital ahora se integra en todas partes, incluso en contenidos de texto y prensa, convirtiendo a los lectores en oyentes.Esta es una nueva oportunidad para monetizar contenido en un entorno en el que los oyentes se muestran receptivos y comprometidos.

Según un informe de MarketsandMarkets publicado en enero de 2021, el mercado de text-to-speech (síntesis de voz) estaba valorado en 2000 millones de dólares en 2020, y se espera que alcance los 5000 millones de dólares en 2026.

Los principales factores para el crecimiento son la creciente demanda de dispositivos móviles, el aumento del gasto público en educación para personas ancianas y con discapacidad, y nuevas formas de leer y aprender.

En los Estados Unidos, casi 200 millones de oyentes se han pasado a la escucha digital, con una destacada participación en ello de la tecnología para convertir texto en sonido. En este mercado, han ido ocupando su lugar numerosos participantes.

De leer la prensa a escucharla

Durante muchos años ya, periódicos y revistas han visto cómo sus ingresos publicitarios cambiaban a lo digital, pero su antiguo modelo de negocio basado en el papel ha continuado sufriendo la transición con el auge de los dispositivos móviles. Text-to-speech genera una nueva dimensión para el contenido de texto y valor añadido para el lector en un contexto de movilidad creciente.

Para la prensa, el audio representa un nuevo factor de crecimiento. Esto es así porque los oyentes se mantienen a la escucha tres veces más tiempo que los lectores, como media. Un estudio británico realizado por la Asociación de editores indica que, para la mayoría de los encuestados, escuchar un libro o un artículo es una experiencia más inmersiva e íntima que simplemente leerlo. Este es un contexto en el que la publicidad de audio digital encuentra su lugar de forma natural, ya que se emite en un entorno de proximidad y gran receptividad.

La publicidad de audio digital está creciendo rápidamente, confirma Audiate.Me, una empresa especializada en convertir texto en contenido de audio usando un simple widget. El año pasado la empresa experimentó un salto de un 60?% en ventas de programas en audio digital.

Uno de los pioneros en el campo de síntesis de voz es Trinity Audio, una empresa con sede en Tel Aviv fundada en 2017. Su misión, según declara su director general, Ron Jowarski, es la siguiente: «sonorizar Internet» (literalmente, dar voz a Internet). Utilizando tecnologías text-to-speech para audio, va dirigida a los tres pilares de este dominio: editores, lectores y anunciantes.

De texto a podcast

Otro participante innovador en el sector, Remixd, con sede en Washington DC, hace posible la creación de podcasts a partir de contenidos de texto. La simplicidad de su tecnología permite a las marcas generar presencia en los podcasts en las plataformas principales, o enriquecerlos. Esta tecnología no necesita ningún trabajo de desarrollo adicional. La empresa está especializada en contenido de pago, utilizado por marcas prestigiosas como Sports Illustrated, The Verge, Pop Sugar, The New Yorker, People y Thrillist.

2021: continúa el boom del audio

En el campo del text-to-speech, 2020 se verá como un catalizador extraordinario: los sucesivos confinamientos no han hecho sino aumentar la demanda de audio. El mundo de la publicidad comprendió rápidamente los cambios que se estaban produciendo en el consumo audiovisual, añadiendo versiones de audio de los artículos de prensa en masa.

Para los editores, esta es una tecnología de inteligencia artificial sencilla de implementar, barata y escalable, que permite insertar anuncios de audio en el contenido. Los oyentes se muestran más receptivos: pueden seguir al corriente de las últimas novedades en las noticias, sin importar lo que estén haciendo al mismo tiempo.

Por primera vez, Trinity Audio ha publicado un interesante informe sobre compromiso del oyente con el audio digital y la publicidad de audio nativa, del que ya se pueden sacar algunas conclusiones:

La tasa total de escucha completa (LTR) para el contenido de audio es del 59?%.
Se acepta la escucha de anuncios de audio, con una LTR de un 91?%.
Los oyentes prefieren escuchar contenido de mayor duración: una LTR de un 70?% para contenidos de más de 5 minutos, en comparación con menos de un 60?% para contenidos más cortos.