Qu’est-ce que le text-to-speech ?
L’audio digital se niche désormais partout, y compris dans les contenus textuels et les journaux, qui convertissent les lecteurs en auditeurs. Une nouvelle opportunité de monétisation des contenus, dans un environnement où l’auditeur est réceptif et engagé.
Selon un rapport de MarketsandMarkets publié en janvier 2021, le marché du Text-to-Speech (synthèse vocale) était valorisé en 2020 à 2 milliards de dollars US et devrait atteindre 5 milliards d’ici 2026.
Ses principaux facteurs de croissance sont la demande croissante en appareils portables, l’augmentation des dépenses publiques consacrées à l’éducation pour les moins-valides et les personnes âgées, mais aussi les nouveaux modes de lecture et d’apprentissage.
Aux États-Unis, près de 200 millions d’auditeurs sont convertis à l’écoute digitale : la technologie de conversion du texte en audio y trouve une place de choix. De nombreux acteurs s’y sont implantés.
De la lecture à l’écoute de la presse
Depuis de nombreuses années, les journaux et les magazines ont vu leurs revenus publicitaires se déplacer vers le numérique, mais leur modèle économique hérité du papier a continué de souffrir de la transition, à mesure que sont apparus les appareils mobiles. La synthèse vocale apporte une nouvelle dimension aux contenus textuels et une plus-value pour le lecteur, dans un contexte de mobilité croissante.
L’audio représente, pour la presse, un nouveau moteur de croissance. Les auditeurs sont en effet engagés en moyenne trois fois plus longtemps que les lecteurs. Une étude britannique menée par la Publisher’s Association indique que, pour une majorité de sondés, l’écoute d’un livre ou d’un article est plus immersive et plus intime que la simple lecture. Un contexte dans lequel la publicité audio digitale trouve naturellement sa place, puisqu’elle est diffusée dans un rapport de proximité et de plus grande réceptivité.
La publicité audio digitale est en pleine croissance, confirme Audiate me, entreprise spécialisée dans la conversion de texte en contenu audio à l’aide d’un simple widget. L’an dernier, la société a constaté un bond de 60 % dans les ventes programmatiques en audio digital.
L’un des fers de lance du domaine de la synthèse vocale est Trinity Audio, une entreprise basée à Tel-Aviv fondée en 2017. Sa mission, revendiquée par son CEO Ron Jowarski, est la suivante : « to audify the internet » (littéralement donner la parole à internet). Grâce à des technologies de synthèse vocale pour l’audio, elle s’adresse aux trois piliers de l’écosystème : éditeurs, lecteurs et annonceurs.
Du texte au podcast
Autre acteur innovant dans le domaine, l’entreprise Remixd, basée dans le Washington DC, permet de créer un podcast sur base de contenu textuel. Une technologie simple permettant aux marques soit de créer une présence en podcast sur les principales plateformes, soit de l’enrichir. Cette technologie ne nécessite pas de travail de développement supplémentaire. L’entreprise s’est spécialisée dans le contenu premium, avec des marques aussi prestigieuses que Sports Illustrated, The Verge, Pop Sugar, The New Yorker, People et Thrillist.
2021 : le boom de l’audio se confirme
Dans le domaine de la synthèse vocale, 2020 aura agi comme un catalyseur extraordinaire : les confinements successifs n’ont fait qu’accroître la demande en audio. Le monde de l’édition a très vite compris les mutations en cours dans la consommation de médias, en ajoutant massivement des versions audio des articles de presse.
Pour les éditeurs, il s’agit d’une technologie d’intelligence artificielle simple à mettre en place, peu coûteuse et évolutive, permettant l’insertion de publicités audio dans le contenu. L’auditeur y est plus sensible : il peut en effet se tenir au courant des derniers développements de l’actualité, quoi qu’il soit en train de faire en parallèle.
Trinity Audio a publié, pour la première fois, un intéressant rapport sur l’engagement des auditeurs dans leur rapport à l’audio digital et à la publicité native audio, dont on peut déjà tirer quelques enseignements :
- Le listen-through rate total (LTR) du contenu audio est de 59 %
- L’écoute de publicités audio est réceptive, avec un LTR de 91 %
- L’auditeur favorise l‘écoute de contenus de plus longue durée : LTR de 70 % pour les contenus supérieurs à 5 minutes, contre moins de 60 pour les contenus plus courts