02 maart 2021

Wat is text-to-speech?

Close-up,Of,Desktop,Microphone,The,Old,Book,Turned,Out,To

Digitale audio is overal, ook in tekstinhoud en kranten, waar lezers veranderen in luisteraars. Dit biedt nieuwe kansen om content te gelde te maken in een omgeving met een luisterbereid, betrokken publiek.

Volgens een rapport van MarketsandMarkets van januari 2021 was de markt voor text-to-speech (spraaksynthese) in 2020 US$2 miljard waard en wordt tegen 2026 een waarde van US$5 miljard verwacht.

De voornaamste groeiaandrijvers zijn de toenemende vraag naar mobiele toestellen, toegenomen overheidsuitgaven aan onderwijs voor mensen met een handicap en ouderen en de opkomst van nieuwe lees- en leermethoden.

In de VS zijn bijna 200 miljoen luisteraars overgestapt naar digitaal luisteren. De technologie die tekst omzet in audio speelt hier een grote rol in. Tal van stakeholders hebben zichzelf een plaats verworven op deze markt.

Van de krant lezen naar de krant beluisteren

De advertentie-inkomsten van kranten en tijdschriften worden jaar na jaar digitaler gefocust. Maar het traditionele papieren businessmodel lijkt aan relevantie te verliezen naarmate mobiele toestellen een grotere rol gaan spelen. Text-to-speech geeft tekstinhoud een nieuwe dimensie en biedt toegevoegde waarde voor de lezer in een context van toegenomen mobiliteit.

Voor de media vormt audio een nieuwe groeiaandrijver. Luisteraars blijven namelijk gemiddeld drie keer langer hangen dan lezers. Een Brits onderzoek van The Publisher’s Association wijst uit dat het voor de meeste respondenten immersiever en intiemer is om naar een boek of artikel te luisteren dan het gewoon te lezen. Dit is een situatie waarbinnen digitale audioreclame vanzelf een plek vindt, want de audio wordt weergegeven in een context van nabijheid en grotere ontvankelijkheid.

Digitale audioreclame zit in de lift, bevestigt ook Audiate.Me, een bedrijf dat gespecialiseerd is in de conversie van tekst naar audiocontent via een simpele widget. Vorig jaar steeg de programmaverkoop in digitale audio bij dit bedrijf met 60%.

Een van de pioniers in spraaksynthese is Trinity Audio, een bedrijf dat in 2017 in Tel Aviv werd opgericht. CEO Ron Jowarski verwoordt de missie van het bedrijf als volgt: “to audify the Internet” (letterlijk: het internet een stem geven). Door middel van text-to-speech-technologieën werkt Trinity Audio op drie niveaus tegelijk: uitgevers, lezers en adverteerders.

Van tekst naar podcast

Een andere innovatieve speler is het in Washington DC gevestigde Remixd. Dit bedrijf creëert podcasts op basis van tekstinhoud. De simpele technologie die hiervoor wordt gebruikt, stelt merken in staat een podcastaanwezigheid op de voornaamste platforms te vestigen of die aanwezigheid te verrijken. Deze technologie vereist geen extra ontwikkelingswerk. Het bedrijf is gespecialiseerd in premiumcontent en wordt gebruikt door prestigetitels als Sports Illustrated, The Verge, Pop Sugar, The New Yorker, People en Thrillist.

2021 – audio blijft groeien

In het domein van text-to-speech vormde 2020 een stroomversnellingsjaar: door de achtereenvolgende lockdowns is de vraag naar audio blijven stijgen. De uitgeverswereld speelde snel in op de veranderende mediaconsumptie en begon massaal audioversies van persartikelen aan te bieden.

Voor uitgevers valt deze artificiële intelligentietechnologie gemakkelijk, goedkoop en schaalbaar te implementeren, waarbij audioadvertenties in de content kunnen worden ingevoegd. Luisteraars staan hier open voor: ze kunnen het laatste nieuws volgen terwijl ze tegelijk met andere dingen bezig zijn.

Trinity Audio publiceerde als eerste een interessant rapport inzake de betrokkenheid van luisteraars bij digitale audio en native audioreclame. Dat rapport levert nu al een paar lessen op:

De totale listen-through rate (LTR, het percentage luisteraars dat tot het einde blijft luisteren) voor audiocontent is 59%.
Audioadvertenties worden breed aanvaard, met een LTR van 91%.
Luisteraars hebben een voorkeur voor langdurige content: een LTR van 70% voor inhoud die langer dan 5 minuten duurt, tegenover minder dan 60% voor kortere content.