Skapa en dramatiserad podcast med AI – Del 2: Utforska möjligheterna med syntetiska röster

Nu snackar vi!

Jag tyckte det var så häftigt att testa syntetiska röster när de kom tidigare i år. De blev bättre och bättre. Jag har tidigare gjort mycket animationer och en hel del videoredigering, och det fanns inget mer frustrerande än när man upptäckte ett fel och var tvungen att spela in speakern på nytt. Men nu fanns det här – det var bara att ändra i en text och generera ut igen. Så coolt! Och ja, läskigt.

Två robotar som pratar med varandra. — Genererad bild från Adobe Firefly

AI-verktyg som jag tipsar om i det här inlägget:

ElevenLabs
Play.ht
Adobe Podcast
Adobe Premiere Pro Beta nya AI-funktioner
Stable Audio
Soundverse

Övriga tips:

Pixabay Music

Tekniken bakom syntetiska röster

Syntetiska AI-röster, eller Neural TTS (Neural Text-to-speech) använder, till skillnad från traditionella text-till-tal, eller talsyntes, djupinlärning för att få fram en mer nyanserad och mänsklig röst. För att AI:n ska förstå texten man skriver in, används Natural Language Processing (NLP). Den hjälper AI:n att förstå innebörden av texten, så att det till exempel blir olika betoningar i rösten beroende på om en mening avslutas med ett frågetecken eller en punkt. AI:n behöver också träna på stora dataset av mänskliga röster.

Resultatet blir att man knappt hör någon skillnad mellan en röst från en riktig människa och en syntetisk röst. Och använder man de syntetiska rösterna tillsammans med ChatGPT, så går det att göra mycket! Podd, till exempel 🙂

3 verktyg jag gillar skarpt

ElevenLabs

I skrivande stund så är ElevenLabs en av de absolut bästa AI-verktygen för syntetiska röster. De var tidigt ute med klonade röster, och det går knappt att höra skillnad på den mänskliga rösten och den klonade. Men jag kommer i första hand välja auto-genererade röster. Det betyder att jag kan slumpa fram en unik röst som passar. Nu finns det även röster på svenska, men dessa har fortfarande en lätt engelsk brytning (vilket jag tycker låter väldigt roligt). Jag hade tänkt att göra drama-podden helt på engelska, men får fundera över vilket språk jag ska välja. Eller så blir det båda. 😃

Play.ht

Det finns såklart även andra verktyg. Play.ht är ett annat bra verktyg som genererar mycket bra realistiska röster. Play.ht kallar dem för ultra-realistiska röster. Men tyvärr har de endast ultra-realistiska röster på engelska. Det är ett av verktygen jag använt i jobbet, och skapat små snuttar med speakerröst. De har vanliga syntetiska röster på svenska, men de låter just syntetiska, och passar inte riktigt för en dramatiserad podcast. Men, med det sagt. Utvecklingen går snabbt! Och kanske kommer jag att välja en annan AI när det väl är dags att göra rösterna.

Adobe Podcast Enhance Speech

Om du vill skippa allt med syntetiska röster, går det ju bra att spela in själv. Ett tips då är att städa ljudet med en AI. Till exempel är Adobe Podcast ett bra verktyg. Det städar bort brus och andra störande ljud och snyggar till rösten. Du kan ställa dig på gatan och spela in och få ut ett ljud som i mina öron närmar sig studiokvalité.

Adobe Speech Enhancement tool i Premiere Pro Beta

Adobe har haft speech enhancement-funktionen tillgänglig i Premiere Pro Beta ett tag nu. Det underlättar verkligen mycket av jobbet. Om man till exempel har en intervju där ljudet är dåligt så går det nu att bara klicka på en knapp så städas ljudet upp automatiskt.

Första testet med en syntetisk dialog

Jag kommer gå igenom hur jag gjorde, men såhär blev slutresultatet:

För att göra testet med syntetiska röster så gick jag tillbaka till ChatGPT. Jag behövde ett manus att utgå ifrån. Jag skrev till ChatGPT:

“Jag behöver ett utkast på första avsnittet av en podcast-serie, för att testa AI-rösten som ska läsa upp den. Kan du skriva början på första avsnittet? Skriv storyn på engelska.”

Sedan klistrade jag in det som ChatGPT hade gett mig tidigare, utkastet på storyn “Tidens väv”. ChatGPT skrev kanske inte riktigt ett mästerverk. Den är inte så skicklig på det subtila och nyanserade, vilket kan vara väldigt underhållande. Men för att använda som underlag i testet med rösterna så fungerade det utmärkt!

[Intro Music]

Narrator: Welcome to ”Tidens Väv,” a journey through time, identity, and the very fabric of reality. In a future where time travel is not only possible but a part of everyday life, one traveler’s pursuit of justice will unravel a mystery that transcends the boundaries of time itself. Hold tight, dear listener, for a tale of loss, regret, and self-discovery.

[Transition Sound]

Scene: A dimly lit office, filled with the hum of futuristic machinery. The Timekeeper, a stern and authoritative figure, briefs our protagonist, a seasoned time traveler named Elara.

Timekeeper: Elara, we have a situation. A criminal, unlike any we’ve faced before. He’s manipulating the weave of time in ways we can’t comprehend.

Elara: (Cynically) Another one? What makes this one so special?

Timekeeper: This one’s personal. The crimes, the patterns, they’re all connected to you somehow. We need you to track him down.

Elara: (Pausing) Connected to me? How?

Timekeeper: That’s what you need to find out. Every step he takes seems to echo your past, your mistakes, your losses.

Elara: (Coldly) My past is none of your concern.

Timekeeper: It is now. This mission is as much about you as it is about him. You’ll be traveling to different epochs, chasing his shadow. But be careful, Elara. Time has a way of playing tricks on those who dare to tamper with it.

Elara: (Determined) I’ll find him. And I’ll stop him.

Timekeeper: I know you will. Just remember, time is a delicate fabric. One wrong pull, and it all unravels.

[Transition Sound]

Scene: Elara’s first jump through time. A bustling marketplace in a distant past.

Elara: (Voiceover) The Timekeeper’s words lingered in my mind as I stepped into the past. A criminal that mirrored my own life? It was absurd, yet intriguing. The chase had begun, and I was drawn into a puzzle that seemed to be designed just for me.

[Cliffhanger Sound]

Narrator: As Elara delves into the mystery, she finds herself facing more than just a criminal. She’s facing her own past, her own choices, her own regrets. What will she discover as she unravels the weave of time? Join us next time on ”Tidens Väv.”

[Outro Music]

ChatGPT valde helt själv att namnge min huvudkaraktär. Elara. Hon skulle senare bli Alara. Det är oklart om det var jag som skrev fel vid ett tillfälle eller om jag bara bytte eftersom jag föredrog ett A i början. Hur som, Alara var född. Jag kommer i ett senare inlägg skriva om hur jag mejslade fram karaktärerna, och hur ChatGPT hjälpte mig med det. Men jag tog de genvägar som dök upp, och det var ChatGPT som till stor del döpte alla karaktärer.

Men serien kunde inte heta “Tidens väv”, så jag bad ChatGPT om namnförslag. Här är några av de namn som den gav mig: Weave of Time, Time’s Tapestry, Chrono Mirage, Temporal Reflections. Men jag gillade Time Shifter bäst.

Kanske var det för att namnet påminde om Shape Shifter. Hamnskiftare eller formskiftare på svenska. Idén om en hamnskiftare var vanlig i äldre folktro, och oftast bytte man skepnad till ett djur. Varulven är ett känt exempel. Redan här hade jag fått inspiration till något som skulle bli centralt i berättelsen. Tidslinjerna. Och att karaktärerna inte bytte form. De bytte tid.

Nästa steg var att ta manuset till ElevenLabs. Jag har bara ett gratiskonto, så jag hade inte så många krediter att leka upp. Eller Quota som de kallar det. Som gratisanvändare har jag 10 tusen Quota varje månad. Det räckte ungefär till mitt lilla intro, plus lite test av rösterna och att jag några gånger tryckte fel och slösade upp Quota i onödan. Men det är sådant man får räkna med. När jag väl börjar producera kommer jag att köpa en prenumeration, men i dagsläget behövs det inte.

ElevenLabs har en slumpgenerator där man kan ta fram syntetiska röster. Man anger kön och ålder och så kan man testa sig fram och välja den man tycker bäst om. Det går även att välja röster som andra har slumpat fram. Och, som jag nämnde tidigare, klona sin egen röst.

Jag laddade ner ljudfilerna med mina repliker från ElevenLabs och importerade in dem i Adobe Premiere Pro. Jag hade kunnat välja ett mer renodlat program för audio, till exempel Adobe Audition, men jag har arbetat mer i Premiere Pro och är snabbare i det programmet. I Premiere Pro klippte jag upp replikerna och lade dem i ordning, så att det verkligen blev en dialog. Det här arbetet kanske går att automatisera på något sätt, men för det här testet så funkade det bra.

Jag letade även rätt på lite bakgrundsmusik, och valde att ladda ner gratis från Pixabay Music. I dagsläget har jag inte hittat någon AI som gör musik som jag känner mig nöjd med, men har testat Stable Audio och Soundverse där man promptar fram ljudklipp.

Vad tycker ni om resultatet? Mycket behöver finslipas men det känns ändå lovande. Och det känns framför allt roligt att leka med verktygen.

Men hur sjutton gör man då när man skriver en berättelse? I nästa inlägg kommer jag gå igenom hur jag hittade en bra metod för min story och hur ChatGPT hjälpte mig arbeta fram min första struktur.