Hvordan jeg kombinerte GPT-3.5 med en generativ voice-AI

Hjem Om meg

Terje Sakariassen

15. Mars 2023

3 min

Introduksjon

Tilnærming

Resultat

Openai + elevenlabs

Introduksjon

I løpet av vinteren 2023 opplevde jeg, sammen med mange andre, en fascinasjon for store språkmodeller (Large Language Models, LLMs) og deres banebrytende potensial i hvordan vi samhandler med teknologi. Denne nysgjerrigheten ledet meg til å dykke dypere inn i LLMs verden for å forstå og utforske deres kapasiteter nærmere. Inspirert av dette, tok jeg utfordringen med å utvikle en app som ville gjøre det mulig for meg å føre samtaler med historiske skikkelser, motta svar i deres autentiske stil og personlighet – et vindu inn i fortiden gjennom moderne teknologi.

Etter hvert som jeg utforsket denne ideen, innså jeg imidlertid at resultatene ikke var så annerledes fra det en kreativt utformet prompt i ChatGPT kunne oppnå. For å legge til et ekstra lag av innovasjon og spenning, besluttet jeg å utvide målet for prosjektet til også å inkludere generering av stemmesvar i de historiske figurenes faktiske stemmer. Med tanke på at mange av de personene jeg ønsket å “snakke med” hadde vært død i en lengre tid, sto jeg overfor en både spennende og utfordrende oppgave. Dette prosjektet ble ikke bare en reise i teknologiens verden, men også en tidsreise som søkte å gjenopplive fortidens stemmer og bringe historien til live på en måte jeg aldri hadde opplevd før.

Tilnærming

Jeg startet med å utvikle en backend som kunne håndtere spørsmål og sende prompts til OpenAI’s Chat Completions endepunkt. Dette gjorde det mulig å generere svar som speilet den valgte historiske personlighetens stil og tone.

Fictional backend

I denne prosessen, ble hvert spørsmål nøye analysert og konvertert til en prompt som var skreddersydd for å reflektere den spesifikke personlighetens tenkemåte og uttrykksform. Dette skapte en unik og personalisert interaksjon med brukeren, hvor svarene ikke bare ga informasjon, men også formidlet en følelse av å kommunisere med selve personen.

Parallelt med dette, tok jeg i bruk ElevenLabs’ voice teknologi, og trente den på stemmene til de samme personene. Målet var å kunne generere lydklipp som etterlignet deres autentiske stemmer. Dette var en formidabel utfordring, særlig når det gjaldt å rekonstruere stemmene til personligheter som døde før lydopptak var mulig. Uten tilgang til deres ekte stemme, måtte jeg bruke litt kreativitet til å blande forskjellige stemmeprofiler for å skape en troverdig representasjon av hver person.

For å forenkle brukerinteraksjonen, integrerte jeg denne funksjonaliteten med Facebook Messenger gjennom ManyChat. Dette eliminerte behovet for å utvikle en separat front-end, og gjorde tjenesten lett tilgjengelig for andre enn meg.

Manychat Backend Flow

Prosessen jeg endte opp med, kan beskrives slik:

Brukeren stiller et spørsmål til en valgt person gjennom Facebook Messenger.
En forespørsel med spørsmålet sendes til backend.
Backend genererer en passende prompt som sendes til OpenAIs endepunkt.
Et generert svar mottas av backend og sendes videre som en forespørsel til ElevenLabs.
ElevenLabs returnerer en .mp3-fil til backend.
Backend mellomlagrer filen og returnerer en JSON i samsvar med ManyChats spesifikasjon for lyd.

Underveis møtte jeg en utfordring med ManyChats timeout-begrensning på 10 sekunder for dynamisk innhold. Siden både tekstresponsen og lydgenereringen ofte tok lengre tid enn dette, implementerte jeg en polling-mekanisme i alle endepunktene for å omgå denne begrensningen. Dette sikret en jevn og brukervennlig opplevelse, selv når svarene krevde mer tid å generere.

Resultat

Som filmen over viser, ble resultatet overraskende bra. Kombinasjonen av Large Language Models (LLMs) og stemme-AI teknologier er et stort hint til hva vi kan forvente fremover, og har virkelig vist hvor enkelt og effektivt det er å skape noe som virket utenkelig bare noen få måneder tilbake.

Ser jeg fremover, er det en verden av muligheter som venter på å bli utforsket. Jeg er entusiastisk ved tanken på å fortsette å dykke dypere inn i disse teknologiene, eksperimentere med nye integrasjoner, og utvikle enda mer innovative og grensesprengende applikasjoner. Jeg er overbevist om at det vi ser nå bare er begynnelsen på hva som er mulig, og jeg ser frem til å være en del av denne spennende fremtiden.

For en nærmere titt på de andre stemmene jeg testet, se videoen nedenfor 👇👇👇

Introduksjon

Tilnærming

Resultat

Share