Google SoundStorm: AI orodje za ustvarjanje zvokov in govora 🗣

Ja, ne gre za neko hitro AI obdelavo ali dodelavo zvokov ali govora. Gre USTVARJANJE govora, zvoka iz nič. Ali pa iz tvojega glasu.

Ampak najprej, kdo ali kaj je Google SoundStorm?

Google SoundStorm je orodje, ki ima sposobnost, da zelo hitro ustvarja zvoke ali pogovore, ki zvenijo kot čisto pravi ljudje, in lahko celo posnema glasove dejanskih oseb. Na primer tvojega.

V pol sekunde lahko ustvari 30 sekund zvoka, kar je veliko hitreje kot druge podobne tehnologije. Ta hitrost je možna zaradi posebne tehnike, ki jo uporablja SoundStorm: namesto da bi zvok ustvarjal korak za korakom (tako kot nekatere druge tehnologije), SoundStorm zvok ustvari naenkrat.

Ena od najbolj zanimivih stvari, ki jih SoundStorm zna, je ustvarjanje dialogov, pogovorov. 👇

https://twitter.com/LinusEkenstam/status/1662883824685006848

To pomeni, da lahko ustvari zvok dveh ali več ljudi, ki se pogovarjajo. To lahko stori tako hitro, da lahko v samo dveh sekundah ustvari 30 sekund dialoga.

Ok, vse lepo in prav, ampak kakšne dejanske probleme pa bi lahko takšna tehnologija reševala?

Za branje: Ljudem z omejenimi zmožnostmi branja ali slabovidnim lahko besedila pretvori v naraven govor. To je lahko še posebej koristno pri bralnikih e-knjig in spletnih bralnikih.

Za učenje: omogočil bo prilagojene učne programe/hitrosti, saj lahko vsebino predstavi v obliki dialoga ali razprave, kar lahko pomaga pri razumevanju in pomnjenju.

Za razvedrilo: V igrah in drugih interaktivnih medijih bo omogočil bolj naravno in prepričljivo zvočno doživetje, saj lahko ustvari dialoge in glasove, ki se slišijo kot resnični ljudje.

Za bolj čustveno komunikacijo: Bolj naravne in učinkovite interakcije z virtualnimi asistenti, ki bodo zveneli kot ljudje.

Za večjezičnost: Omogočil bo hitro in učinkovito prevajanje v druge jezik, kar bi povečalo razumljivost in dostopnost.

Za učenje tujihe jezikov: SoundStorm bi lahko uporabili za generiranje dialogov v jeziku, ki se ga učijo, s prilagojenimi naglasi ali hitrostmi, kar bi jim lahko pomagalo bolje razumeti in se učiti jezika.

Za pisatelje in scenariste: za branje svoijh del bodo uporabili orodje z različnimi glasovi in intonacijami, kar bi jim pomagalo bolje vizualizirati dialoge in razumeti, kako se njihove zgodbe slišijo.

Za ljubitelje zgodovine ali fikcije: za rekonstrukcije zgodovinskih dialogov ali za ustvarjanje zvočnih knjig iz priljubljenih romanov.

Kaj pa tisti bolj creepy part?

SoundStorm zna tudi ustvariti zvok, ki zveni kot določena oseba. Kot ti!

Da to naredi, pa potrebuje le zvočni izsek tvojega glasu in voila … že te kliče kitajski Blaž Pregelj.

Google se zaveda, da lahko to tehnologijo zlorabijo – na primer, nekdo bi lahko uporabil, da bi posnemal glas druge osebe. Zato so v Google razvili način, kako prepoznati, če je zvok ustvaril SoundStorm. Tako lahko – kot pravijo – preprečijo zlorabo te tehnologije.

Google načrtuje, da bo v prihodnosti še naprej raziskoval, kako preprečiti zlorabo te tehnologije. Na primer, razmišljajo o tem, da bi v zvok dodali nekakšen ‘vodni žig’, ki bi pokazal, da je zvok ustvarilo njihovo orodje.

Share this post if you liked it.

Subscribe & dont miss next 📩

Create GPT with your Writing Style

Write your email to access my ChatGPT writing style framework that will make ChatGPT write like you do for free!