AI balso reprodukcijos garso knygose yra iš „Amazon“, „Apple“ ir „Google“.

Posted On: 17 birželio, 2023
Posted By: Morton Corbyn
Comments: 0

Garsinės knygos – „kalbančios knygos“, kaip jos buvo žinomos iš pradžių – yra gana nesenas reiškinys, tačiau jos siekia daug toliau nei „Apple“ ir „Amazon“. Kalbamųjų knygų koncepcija atsirado praėjusio amžiaus ketvirtajame dešimtmetyje ir buvo prieinama regėjimo negalią turintiems žmonėms. Tik aštuntajame dešimtmetyje kasetėmis įrašytos knygos pradėjo malšinti keleivių nerimą. Tačiau tik tada, kai jie įsiskverbė į mūsų telefonus, laikmena iš tikrųjų pradėjo veikti.

Nuo „iPhone“ eros pradžios garsinių knygų skaičius nuolat augo. Pramonė turi dešimtmetį dviženklis augimas, tendencija, kuri, kaip tikimasi, paspartės. pagal prognozę žodžiusGarsinių knygų segmento pardavimai šiuo metu gali siekti daugiau nei 5 milijardus dolerių – maždaug 2 milijardai dolerių iš JAV, didžiausios pasaulyje garsinių knygų rinkos –, o pajamos turėtų padidėti 26,4 % kasmet nuo 2022 m. iki 2030 m. milijardų iki 2030 m. Dėl to garsinės knygos yra „sparčiausiai populiarėjantis knygų formatas pasaulyje“, teigia Wordsrated.

Be to, audioknygos tampa dar viena rinka, kur dirbtinis intelektas bando įsiskverbti, o dirbtinio intelekto sukurti garsai įsijungia ir atima mikrofoną iš balso aktorių. Ar vartotojai pasiruošę AI šnabždėti į ausis? Tiesa ta, kad tai jau vyksta.

„Alphabet“ „Google Play“ ir „Apple Books“ tam tikru mastu naudoja dirbtinio intelekto sukurtus garsus, ir tikėtina, kad ši tendencija išliks. „Google Play“ siūlo leidėjams galimybę kurti automatinio pasakojimo garsines knygas, jei leidėjams priklauso garso knygos teisės ir jie pasirenka automatinį pasakojimą. Nė vienas iš jų nėra sukurtas be leidėjo sutikimo ir joks vartotojas negali teisėtai sukurti pats.

„Daugeliui leidėjų garsinių knygų kūrimas gali būti didelė investicija“, – sakė Judy Chang, „Google Play“ knygų produktų valdymo direktorė. Balso aktorių apmokėjimas yra išlaidų lygties dalis. „Leidėjai gali įvertinti garsinių knygų paklausą savo pavadinimams prieš investuodami į žmogiškąjį pasakojimą“, – sakė ji.

Kaip žmonės girdi knygas?

Žmonės mėgsta audio knygas. Jie nusileidžia tik muzikai kaip populiariausias garso produktas. Tačiau AI balso naudojimas garso knygose sukelia tai, ką tam tikru mastu galima apibūdinti kaip privačią intymaus naujosios technologijos naudojimo formą. Tai nėra taip, kaip klausti Alexos apie orą ar groti dainą. Tai gali parodyti ribotą atvejį, kaip vartotojai (ir įmonės) gali nueiti arba nueis – bent jau kol kas – keisdami žmonių pasakotojus į kompiuterio generuojamus balsus.

„Žmonės labai jautrūs balsui“, – sakė didžiausios balso perdavimo rinkos „Voices“ generalinis direktorius Davidas Ciccarelli. Nors jūsų akis gali atpažinti judesį 24 kadrų per sekundę greičiu, ausis gali tai padaryti iki 20 000 kartų per sekundę tikslumu. Jis pridūrė: „Kadangi dauguma žmonių audioknygų klausosi su ausinėmis, jaučiamas didesnis intymumo jausmas“.

Pasakojimo kokybė taip pat yra svarbi problema, nes ji daugiausia priklauso nuo klausytojo ryšio su garso įrašu jausmo. „Beveik 60 % klausytojų atsisakė audioknygos, nes jiems nepatiko pasakotojas… Žmonės mėgsta klausytis kitų, ypač kai pasakojamos istorijos“, – sakė Chiccarelli.

Nelengva dirbtinio intelekto balsą paversti ne tik žmogaus balsu, bet ir bendrauti su klausytojais. Galų gale, balsai yra reprezentacija, o meną sunku atkartoti. „Geriausias dalykas, kurį žmonės gali padaryti, ko negali dirbtinis intelektas, yra laiko nustatymas“, – sakė Ciccarelli, – „nesvarbu, ar tai būtų nepatogi pauzė, ar juokingas komiško laiko pojūtis, dirbtinio intelekto balsui sunku tai suprasti“.

READ Pasiruoškite įkūnyti gimusiojo sielą – neapykantos laivas išankstinis pirkimas – Diablo IV – Blizzard naujienos

Tempas taip pat gali būti problema AI, nes pasakojimo tempas skirsis priklausomai nuo to, kas vyksta skaitomo turinio turinyje. Natūralu, kad kai kurias siužeto ar argumento dalis skaitome skirtingu greičiu nei kitas, bet taip yra todėl, kad suprantame, ką skaitome. Dirbtinis intelektas to nedaro. „Profesionalūs pasakotojai žino, kada paspartinti skaitymo tempą ir grįžti prie įprasto skaitymo tempo“, – sakė Chicarel. Jie taip pat moka ištarti žodžius ir neturi problemų dėl simetrijos.

AI balsas pagerės, todėl klausytojo pasipriešinimas jam sumažės. Kalbant apie naujas, žaidimą keičiančias technologijas, kyla klausimas net ne ar, o kada. Ciccarelli tai žino.

„Pramonė suprato, kad pokyčiai tvyro ore ir kad dirbtinis intelektas, kai jis jau čia, pagerės“, – sakė jis. Jis pridūrė: „Tai tapo nuo juokingo iki malonaus, o dabar vis gerėja“. Galima tikėtis profesionalių balso atlikėjų balso atkūrimo, o tai pabrėžia, kad svarbu eiti šiuo keliu etiškai ir apsaugoti balso aktorių teises į „kreditą, sutikimą ir kompensaciją“.

Net ir naudojant AI balsą, kai kur vyksta balso aktorius. Pasak Voicebot.ai įkūrėjo ir generalinio direktoriaus Bretto Kinsella, kalbos į kalbą sistemos tapo populiarios žiniasklaidoje, nes jos leidžia sintetiniais balsais išreikšti aukštos kokybės emocinį turinį. Tačiau tam vis tiek reikia balso aktoriaus, kurio balsas vėliau paverčiamas kitu.

Ką sako balso aktoriai

Kai kuriems balso aktoriams pasirenkamas nusigręžimas. „Aš atsisakau daryti balsą, kuriame sakoma, kad jie imsis mano balso ir modeliuos jį dirbtiniam intelektui“, – sakė Bradas Zifferis, balso aktorius, turintis 14 metų patirtį. „Geriausias būdas apsisaugoti, – sakė jis, – būti nuošalyje.

Per pastaruosius du dešimtmečius pasakotojai ne skaitė spausdintų knygų kopijas ir redagavo puslapius, o garsus pavertė skaitymu planšetiniame kompiuteryje. Nuo įrašymo tik studijose iki daugybės kūrinių įrašymo namuose. Garso redaktoriai perėjo nuo aštrios sujungimo juostos prie skaitmeninių failų redagavimo anuliuodami ir įrašydami klaidas. Leidėjai perėjo nuo turinio siūlymo kasetėje į kompaktinį diską prie skaitmeninio pristatymo. „Su kiekvienu perėjimu ateina baimė ir netikrumas, bet per kiekvieną perėjimą mes išmokome, tobulėjome, prisitaikėme ir klestėjome“, – sakė Audio Publishers Association vykdomoji direktorė Michelle Cobb.

Cobbas sako, kad garso pramonės augimas plečia galimybių spektrą, o naujos technologijos yra to dalis. Pasak jo, klausytojams augant ir garso turiniui populiarėjant, leidėjai skelbia originalius ir pirmuosius garso kūrinius, leidžiančius išplėsti savo kūrybinį požiūrį ir privilioti daugiau vartotojų išbandyti garso įrašą. Jis sakė: “AI technologija gali padėti darbo eigoms. AI nėra naujas įrankis vokaliniams talentams, prodiuseriams ir leidėjams, nes daugelis jų naudojasi, kad pagerintų kokybės kontrolę po gamybos.”

Nuo praėjusios savaitės šis požiūris į vokalo gamybą dabar apima „The Beatles“.

Ši plėtra neišvengiamai apims dirbtinio intelekto keliamą riziką. „Nepriklausomai nuo profesijos, baimė, kad mašina pakeis kažkieno pragyvenimo šaltinį, yra labai reali“, – sakė Cobbas. Jis pridūrė: „Tačiau žinau, kad aš ne vienas vertinu savo mėgstamo pasakotojo gilų, turtingą pasirodymą ir emocinį intelektą, kai jis atlieka žodžius pagal galingą žodinę žmonių pasakojimo tradiciją“.

READ Sudie netradicinis įsilaužimas: netrukus galėsite atsisiųsti albumus į „Spotify“ darbalaukio programą

Kur susitinka ChatGPT ir Alexa, Siri

Didžiausias dabar vykstantis pokytis yra dėmesys tekstui ir vaizdams, o ne garsui, o dirbtinio intelekto pokalbių robotai, vadovaujami OpenAI ChatGPT, patraukia daugiau rašymo, įskaitant pasakojimus ir AI grafiką, sukuriančią vaizdus. Kinsella pažymėjo, kad AI balsas atliko svarbų vaidmenį integruojant AI į kasdienį gyvenimą anksčiau. „Balsas iš tikrųjų buvo ankstesnė AI banga… Siri, Alexa ir Google Assistant naudoja dirbtinius balsus“, – sakė jis. Šių įrenginių įvestis ir išvestis tapo balsu į kalbą, o galiausiai teksto AI modeliai gali turėti panašų kūrimo modelį. “ChatGPT sugrąžina principą, kad pirmiausia tekstas. Kai kurie naudojimo atvejai liks tekstu, o kiti natūraliai pirmiausia pereis prie balso įvesties, o vėliau – balso (dirbtinio balso) išvesties”, – sakė Kinsella. “ChatGPT programa mobiliesiems šiandien palaiko balso įvestį, bet neturi teksto į kalbą, kad būtų galima klausytis atsakymų. Tai tikrai bus kai kuriais atvejais.”

Kalbant apie leidybą, garsinės knygos yra didėjanti, bet vis dar palyginti nedidelė bendro leidybos dalis, o papildomų laiko ir išlaidų reikalavimai ir toliau turės įtakos sprendimų priėmimo procesui.

„Kai kurie leidėjai nori nemokėti papildomų išlaidų, o kai kurie autoriai taip pat nesiryžta prisiimti tokių išlaidų patys“, – sakė Kinsella. „Jei kompozitorius įrašo savo balsu, vis tiek yra tam tikrų studijų ir montažo išlaidų, o tai gali užtrukti kelias dienas.

AI gali šiek tiek palengvinti šių kliūčių peržengimą.

„Apple“ sukūrė programinę įrangą, kuri sumažina arba pašalina garso knygų gamybos trintį, siekdama pateikti skaitytojams daugiau garsinių knygų. Autoriai gali sukurti savo garsines knygas be pradinių tiesioginių išlaidų ir laiko. „Apple“ autorius aptarnaujančios įmonės ima mokestį už kiekvieną parduotą audioknygą.

„Amazon“, kuriai priklauso „Audible“, vienas iš dominuojančių sektoriaus žaidėjų, turi panašią garso knygų įrašymo paslaugą, tačiau joje naudojami profesionalūs balso aktoriai, o ne sintetinė kalba. „Būtų prasminga prie tokios paslaugos pridėti balso transkripcijas arba kelis jų sintetinius balsus, bet aš nežinau apie jokią veiklą šioje srityje“, – sakė Kinsella.

„Apple“ atsisakė komentuoti. „Amazon“ neatsakė į prašymus pateikti informaciją apie garso knygų pasiūlymus.

Teksto formatus dažniau kalba AI

Zephyr, žinoma, yra susirūpinęs dėl vaidmens, kurį AI atliks jo profesijoje. “Dirbtinio intelekto pasaulį vertinu labai atsargiai. Manau, kad jis turi didelį potencialą… bet gali būti lengva juo piktnaudžiauti. Šiuo metu vis dar manau, kad tikram žmogaus balsui nėra lygių. Sintetinių balso algoritmų tiesiog nėra dar.“ sugebėti atkurti visus žmogaus balso niuansus.

AI balsas reikalingas norint įveikti natūralų balso vingį, suprasti / interpretuoti skaitomąją medžiagą ir sugebėti sukelti emocijas bei keisti jausmus, kaip reikalauja medžiaga. Kai įmonės pradeda eksperimentuoti su dirbtiniu intelektu, Zefferis sakė nenustebęs, jei jo pajamos būtų kaip nors paveiktos. Tačiau jis pridūrė: „Dar neradau kliento, kuris man sakytų, kad pasirinko dirbtinio intelekto balsą, o ne mane įdarbindamas.

READ God of War Ragnarok turi šalutinę misiją, kuri yra puiki duoklė klajokliam kūrėjui

„Ziffer“ tikisi, kad dirbtinis intelektas bus plačiai naudojamas mažesnį biudžetą turinčiose įmonėse arba įmonėse, kurios orientuojasi į el. mokymosi scenarijus. „Tačiau tiems, kurie nori geriausio, darbą geriausia palikti žmonėms“, – sakė jis. “Gyviems, kvėpuojantiems aktoriams, kurie turi tikrus jausmus, protą ir emocijas bei gali atgaivinti kūrinį, geriausiai tinka dinamiškam ir patikimam balsui. Gali būti lengva atkurti bet ką naudojant technologijas, bet niekas neprilygsta tikrovei.”

Andrea Collins, penkiolikos metų patirtį turinti balso aktorė, taip pat mano, kad dirbtinis intelektas kai kurioms įmonėms suteikia būtinų kompromisų. „Manau, kad tai taps puikia priemone klientams, ieškantiems greitai ir nebrangiai įgyvendinamo projekto“, – sakė ji. Scenarijai, kuriuose įmonės išduoda tikrą greitį, yra pristatymai ir atitikties medžiaga. Greitis taip pat yra būtinas garso knygų kūrimo veiksnys.

„Kalbant apie garso knygas, esu tikras, kad jos užims nemažai vietos, nes AI balsas gali apdoroti 30 000 žodžių daug greičiau nei žmogus“, – sakė Collinsas.

Ji dar nematė AI įtakos jos finansams, bet pridūrė: „Manau, kad ta diena ateis. Taigi, užuot kišęs galvą į smėlį, bandau ją aplenkti“.

Collins šiais metais imasi veiksmų, kad atkurtų savo balsą. „Tą patį daro ir dauguma žinomų menininkų, kuriuos pažįstu. Tikiuosi, kad mano atkurtas balsas taps dar vienu įrankiu mano kūryboje, kur jis galės pasyviai dirbti projektuose, o aš galiu dirbti su menininkais, kuriems reikia žmogaus balso, turėdamas didesnį biudžetą. “

Balso aktorius veteranas Johnas Cobainas sako, kad jo profesijos bendraamžiai turi būti protingi valdydami naują AI realybę. „Prieš porą metų, kai ši technologija dar tik atsirado, sakiau, kad ji nužudys pusę VO atstovų verslo… Ir nors vis dar manau, kad tai tiesa, gali praeiti dar keli metai.

Jis daugiausia dėmesio skiria tai, kas, jo manymu, bus naujas ilgalaikių projektų rinkos segmentas, kuriame DI klonuoti balsai ir žmonės gali susitikti viduryje. “Daugiau nei 100 000 žodžių teksto daugeliui šių didelių projektų, kurių aš niekada nepaliesčiau 10 pėdų stulpu. Tačiau su dirbtiniu intelektu su malonumu licencijuosiu savo dirbtinio intelekto atkurtą balsą ir surinksiu laisvų lėšų”, – sakė Cobainas.

Jis žino, kad daugelis jo bendraamžių gali ir toliau nesutikti dėl lovos su mašinomis. „Galbūt esu vienas iš nedaugelio VO kūrėjų / aktorių, kuris mano, kad tai geriausias dalykas nuo pjaustytos duonos“, – sakė Cobainas. Tačiau verslo požiūriu jis sakė, kad bus sunku susitaikyti su DI masto pokyčiais. Kurį laiką juokavau: „Jei galėčiau tiesiog užsidirbti pinigų su balso perdavimu… nereikėtų daryti balso perdavimo, tai būtų puiku! “Gerai, mes einame.”

Morton Corbyn

Morton Corbyn yra „Kriptovaliutos.org“ autorius, rašantis apie naujienas, politiką, verslą, technologijas, sportą, pramogas ir gyvenimo būdą. Jo tekstuose daug dėmesio skiriama aiškiam informacijos pateikimui, aktualijų kontekstui ir skaitytojams naudingoms įžvalgoms. Autorius siekia pateikti patikimą ir suprantamai išdėstytą informaciją apie svarbiausius įvykius bei tendencijas, kurios formuoja šiuolaikinį pasaulį. Turinys orientuotas į kasdien aktualias temas ir skaitytojui svarbias naujienas.