Dirbtinio intelekto sukurtos dainos tampa ilgesnės, nebūtinai geresnės

„Stable Audio 2.0“, „Stable AI“ garso generavimo modelis, dabar leidžia vartotojams įkelti savo garso pavyzdžius, kuriuos jie gali pakeisti ragindami ir kurti dirbtinio intelekto sukurtas dainas. Tačiau dainos dar nelaimės jokių „Grammy“ apdovanojimų.

Pirmoji „Stable Audio“ versija buvo išleista 2023 m. rugsėjo mėn., o kai kuriems mokantiems vartotojams buvo pasiūlyta tik iki 90 sekundžių, o tai reiškia, kad jie galėjo sukurti tik trumpus garso klipus, kad galėtų išbandyti. „Stable Audio 2.0“ suteikia trijų minučių trukmės takelį, tokio pat ilgio, kaip ir dauguma radijui palankių dainų. Visi įkelti garso failai turi būti be autorių teisių.

Skirtingai nuo „OpenAI“ balso generavimo modelio „Voice Engine“, kuris pasiekiamas tik tam tikrai vartotojų grupei, „Stability AI“ statinį balsą padarė nemokamą ir viešai prieinamą savo svetainėje, o netrukus ir API.

Vienas didelis skirtumas tarp „Stable Audio 2.0“ ir ankstesnės jos iteracijos yra galimybė kurti dainas, kurios skamba kaip dainos, kartu su įžanga, progresu ir pabaiga, teigia „Stability AI“.

Bendrovė leido man šiek tiek pažaisti su „Stable Audio“, kad pamatyčiau, kaip jis veikia, ir sakykime, kad dar reikia daug nuveikti, kol galėsiu nukreipti savo vidinę Beyoncé. Su „pop daina su Americana atmosfera“ (beje, turėjau omenyje Americana), „Stable Audio“ sukūrė dainą, kuri iš dalies skamba taip, lyg ji priklausytų „Mountain Vibes“ trečiadienio ryto „Spotify“ grojaraščiui. Bet ji taip pat pridėjo tai, kas, mano manymu, yra vokalas? paskutinis kraštas Žurnalistas tvirtina, kad tai skamba kaip banginių garsai. Man labiau rūpi, kad netyčia pakviečiau Keanu į savo namus.

Teoriškai galėčiau pakoreguoti garsą, kad jis taptų labiau mano klausymosi stilius, nes naujos „Stable Audio 2.0“ funkcijos leidžia vartotojams tinkinti savo projektą koreguojant raginimo stiprumą (dar žinomą kaip raginimo laikytis) ir kiek įkelto garso. moduliuos. Naudotojai taip pat gali pridėti garso efektų, pvz., auditorijos riaumojimą ar klaviatūros paspaudimus.

READ  „Niantic“ surenka „Pokémon GO“ darbo grupę, kad išspręstų žaidėjų problemas

Be keistų banginio Gregory garsų, nenuostabu, kad dirbtinio intelekto sukurtos dainos vis dar skamba keistai ir be sielos. Mano kolega Wesas Davisas apie tai pagalvojo pasiklausęs Sono sukurtos dainos. Kitos įmonės, tokios kaip „Meta“ ir „Google“, taip pat ėmė kurti AI garso įrašą, tačiau savo modelių viešai nepaskelbė, nes renka kūrėjų atsiliepimus, kad galėtų išspręsti bejėgio garso problemą.

„Stable Audio“ buvo apmokytas naudojant „AudioSparx“ duomenis, kuriuose yra daugiau nei 800 000 garso failų biblioteka, teigiama „Stable AI“ pranešime spaudai. „Stability AI“ patvirtina, kad „AudioSparx“ atlikėjams buvo leista atsisakyti savo medžiagos, kad galėtų mokyti modelį. Autorių teisių saugomi garso mokymai buvo viena iš priežasčių, kodėl buvęs „Stable AI“ garso viceprezidentas Edas Newtonas-Rexas paliko įmonę netrukus po „Stable Audio“ paleidimo. Šiam leidimui „Stability AI“ teigia, kad bendradarbiauja su „Audible Magic“, kad naudotų savo turinio atpažinimo technologiją, kad galėtų sekti autorių teisių saugomą medžiagą ir blokuoti jos patekimą į platformą.

„Stable Audio 2.0“ yra geresnė nei ankstesnė versija, kad dainos skambėtų kaip dainos, tačiau jos dar nėra. Jei modelis primygtinai reikalauja pridėti vokalo, galbūt kitoje versijoje kalba bus aiškesnė.

Parašykite komentarą

El. pašto adresas nebus skelbiamas. Būtini laukeliai pažymėti *