Слушнете како звучи Бранка Станковска со помош на AI! Столе Китановиќ за македонскиот стартап кој гради нова генерација аудио книги!

- Advertisement -

Интервју со Столе Китановиќ, коосновач и проектен менаџер на Tytl, валандовскот стартап кој го “оживеа“ гласот на легендарната водителка Бранка Станковска.

Столе, за почеток, кој е Tytl?

- Advertisement -

Tytl е македонски deep tech стартап кој развива напредна AI платформа за нова генерација аудио книги. Наместо класични, еднодимензионални нарации, Tytl ќе понуди премиум искуство, каде секоја книга е збогатена со аудиовизуелни елементи, повеќе гласови и персонализирани приказни што далеку го надминуваат стандардот. Нашата цел е Tytl да стане синоним за аудиокнига во ера на AI и да ги отвори новите можности што ги носи технологијата. Зад платформата стоиме јас и Костадин Стојчев како соосновачи, а клучни членови на тимот се и Крсте Москов, Филип Селвиевски и Наталија Стојчева, заедно со уште неколку експерти од Македонија и странство.

Раскажете ни од каде дојде воопшто идејата да се “оживее” гласот на легендарната Бранка Станковска? Каков беше техничкиот процес зад реконструкцијата на нејзиниот уникатен глас?

- Advertisement -

Овој проект е дел од нашите напори во Tytl да овозможиме целосна персонализација при репродукција на аудио книги. Нашата визија е во иднина секој корисник да може да ја слуша содржината во интерпретација на гласови што му се значајни и блиски.

Одлуката да го „оживееме“ гласот на Бранка Станковска беше симболичен прв чекор, како начин да покажеме дека технички можеме, а воедно и тоа како културното наследство може да се интегрира со најновите технолошки можности. За реконструкцијата користевме современи пристапи кои вклучуваат анализа на големи аудио архиви, длабоко учење и модели за синтеза на говор што можат да ја задржат автентичноста, темпото и емоцијата на оригиналниот глас. Се беше реализирано со особена грижа и почит кон личноста и делото на Бранка.

- Advertisement -

Колку време ви требаше да стигнете до финалната верзија на гласот што ја сметате за „автентична”?

Процесот започна во 2023 година, и се уште ја чуваме првата синтетизирана снимка што ја генерираше моделот, како потсетник колку напредна технологијата за кратко време. На почетокот, гласот звучеше технички исправно и оддалеку наликуваше на Бранка, но недостасуваа многу од особеностите што го прават нејзиниот глас и говор уникатни. За да стасаме до последната верзија, поминавме повеќе месеци во постојано унапредување. Денес имаме верзија која ги носи препознатливоста и топлината на Бранка, но, тоа е процес кој сметаме дека и понатаму може да се унапредува, како што напредуваат технологијата и нашите модели.

Кои конкретни AI и voice-cloning технологии ги користевте? Дали користевте сопствени модели или ги адаптиравте постоечките open-source решенија? Како успеавте да ги одвоите гласот на Бранка од музика, амбиентални звуци и други гласови во архивските снимки?

Во процесот на реконструкција беа користени современи „voice cloning“ и „audio separation“ технологии базирани на DL. Овие модели покрај природна дикција и боја на гласот, овозможуваат и фина контрола на емоциите, интензитетот и експресијата, нов пристап што во последниве години се користи од водечките светски истражувачи за да се овозможи синтеза на гласови од минимален број примероци, таканаречен „zeroshot“ voice cloning.

Особено внимание беше посветено на користење методи што овозможуваат стабилност на синтетичкиот говор и уникатна можност за контролирање на изразот и емоционалната длабочина.

За македонскиот јазик, моделите ги дообучувавме и адаптиравме со сопствени аудио податоци, за да се постигне максимална автентичност и препознатливост дури и во најсуптилните детали. На овој начин, глобалните технолошки достигнувања се вклопија со локалните јазични и културни специфики, овозможувајќи резултат што досега беше незамислив.

Што значи за вас лично, а што за македонската култура, враќањето на нејзиниот глас во етерот?

За нас како deep tech стартап, ова е потврда дека најнапредните технологии можат да ја сочуваат и реинтерпретираат културната меморија на еден народ. Иако денес постојат се повеќе AI модели, малку кој обрнува внимание на македонскиот јазик и неговата посебност. Тоа некој мора да го направи, или ќе чекаме 3, 5, 10 години да го направи некој технолошки гигант, или самите ќе се вклучиме во напорите и ќе ги искористиме можностите на AI за зацврстување на сопствениот идентитет.

Враќањето на гласот на Бранка не е само технолошки успех, туку и нов начин да се одржи живо македонското културно наследство и да се доближи до нови генерации.

Доволно е да се запрашаме колку внимание им посветуваат големите технолошки компании како Microsoft на македонскиот јазик, кој го говорат околу 3,5 милиони луѓе ширум светот. Би си зел за право да кажам многу малку. Ако ги погледнеме последните три и пол години, реалноста е дека би имале само две опции, Марија и Александар, оние гласови од рекламите за „Temu“, кои македонскиот го говорат како некој кој никогаш не бил во Македонија, лошо акцентирано, неубедливо и крајно роботски.

Има ли план за слични проекти со други култни гласови од македонската историја?

Технологијата веќе ја имаме, сега само небото е граница. Во моментов работиме на API преку кој ќе може да се пристапи до моделот во неговата сегашна верзија, а од септември ќе биде подготвен за продукциска употреба, способен да реплицира речиси секој глас на македонски јазик. Така што, наскоро нема да биде чудно да го слушнете Дарт Вејдер како говори на струмички дијалект.

Како реагираа луѓето што првпат го слушнаа резултатот – дали има емоционален ефект?

Ние како тим сме прилично изолирани од реакциите на јавноста, особено во време кога луѓето новите технологии ги прифаќаат со изненадувачка леснотија. Денес за најголем дел од популацијата е сосема нормално што Бранка повторно „говори“. Многу малку беа навистина свесни за вложениот труд и тежината на постигнатиот успех, и тие малкумина беа фасцинирани, особено во моментите кога им овозможивме да разговараат со AI клонот на Бранка, односно сами да и постават прашање и да слушнат одговор од нејзиниот препознатлив глас.

Секако, многумина би се запрашале дали имавте комуникација со семејството на Бранка Станковска и дали добивте нивна согласност?

Досега немавме директна комуникација со нејзиното семејство. Се што беше направено, се одвиваше зад затворени врати и исклучиво во научно-истражувачки рамки. Бранка беше избрана бидејќи е безвременски симбол на македонското радио и телевизија и број еден македонски спикер, лик и глас кон кој имаме длабока почит. Доколку постојат наследници кои би сакале да се сретнат со нас со задоволство би го сториле тоа.

Како ја обезбедувате транспарентноста и контролата на користењето на овие гласови во јавноста? Можна ли е злоупотреба на voice-cloning технологијата и кои мерки преземате за тоа?

„Voice cloning“ технологијата носи голем потенцијал, но и реален ризик од злоупотреба, како создавање лажни изјави, манипулации или измами. Конкретно, нашите модели не се јавно достапни и немаме намера тоа да го направиме во блиска иднина. Пристапот е строго контролиран, секое користење се следи и се спроведуваат јасни етички правила.

Како Tytl планира да го монетизира овој проект? Дали дигиталните гласови ќе бидат достапни комерцијално?

Монетизацијата на проектот ќе се одвива преку повеќе извори: претплати за корисници на мобилната и веб-апликацијата, директна продажба и лиценцирање на платформата кон издавачи, медиумски куќи и партнери од индустријата (како IPTV, streaming и телеком провајдери), како и соработка со големи дигитални платформи и производители на аудио и smart уреди. Моделот комбинира freemium пристап за крајните корисници, како и премиум содржини и B2B партнерства, овозможувајќи исклучителен потенцијал за раст и широка достапност на нашите имерзивни аудиокниги и иновативни AI функции.

Каква е вашата визија за Tytl во следните 2–3 години?

Во следните 2–3 години ја гледаме Tytl како водечка платформа за продукција и дистрибуција на аудиокниги во Македонија. Целта ни е да овозможиме масовен пристап до модерни аудиосодржини на различни јазици, да склучиме стратешки партнерства со издавачи и технолошки компании, а Tytl, со малку среќа да стане и синоним за новото дигитално искуство во слушањето приказни.

Колку ви значи поддршката од ФИТР и што ви донесе членството во NVIDIA Inception?

Поддршката од Фондот беше клучна за да го забрзаме развојот и да ги реализираме нашите амбиции. Членството во NVIDIA Inception програмата пак ни овозможи пристап до напредни алатки, глобална експертиза и поддршка од еден од водечките светски технолошки екосистеми, што е голема предност за deep tech стартап како нашиот.

Дали веќе имате интерес или понуди од медиумски куќи, институции или образовни центри за користење на платформата?

Веќе остваривме состаноци со некои од најголемите македонски издавачки куќи, а преговорите очекуваме да ги финализираме до крајот на следниот месец. Има реален интерес и од други страни кои препознаваат потенцијал во нашата платформа, но засега сме фокусирани на издавачките куќи.

Кои се следните чекори – дали ќе се проширувате на странски пазари или ќе се фокусирате локално?

Амбициите за Tytl се големи. Платформата веќе е регистрирана трговска марка или е во завршна фаза на регистрација во Велика Британија, Австралија, САД, Канада и Македонија, што покажува дека размислуваме глобално од самиот почеток. Балканот е природен прв чекор за проширување, но целта ни е Tytl да излезе и на светските пазари. Паралелно, остануваме фокусирани на локалниот развој и партнерства, бидејќи сметаме дека токму од македонскиот пазар може да изградиме силна основа за понатамошна експанзија и меѓународен раст.

Сподели!
- Advertisement -