Студентите Стефан Крстески, Матеа Ташковска, Борјан Саздов, заедно со своите ментори, професорите д-р Христијан Ѓорески и д-р Бранислав Геразов од Факултетот за електротехника и информациски технологии изработија модел на Вештачка Интелигенција на македонски јазик, кој е основа за развој на големи јазични модели, како што се GPT моделите, на македонски јазик.
Тие велат дека нивниот предизвик бил да допринесат за дигитална еволуција на македонскиот јазик и да создадат основа за негов развој во ерата на вештачката интелигенција. Моделот може да се користи во науката, бизнисот, но и во секојдневието. Тимот нагласува дека сите ресурси што ги развива се јавно достапни бидејќи сакаат да им овозможат и на други истражувачи и институции да ги користат, да надградуваат врз нив, а со тоа и да придонесат кон развој на вештачка интелигенција на македонски јазик.
Новинар – Сања Наумовска
Вие, како тим од професори и студенти од ФЕИТ изработивте модел на Вештачка Интелигенција на македонски јазик за кој што добивте меѓународна награда. Објаснете ни подетално за што се работи?
Целта на нашето истражување беше да го поттикнеме развојот на Вештачката Интелигенција (ВИ) и големите јазични модели на македонски јазик. Денес вакви модели, како што се GPT моделите што стојат зад ChatGPT, се користат сè повеќе во различни области за олеснување на секојдневната работа и за подобрување на продуктивноста.
Нашата идеја беше да изградиме модел кој не само што го разбира македонскиот јазик, туку и умее да комуницира на литературен и природен начин. За тоа беше потребна голема количина податоци, па во рамките на трудот го создадовме најголемиот јавно достапен текстуален корпус на македонски јазик. Дополнително, подготвивме и множество културолошки прилагодени инструкции, кои му овозможуваат на моделот подобро да учи како да следи насоки.
Паралелно со тоа, го развивме и првиот систем за евалуација на перформансите на големите јазични модели за македонски, за да можеме објективно да ги измериме резултатите. Последен чекор од овој процес беше создавањето на големиот јазичен ВИ модел domestic-yak со осум милијарди параметри, кој според евалуацијата е најдобриот модел за македонски јазик во својата категорија. Сите ресурси се од отворен карактер и јавно достапни: www.lvstck.org
Со ова истражување на некој начин придонесовме за поставување на основите за развој и евалуација на вакви големи јазични ВИ модели на македонски јазик.
Која беше мотивацијата и идејата за да започнете да работите на ваков проект?
Нашата мотивација произлезе од неколку фактори. Од една страна, сведоци сме на брзиот развој на големите јазични модели и нивната широка примена во светот, од образование и наука, до индустрија и секојдневна комуникација. Од друга страна, македонскиот јазик и покрај својата богата културна и историска вредност, сè уште е недоволно застапен во дигиталната сфера. Токму таа празнина ја почувствувавме како предизвик и можност да дадеме придонес кон дигиталната еволуција на македонскиот јазик и да создадеме основа за негов развој во ерата на вештачката интелигенција.
Каков е потенцијалот на моделот? Кои треба да се придобивките од него?
Потенцијалот на моделот е навистина голем, бидејќи претставува голем јазичен модел кој е трениран специјално на македонски податоци и ги препознава особеностите на нашиот јазик. Тоа го прави особено значаен, бидејќи овозможува природна и литературна комуникација.
Придобивките можат да се почувствуваат во повеќе области. Во секојдневието, моделот може да помогне при пишување известувања, резимеа и мејлови, проверка на граматика и стил или автоматско преведување. Во академијата и науката може да врши сумирање на трудови, анализа на текстови и да им помогне на студентите со објаснување на сложени концепти. Бизнис-секторот би можел да го користи за анализа на податоци и пазарни трендови, како и за поефикасна корисничка поддршка преку чет-ботови на македонски. Во медиумите пак, може да се применува за обработка на вести, креирање персонализирани содржини и препознавање на дезинформации. Дополнително, во јавната администрација може да придонесе кон автоматизација на административни процеси и поголема дигитализација на услугите.
Она што е уште поважно е дека моделот има простор за понатамошно надградување, со што неговата точност и применливост ќе се зголемуваат со време. А сите ресурси што ги развивме се јавно достапни што овозможува и други истражувачи и институции да ги користат, да надградуваат врз нив и заеднички да придонесеме кон развој на вештачка интелигенција на македонски јазик.

Неодамна вашиот труд освои награда на меѓународната конференција „Slavic NLP Workshop“, во рамки конференцијата за обработка јазик – ACL (Association for Computational Linguistics) во Виена, Австрија. Што претставува наградата за вас?
Освојувањето на наградата на „Slavic NLP Workshop“ во рамки на конференцијата ACL во Виена за нас е признание од огромно значење. ACL е една од најпрестижните и највлијателни конференции во светот за обработка на природни јазици, па самото тоа што нашиот труд беше препознаен таму значи дека квалитетот на нашата работа е потврден на интернационално ниво.
Ова признание е значајно и за ФЕИТ и УКИМ, бидејќи ја истакнува улогата на факултетот како место каде студентите имаат пристап до најсовремени знаења и истражувања во областа на вештачката интелигенција и обработката на јазик. За нас ова признание претставува потврда дека во Македонија може да се создаваат проекти од светски ранг, а тоа е дополнителна мотивација и за нас како тим, и за идните генерации студенти кои ќе сакаат да се посветат на оваа област.
Кои се најголемите предизвици за македонските студенти кои сакаат да работат на напредна технологија?
Еден од најголемите предизвици за македонските студенти кои сакаат да работат на напредни технологии е ограничениот пристап до опрема и ресурси. За развој на вакви системи потребна е голема процесирачка моќ, што кај нас често недостига. Дополнително, во нашиот случај посебен проблем беше и недостигот на дигитализирани податоци на македонски јазик како што се книги, текстови и други извори, без кои е тешко да се тренираат модели со висок квалитет.
Сепак, овие предизвици не треба да бидат пречка, туку мотив за барање нови решенија и зајакната соработка меѓу академијата, индустријата и државата. Преку таква „тројна спирала“ можат да се доведат до остварување на резултати и проекти што ќе го поттикнат развојот на технологијата кај нас.

Колку нашите можности се конкурентни со регионот или Европа во поглед на истражувањата и научната работа?
Токму ваквите награди, кои што ги имаме речиси секоја година на ФЕИТ, јасно покажуваат дека, и покрај ограничени ресурси, сме конкурентни на европско рамниште – особено кога се работи за научни и апликативни истражувања во ВИ.
ФЕИТ и УКИМ ја негуваат вештачката интелигенција уште од самите почетоци. На ФЕИТ се поставени темелите на ВИ, компјутерското инженерство и роботиката, што создава база за генерации истражувачи. Следејќи го трендот на ВИ, создавдовме и специјализирана програма на магистерски студии за Податочна наука ВИ , како и бројни предмети по ВИ и машинско учење на додипломски и докторски студии. Така студентите уште од прв циклус добиваат современо знаење и практични вештини.
Исто така ФЕИТ е меѓу водечките институции во регионот по број на добиени меѓународни истражувачки проекти (Horizon, Erasmus+, IPA, NATO SPS). Ова создава можности за соработка со врвни европски институции и трансфер на знаење.
Иако ресурсите (финансиски, човечки, процесирачки) не се на нивото на западните универзитети или големите истражувачки центри, преку оптимизација и креативни решенија успеваме да изградиме квалитетни модели. Она што нè прави конкурентни е посветеноста и иновативноста. Со помалку ресурси успеваме да создадеме резултати што се препознаени на глобално ниво – како што е и оваа награда од ACL. Тоа покажува дека квалитетниот кадар, добрата идеја и тимската работа можат да ја надоместат инфраструктурната разлика.
Какви се вашите планови за во иднина, планирате ли да работите на понатамошен развој на моделот?
Моделот го гледаме како прв чекор во развојот на македонските јазични модели. Во иднина планираме да го надградиме со поголем корпус на податоци и да тренираме уште подобар модел со повеќе параметри, кој ќе биде уште попрецизен и покорисен. Паралелно, сакаме да создадеме и помал модел кој ќе биде полесен за користење и експериментирање, со што ќе имаме можност побрзо да ги применуваме најновите истражувачки достигнувања.
Дополнително, планираме да ги истражиме новите пристапи што ги гледаме кај модели како DeepSeek R1 и OpenAI O3, кои се обидуваат да симулираат процес на размислување. Веруваме дека ваквите идеи можат да отворат нови хоризонти и за македонскиот јазик.
Секако, за да стигнеме до таму ќе бидат потребни ресурси, време и поддршка и од академската заедница и од индустријата и институциите. Но, веруваме дека со заеднички напори може да се изгради вистински екосистем на јазични модели на македонски јазик, кој ќе има корист за целото општество.