Компанијата Meta создаде модел на вештачка интелигенција наречен SeamlessM4T кој е мултилингвален и мултитаскинг модел и непречено преведува и транскрибира говор и текст, напишаа на блогот на компанијата. Според нивното соопштение, моделот може да преведува на речиси 100 јаици од говор во текст, текст во текст, говор во говор и тескт во говор.
Во блогот истражувачкиот тим на Meta открива дека SeamlessM4T има значително подобрени перформанси за јазиците кои поретко се користат и за кои има помалку ресурси, а одлично функционира на јазиците кои најчесто се користат како што се англискиот, германскиот и шпанскиот.
Meta го изгради SeamlessM4T врз архитектурата на нивниот постоечки модел UnitY, кој веќе можеше да врши модален превод и автоматски да препознава говор. Го користи системот BERT 2.0 за аудио кодирање, разложување на компонентите за анализа и HiFi-GAN за генерирање усни одговори.
Meta создаде и масивен корпус говор во говор и говор во текст кој е отворен за сите. Компанијата собра десетици милијарди реченици и 4 милиони часови говор од јавно достапни бази за автоматски да спои 443.000 часа говор со текст и околу 29.000 часа говор со говор.
Како и сите претходни верзии на ваков преведувач, SeamlessM4T е отворен за сите. Како што велат од Meta, веруваат дека SeamlessM4T е битно револуционерно откритие во AI заедницата и огромен чекор напред во создавањето универзални мултитаскинг системи.
(Engadget)
(фото: YouTube)