Користејќи генеративна вештачка интелигенција, тим нод истражувачи од Универзитетот во Тексас во Остин ги конвертира звуците од аудиоснимките во слики од улици. Визуелната точност на овие генерирани слики покажува дека компјутерите можат да ја реплицираат човечката врска меѓу аудио и визуелната перцепција на околината.
Во трудот објавен во списанието Computers, Environment and Urban Systems, истражувачкиот тим опишува обука на модел од звук во слика со вештачка интелигенција користејќи аудио и визуелни податоци собрани од различни урбани и рурални улични пејзажи, а потоа користење на тој модел за генерирање слики од аудиоснимките.
Користејќи видео и аудио на YouTube од градовите во Северна Америка, Азија и Европа, тимот создал парови од 10 секунди аудиоклипови и фотографии од различни локации и ги искористил за да обучи модел со вештачка интелигенција што може да произведе слики со висока резолуција од аудио внес. Тие потоа ги споредиле креациите од звук во слика на вештачката интелигенција направени од 100 ауди клипови со нивните фотографии од реалниот свет, користејќи човечка и компјутерска проценка. Компјутерските проценки ги споредиле релативните пропорции на зеленило, згради и небо меѓу оригиналните и генерираните слики, додека од човечките „судии“ било побарано правилно да поврзат една од трите генерирани слики со аудио примерок.
Резултатите покажале силни корелации во пропорциите од небо до зеленило меѓу генерираните и сликите од реалниот свет и малку помала корелација во градежните пропорции, а човечките учесници во просек имале 80% точност при изборот на генерираните слики кои одговараат на оригиналните аудио примероци.
Со приближни пропорции на небо, зеленило и згради, генерираните слики често ги одразувале архитектонските стилови и растојанија меѓу објектите на нивните слики од реалниот свет, како и прецизно прикажување дали звучните пејзажи се снимени за време на сончево, облачно или ноќно осветлување. Авторите забележуваат дека информациите за осветленоста може да потекнуваат од варијации на активноста во звучните пејзажи. На пример, звуците од сообраќајот или чврчорењето на ноќните инсекти може да го откријат времето од денот. Ваквите набљудувања го унапредуваат разбирањето за тоа како мултисензорните фактори придонесуваат за нашето искуство на местото.
„Кога ги затворате очите и слушате, звуците околу вас создаваат слики во вашиот ум“, вели Јухао Канг, асистент професор по географија и животна средина на UT и коавтор на студијата. „На пример, далечното брмчење на сообраќајот станува зафатен градски пејзаж, додека нежното шушкање на лисјата ве воведува во мирна шума. Секој звук плете жива таписерија од сцени, како со магија, во театарот на вашата имагинација“.
Работата на Канг се фокусира на користење на геопросторна вештачка интелигенција за проучување како луѓето комуницираат со нивните средини. Во друг неодамнешен труд објавен во списанието Nature, тој и неговите коавтори го испитуваа потенцијалот на вештачката интелигенција да ги долови карактеристиките што им даваат на градовите единствен идентитет.
(Vidi.hr)
(фото: Needpix)