Напредните модели на вештачка интелигенција се одлични во професионалните медицински прегледи, но не успеваат во критичната задача да се дијагностицираат пациентите преку разговор, покажа ново истражување. Иако големите јазични модели работат импресивно на тестови со повеќе избори, нивната точност значително опаѓа во динамичните разговори. Моделите особено се борат со отворените дијагностички заклучоци, вели Пранав Рајпуркар од Универзитетот Харвард, еден од авторите на гореспоменатото истражување, објавено во списанието Nature Medicine.
Научниците од Харвард создале репер, CRAFT-MD, за да го проценат размислувањето на вештачката интелигенција за време на симулирани интеракции лекар-пациент. Тие симулации опфатиле 2.000 медицински случаи извлечени главно од испитите на медицинскиот одбор во САД.
Симулирањето на интеракциите со пациентите овозможува проценка на вештините за земање анамнеза, критична компонента на клиничката пракса која не може да се процени со помош на студии на случај, објаснува Шреја Џохри од Универзитетот Харвард, воедно и главен автор на студијата. Таа додава дека CRAFT-MD ги одразува сценаријата од реалниот живот каде што пациентите можеби не знаат кои детали се клучни да ги споделат со лекар.
При евалуацијата на тимот од Харвард користеле GPT-4 на OpenAI како „пациент со вештачка интелигенција“ во разговори со тестирана клиничка вештачка интелигенција. GPT-4, исто така, ги оценуваше дијагнозите, кои беа потврдени од човечки експерти. Овие експерти ги прегледаа дијалозите за да ја проценат точноста и на пациентот и на клиничката вештачка интелигенција.
Експериментите покажале дека GPT-3.5, GPT-4, Metin Llama-2-7b и Mistral-v2-7b на Mistral AI имале слаби резултати во симулираната разговорна интеракција со пациентите во споредба со напишаните резимеа на историјата на пациентот. На пример, GPT-4 постигнал 82% точност со структурирани резимеа на случаи, но паднал на само 26%. Тоа, исто така, била единствениот модел кој успешно ги завршил историите на случај во 71% од времето. Дури и ако моделите со вештачка интелигенција може да соберат целосна медицинска историја, од друга страна, тие честопати не даваат точни дијагнози.
(New Scientist)