Microsoft заглядывает в ближайшее будущее медицинской диагностики, которое определит, сколько вы заплатите за анализы, сколько проведёте в очереди и как быстро услышите верный диагноз. В Microsoft AI собрали SDBench — «испытательный полигон» из 304 реальных клинических разборов, но с важным отличием: как в жизни, каждый шаг стоит времени и денег. Оценивают не угадывание болезни, а $ per correct Dx — сколько долларов уходит на получение правильного диагноза, когда врач (или ИИ) по очереди: задаёт вопросы → назначает анализы → делает вывод. Поверх базовых моделей авторы запустили MAI-DxO — «оркестратор», то есть набор скоординированных ИИ-ролей: одна генерирует гипотезы, другая выбирает тесты, третья спорит с дорогими процедурами, четвёртая следит за экономией, пятая идёт по чек-листу. И в этой постановке ИИ становится и точнее, и дешевле.
Как делали исследование: каждое дело превратили в цепочку «визитов»; цены брали по американским тарифам. Верность диагноза проверял «LM-судья» — ещё одна модель, выставляющая оценку по рубрике (ядро болезни, причина, локализация, специфика, полнота). Там, где текст может быть двусмысленным, измеряли согласие с врачами; зачёт ставили при 4 баллах из 5 и выше. Врачи-участники (n=21) дали 19,9 % точных диагнозов при $2963 на случай; GPT-4o — 49,3 % при $2745; o3 — 78,6 % при $7850 (дорого, но чаще назначает уместные тесты). С MAI-DxO поверх o3 получили 81,9 % за $4735; в «бюджетном режиме» — 79,9 % за $2396; ансамбль моделей поднял планку до 85,5 % за $7184. Результат удержался и на скрытой проверке. Показательный эпизод: при отравлении базовая модель «зацепилась» за неверную гипотезу и «сожгла» $3431; оркестратор уточнил источник (санитайзер для рук) → назначил один целевой анализ → попал в диагноз за $795. Для полноты авторы сравнили ИИ и с другими топ-моделями (OpenAI, Gemini, Claude, Grok, DeepSeek, Llama).
Если это подтвердится в реальной практике, клиника сдвинется от «чат-ботов» к агентным оркестраторам с логикой бюджета: сортировка пациентов и приём начнут чаще попадать в правильный диагноз при меньших тратах на тесты; страховщики и регуляторы получат прозрачную метрику «доллар за верный диагноз» и «чёрный ящик» откроется журналом шагов; обучение медиков уйдёт от разрозненных задачек к симуляторам последовательного мышления. Но рамки важны: кейсы NEJM — это сложная «академическая» подборка (не ясно, как модель поведёт себя на повседневных простых пациентах), цены — про США и не учитывают логистику, ожидание и инвазивность; врачи работали без консилиумов; а оценка «LM-судьи», хотя и близка к врачебной, всё равно требует испытаний на реальных исходах. Иначе говоря: потенциал большой — но прежде чем менять протоколы, нужны проспективные клинические проверки.