‘Визуальные’ модели искусственного интеллекта могут вообще ничего не видеть

Последние модели языковых моделей, такие как GPT-4o и Gemini 1.5 Pro, рекламируются как «мультимодальные», способные понимать изображения и звук, а также текст. Однако новое исследование показывает, что они на самом деле не видят так, как можно было бы ожидать. Фактически, они могут вообще не видеть.

...

Если мы полагаемся на маркетинговые уловки компаний по искусственному интеллекту, чтобы узнать о всех возможностях этих моделей, мы бы подумали, что у них зрение 20/20. Такие исследования, как это, необходимы, чтобы показать, что, несмотря на то, насколько точно модель может указать, сидит ли человек или идет или бежит, она делает это без «видения» в том смысле (если можно так выразиться), как мы обычно понимаем.