Вышедший накануне Claude Haiku 4.5 проиграл Sonnet 4.5 и GPT-5 в тесте на рефакторинг

Содержание

1 Результаты и рейтинг
2 Почему Haiku хуже — проблема переусложнения
3 Что это значит на практике
4 Вывод

Больше — не значит лучше

При тестировании недавно выпущенной Claude Haiku 4.5 на задаче реструктуризации WebSocket-клиента, модель показала парадокс. Она генерировала гораздо больше кода, но по качеству оказалась в самом низу рейтинга.

Испытание выполняли на одной и той же TypeScript-задачe (экспоненциальный бэкофф, управление состоянием, очередь сообщений), а выводы оценивал динамический судья — GPT-5.

Всего было пять критериев: качество, полнота, корректность, производительность и безопасность.

Результаты и рейтинг

Полный список восьми протестированных моделей (счет/токены):

GPT-5 — 93.4 / 7919 токенов
Claude Sonnet 4.5 — 89.0 / 8425 токенов = OpenAI o3 — 89.0 / 5191 токен
Gemini 2.5 Pro — 86.6 / 2621 токен
GLM 4.6 — 84.4 / 3334 токена
Claude Opus 4.1 — 81.6 / 6052 токена
Claude Haiku 4.5 — 74.4 / 13 666 токенов
Grok 4 — 70.0 / 888 токенов

Haiku сгенерировал наибольшее количество токенов (13 666) и занял лишь 7-е место по итоговой оценке.

Почему Haiku хуже — проблема переусложнения

Разбор показал: Haiku стремилась покрыть все — большие слои логирования, множество абстракций, метрики, дублированные функции. В результате:

качество кода: 60/100 (много дублирования и смешанных ответственностей),
корректность: 65/100 (повторяющиеся определения, потенциальные ошибки в боилерплейте),
полнота: 90/100 (много функционала реализовано).

Читать также:

Artezio назвала самые безопасные мессенджеры 2025 года. Telegram выбыл из рейтинга

Итого: модель «переписала» задачу в толстом стиле — много текста, но низкая поддерживаемость и повышенный риск ошибок.

Какие есть паттерны в React и для чего они нужны: часть 1tproger.ru

Sonnet 4.5, напротив, дала более компактный, корректный и читабельный код: 8425 токенов и 89 баллов.

Что это значит на практике

Тест демонстрирует важную мысль: больше кода ≠ лучшее решение. Избыточность увеличивает поверхность ошибок, делает рефакторинг дороже и снижает шансы на безопасный продакшен-деплой.

Для инженеров и команд это сигнал — оценивать ИИ-генерацию не по объему, а по компактности, ясности и корректности.

Вывод

Claude Haiku 4.5 оказался эффективен в покрытии функциональности, но не в написании качественного, поддерживаемого кода.

Порог «полезности» генерации — это не токены, а соотношение качества к объему. Тут напрашивается простая рекомендация: тестируйте модели на реальных задачах, смотрите на корректность и поддерживаемость, а не только на полноту фич.

Вышедший накануне Claude Haiku 4.5 проиграл Sonnet 4.5 и GPT-5 в тесте на рефакторинг

Результаты и рейтинг

Почему Haiku хуже — проблема переусложнения

Что это значит на практике

Вывод

Рыть или не рыть? Вот в чем вопрос. Идею тоннеля через Берингов пролив оценили эксперты

Стала ярче: Прилетающая раз в 1000 лет комета Lemmon будет видна и без бинокля

Похожие статьи