Вышедший накануне Claude Haiku 4.5 проиграл Sonnet 4.5 и GPT-5 в тесте на рефакторинг

от admin

Больше — не значит лучше

При тестировании недавно выпущенной Claude Haiku 4.5 на задаче реструктуризации WebSocket-клиента, модель показала парадокс. Она генерировала гораздо больше кода, но по качеству оказалась в самом низу рейтинга.

Испытание выполняли на одной и той же TypeScript-задачe (экспоненциальный бэкофф, управление состоянием, очередь сообщений), а выводы оценивал динамический судья — GPT-5.

Всего было пять критериев: качество, полнота, корректность, производительность и безопасность.

Результаты и рейтинг

Полный список восьми протестированных моделей (счет/токены):

  1. GPT-5 — 93.4 / 7919 токенов
  2. Claude Sonnet 4.5 — 89.0 / 8425 токенов = OpenAI o3 — 89.0 / 5191 токен
  3. Gemini 2.5 Pro — 86.6 / 2621 токен
  4. GLM 4.6 — 84.4 / 3334 токена
  5. Claude Opus 4.1 — 81.6 / 6052 токена
  6. Claude Haiku 4.5 — 74.4 / 13 666 токенов
  7. Grok 4 — 70.0 / 888 токенов

Haiku сгенерировал наибольшее количество токенов (13 666) и занял лишь 7-е место по итоговой оценке.

Почему Haiku хуже — проблема переусложнения

Разбор показал: Haiku стремилась покрыть все — большие слои логирования, множество абстракций, метрики, дублированные функции. В результате:

  • качество кода: 60/100 (много дублирования и смешанных ответственностей),
  • корректность: 65/100 (повторяющиеся определения, потенциальные ошибки в боилерплейте),
  • полнота: 90/100 (много функционала реализовано).
Читать также:
Вышел обновленный VSCode. 90% его функций связаны с ИИ-помощником Copilot

Итого: модель «переписала» задачу в толстом стиле — много текста, но низкая поддерживаемость и повышенный риск ошибок.

Какие есть паттерны в React и для чего они нужны: часть 1tproger.ru

Sonnet 4.5, напротив, дала более компактный, корректный и читабельный код: 8425 токенов и 89 баллов.

Что это значит на практике

Тест демонстрирует важную мысль: больше кода ≠ лучшее решение. Избыточность увеличивает поверхность ошибок, делает рефакторинг дороже и снижает шансы на безопасный продакшен-деплой.

Для инженеров и команд это сигнал — оценивать ИИ-генерацию не по объему, а по компактности, ясности и корректности.

Вывод

Claude Haiku 4.5 оказался эффективен в покрытии функциональности, но не в написании качественного, поддерживаемого кода.

Порог «полезности» генерации — это не токены, а соотношение качества к объему. Тут напрашивается простая рекомендация: тестируйте модели на реальных задачах, смотрите на корректность и поддерживаемость, а не только на полноту фич.

Похожие статьи