Содержание
Больше — не значит лучше
При тестировании недавно выпущенной Claude Haiku 4.5 на задаче реструктуризации WebSocket-клиента, модель показала парадокс. Она генерировала гораздо больше кода, но по качеству оказалась в самом низу рейтинга.
Испытание выполняли на одной и той же TypeScript-задачe (экспоненциальный бэкофф, управление состоянием, очередь сообщений), а выводы оценивал динамический судья — GPT-5.
Всего было пять критериев: качество, полнота, корректность, производительность и безопасность.
Результаты и рейтинг
Полный список восьми протестированных моделей (счет/токены):
- GPT-5 — 93.4 / 7919 токенов
- Claude Sonnet 4.5 — 89.0 / 8425 токенов = OpenAI o3 — 89.0 / 5191 токен
- Gemini 2.5 Pro — 86.6 / 2621 токен
- GLM 4.6 — 84.4 / 3334 токена
- Claude Opus 4.1 — 81.6 / 6052 токена
- Claude Haiku 4.5 — 74.4 / 13 666 токенов
- Grok 4 — 70.0 / 888 токенов
Haiku сгенерировал наибольшее количество токенов (13 666) и занял лишь 7-е место по итоговой оценке.
Почему Haiku хуже — проблема переусложнения
Разбор показал: Haiku стремилась покрыть все — большие слои логирования, множество абстракций, метрики, дублированные функции. В результате:
- качество кода: 60/100 (много дублирования и смешанных ответственностей),
- корректность: 65/100 (повторяющиеся определения, потенциальные ошибки в боилерплейте),
- полнота: 90/100 (много функционала реализовано).
Итого: модель «переписала» задачу в толстом стиле — много текста, но низкая поддерживаемость и повышенный риск ошибок.
Какие есть паттерны в React и для чего они нужны: часть 1tproger.ru
Sonnet 4.5, напротив, дала более компактный, корректный и читабельный код: 8425 токенов и 89 баллов.
Что это значит на практике
Тест демонстрирует важную мысль: больше кода ≠ лучшее решение. Избыточность увеличивает поверхность ошибок, делает рефакторинг дороже и снижает шансы на безопасный продакшен-деплой.
Для инженеров и команд это сигнал — оценивать ИИ-генерацию не по объему, а по компактности, ясности и корректности.
Вывод
Claude Haiku 4.5 оказался эффективен в покрытии функциональности, но не в написании качественного, поддерживаемого кода.
Порог «полезности» генерации — это не токены, а соотношение качества к объему. Тут напрашивается простая рекомендация: тестируйте модели на реальных задачах, смотрите на корректность и поддерживаемость, а не только на полноту фич.