Первый ИИ, который превосходит инженеров? Разработчики делятся опытом работы с Claude Opus 4.5

от admin

Как минимум, они признали обновление реальным шагом вперед

Накануне Anthropic выкатила Claude Opus 4.5 — свою самую мощную LLM для кода.

Модель стала первой, кто выбил 80% на SWE-bench Verified. Ей удалось набрать 80,9% против 77,9% у GPT-5.1 Codex и 76,2% у Gemini 3 Pro.

Вместе с этим цену на Opus урезали почти в три раза — с $15 до $5 за миллион входящих токенов.

GitHub и Replit уже успели прогнать модель на внутренних тестах и утверждают, что она дает более качественный код, решает задачи быстрее и тратит меньше токенов.

Что говорят разработчики

По реакции инженеров, складывается следующая картина: Opus 4.5 — реальный шаг вперед, а не косметическое обновление. Некоторые наблюдения тех, кто уже успел протестить новинку:

  • модель стала точнее в выборе инструментов и фреймворков;
  • может закрыть сложный проект за один запуск, а не дробить его на серию подсказок;
  • работает заметно стабильнее в агентных сценариях (браузерные действия, терминал, запуск пайплайнов).

Отдельно отмечают, что Opus 4.5 впервые предлагает набор из «лучше, быстрее и дешевле» одновременно — прежние модели выигрывали лишь по одному из трех пунктов.

Читать также:
Компания Apple презентовала iPhone 16e

Ограничения тоже есть

Несмотря на эффектные демки, реальная разработка — это не только код. Anthropic прямо подчеркивает, что модель не заменяет:

  • архитектурные решения;
  • работу в команде;
  • баг-хантинг вне “идеальных условий”;
  • предметную экспертизу.

Показателен и пример из τ2-bench: Opus 4.5 нашtл нестандартный, но логичный обход правила, который тест засчитал как ошибку. Т.е модель уже начинает выходить за рамки бенчмарков, но не всегда так, как ожидают заказчики.

Что это значит для инженеров

Opus 4.5 подняла планку и вновь спровоцировала разговоры о будущем профессии. Anthropic честно признает, что подобные модели способны заменить значительную часть рутинных задач. Особенно уровня «джунов».

Глава LinkedIn: настало время знаний, а не дипломов — вышкой больше никого не удивишьtproger.ru

Но в то же время компания подчеркивает: опыт, контекст, умение договариваться и принимать решения — все это вне зоны компетенции любой LLM.

Новые фичи Anthropic

Параллельно с релизом, компания добавила:

  • Claude for Excel (сводные таблицы, графики, загрузка файлов);
  • расширенную версию Claude for Chrome;
  • обновлtнный Claude Code для десктопа;
  • улучшения в части зрения, математики и reasoning.

Похожие статьи