Неужели до этого дошло?
OpenAI представила экспериментальную языковую модель, чья работа впервые становится действительно «видимой» для исследователей.
Это попытка взломать главный секрет современных LLM: почему они принимают те или иные решения. И почему иногда ошибаются.
Почему это важно
Актуальные большие модели все еще представляют из себя черные ящики. Даже создатели не могут до конца объяснить, как формируются выводы, откуда берутся галлюцинации и какие внутренние механизмы отвечают за поведение модели.
Новый эксперимент OpenAI — шаг к тому, чтобы эти механизмы наконец-то увидеть.
Что сделали исследователи
OpenAI создала разреженный трансформер. Это модель, в которой нейроны соединены не со всеми соседними слоями, а лишь с небольшим числом других нейронов.
Такая сеть работает намного медленнее и слабее (по мощности ее сравнивают с GPT-1).
Как распознавать лица с помощью библиотеки FAISStproger.ru
Но она и значительно прозрачнее: признаки и функции оказываются «локализованы», а не размазаны по десяткам тысяч весов. Это позволяет буквально проследить путь мысли модели.
Например, исследователи смогли увидеть полный алгоритм, по которому модель ставит закрывающую кавычку — шаг за шагом, через конкретные цепочки нейронов.
Новая интерпретируемость
Такой подход относится к направлению mechanistic interpretability — попытке разобраться, какие именно внутренние «цепочки» отвечают за конкретные умения модели.
«Мы нашли вручную понятный алгоритм, который модель выучила сама. Это впечатляет», — говорит исследователь OpenAI Лео Гао.
Эксперты, не связанные с OpenAI, также оценивают работу положительно.
По словам математика Элизенды Григсби из Boston College, новые методы могут существенно продвинуть исследования интерпретируемости.
Ограничения
Разреженные трансформеры очень медленные и почти бесполезны как продукты. Они не смогут конкурировать с GPT-5 или Claude.
Но здесь и цель иная: понять как работают большие модели, а не построить новый коммерческий продукт.
OpenAI рассчитывает, что в перспективе такие техники можно будет масштабировать — хотя бы до уровня GPT-3. Тогда исследователи впервые смогут буквально «открыть» модель и увидеть, как устроен каждый ее шаг.
