OpenAI показала «прозрачный» ИИ, который раскрывает, как нейросети думают и работают изнутри

от admin

Неужели до этого дошло?

OpenAI представила экспериментальную языковую модель, чья работа впервые становится действительно «видимой» для исследователей.

Это попытка взломать главный секрет современных LLM: почему они принимают те или иные решения. И почему иногда ошибаются.

Почему это важно

Актуальные большие модели все еще представляют из себя черные ящики. Даже создатели не могут до конца объяснить, как формируются выводы, откуда берутся галлюцинации и какие внутренние механизмы отвечают за поведение модели.

Новый эксперимент OpenAI — шаг к тому, чтобы эти механизмы наконец-то увидеть.

Что сделали исследователи

OpenAI создала разреженный трансформер. Это модель, в которой нейроны соединены не со всеми соседними слоями, а лишь с небольшим числом других нейронов.

Такая сеть работает намного медленнее и слабее (по мощности ее сравнивают с GPT-1).

Как распознавать лица с помощью библиотеки FAISStproger.ru

Но она и значительно прозрачнее: признаки и функции оказываются «локализованы», а не размазаны по десяткам тысяч весов. Это позволяет буквально проследить путь мысли модели.

Читать также:
Ученые рассказали о будущем "волшебном наборе" для здоровья человека

Например, исследователи смогли увидеть полный алгоритм, по которому модель ставит закрывающую кавычку — шаг за шагом, через конкретные цепочки нейронов.

Новая интерпретируемость

Такой подход относится к направлению mechanistic interpretability — попытке разобраться, какие именно внутренние «цепочки» отвечают за конкретные умения модели.

«Мы нашли вручную понятный алгоритм, который модель выучила сама. Это впечатляет», — говорит исследователь OpenAI Лео Гао.

Эксперты, не связанные с OpenAI, также оценивают работу положительно.

По словам математика Элизенды Григсби из Boston College, новые методы могут существенно продвинуть исследования интерпретируемости.

Ограничения

Разреженные трансформеры очень медленные и почти бесполезны как продукты. Они не смогут конкурировать с GPT-5 или Claude.

Но здесь и цель иная: понять как работают большие модели, а не построить новый коммерческий продукт.

OpenAI рассчитывает, что в перспективе такие техники можно будет масштабировать — хотя бы до уровня GPT-3. Тогда исследователи впервые смогут буквально «открыть» модель и увидеть, как устроен каждый ее шаг.

Похожие статьи