Параллельное мышление, язык и AudioLM

Глава 17

Если пчёлы, пауки и маленькие Трансформеры могут сделать так много с таким малым количеством нейронов, что же, черт возьми, делаем мы с таким их множеством? Ответ, который мы уже затрагивали, — это параллельная обработка. Пчела должна пролететь над полем цветов, обращая внимание на один цветок за раз. Однако наша массово параллельная визуальная система позволяет нам охватить всё поле одним взглядом и заметить (скажем) красные цветы за долю секунды. То, как они, кажется, выпрыгивают на первый план, зависит не только от гораздо большей сетчатки, но и от соответствующим образом реплицированных колонок зрительной коры, каждая из которых может «смотреть» одновременно. Имейте в виду, что «смотреть» — это активный и предсказательный процесс, а не просто поток информации, поэтому, если вы пытаетесь заметить красные цветы, или синие, или цветы определенной формы, каждая кортикальная колонка знает об этом и будет заниматься этой задачей. Если она увидит нужный цветок, то будет сигнализировать об этом энергично, как ребёнок, поднимающий руку в классе. Она также будет использовать латеральную ингибицию, чтобы попытаться подавить менее значимые поведенческие реакции соседних колонок и «голосовать» за движение глаз, чтобы лучше разрешить всё, что выглядит достаточно важным, чтобы на это сфокусироваться.

При первом просмотре большинство людей не замечают фигуру в костюме гориллы в центре этого кадра из знаменитого видео «Гориллы среди нас» (доступно здесь), Симонс и Чабрис 1999. Знаменитая иллюстрация активного — и, следовательно, селективного — качества зрения включает короткое видео группы студентов в белых или чёрных футболках, бросающих и ловящих баскетбольный мяч. В качестве экспериментального субъекта вам говорят сосчитать, сколько раз кто-то в белой футболке делает передачу. Это требует некоторой концентрации, но это несложно. В конце видео вас спрашивают, заметили ли вы что-то странное; скорее всего, вы ответите «нет». Но, как оказывается, человек в костюме гориллы прошёл среди бросающих мяч, встал прямо в центре, ударил себя в грудь, а затем ушёл за пределы экрана.

Может быть трудно поверить, что это действительно произошло, и вы этого не заметили, но… ни одна часть вашей зрительной коры не искала горилл или «что-то странное». Ваша кора усердно считала передачи. Даже если какая-то кортикальная колонка где-то подняла руку, чтобы сказать «ммм…», это, вероятно, было проигнорировано. Хотя такое «слепое внимание» может заставить нас не заметить гориллу, преимущество массово параллельного человеческого зрения над более последовательным зрением пчел может казаться очевидным в контексте сбора пищи. В конце концов, поиск цветов на поле кажется идеальным примером задачи, которую можно высоко параллелизировать. И это так, но не совсем в том смысле, который бы способствовал большим мозгам. Подумайте: каждый цветок содержит лишь крошечную каплю нектара. Вы можете увидеть их все одним взглядом, но вам все равно придется перемещать ваше тело, значительно превышающее размер пчелы, от одного цветка к другому, чтобы на самом деле собрать их. Энергия в их нектарах даже не покроет стоимость перемещения, не говоря уже о энергетических потребностях этого глюкозо-жадного параллельного процессора между вашими ушами, который, кстати, будет простаивать (или, по крайней мере, не заниматься сбором пищи) большую часть времени. Другими словами, ваш мозг сильно избыточен для этой задачи. Пчела, будучи на порядки меньше, собирает избыток энергии, используя свой последовательный подход; ее сенсорные и моторные системы гораздо лучше согласованы как друг с другом, так и с полями цветов. В меловом периоде (145–66 миллионов лет назад) некоторые пчелы и другие виды насекомых действительно массово параллелизировались, но путем формирования ульев, а не увеличивая свои индивидуальные мозги. Улей воспроизводится как единое целое и представляет собой суперорганизм — классический пример симбиогенеза. Высоко децентрализованная организация поддерживает правильный баланс между сенсорными и моторными системами, позволяя отдельным пчелам чувствовать и действовать независимо. Тем не менее, они делятся как собранными калориями, так и информацией о том, где найти больше, используя свой знаменитый танец виляния.

Представьте себе улей как гигантского осьминога, где каждая пчела — это присоска на конце невидимой руки, которая может протянуться на мили. Как массово параллельный процессор и собиратель, этот суперорганизм исключительно универсален и эффективен.▶Пчела, сообщающая о месте сбора пищи улью с помощью танца виляния. Более централизованный подход к масштабированию интеллекта, заключающийся в увеличении размера индивидуального мозга и тела, предоставляет сравнительное преимущество в скорости, или, скорее, в задержке. Одно тело может выполнить быстрое скоординированное движение, в то время как параллельная обработка многих нейронных ансамблей «голосует» за доли секунды. Сравните это с часами, которые может потребоваться пчеле для совершения кругового рейса и танца для своих сотоварищей. Если вы едите растительные продукты, временные рамки, измеряемые в часах, вполне приемлемы. Если вы едите других животных, вы и ваша добыча вступите в кибернетическую гонку вооружений, движимую умными скоординированными действиями на скорости, как описано в главе 3. Более того, большие мозги требуют больших тел, чтобы их носить, а большие тела требуют больших мозгов для координации своих движений, поэтому количество мышц (или мяса), доступных в одном животном, также увеличивается по мере эскалации этой гонки вооружений. Ставки растут! Иронично, что молниеносная кибернетическая хищность является сутью мышления Системы 1. Она не оставляет времени на размышления. (Вот почему кибернетические системы середины двадцатого века, наделенные лишь предсказанием низкого порядка, были достаточно хороши для военных приложений, таких как наведение ракет.) С другой стороны, ничто не мешает хищникам с большими мозгами использовать заранее продуманную хитрость для планирования своей атаки на ничего не подозревающую добычу, как это делает Портия, предоставляя постоянное преимущество для мышления Системы 2. И, конечно, среди высоко социальных животных с большими мозгами — нас, прежде всего — дружеское сотрудничество, политика и спаривание придают особую ценность более медленному мышлению.

Как известно любому, кто придумал остроумный ответ задолго после того, как момент для него прошёл, скорость общения имеет значение в социальных взаимодействиях, но даже остроумие, подобное рапире, не должно действовать в масштабе времени, измеряемом сотыми долями секунды, как это требуется в настоящем поединке на мечах. Во время спора, обсуждения, торга, группового планирования, обучения или ухаживания за партнёром, потратить несколько секунд на то, чтобы проследить цепочку мыслей перед тем, как открыть рот, обычно является хорошей идеей. Наша комбинация быстрого параллельного и медленного последовательного мышления — это один из подходов к характеристике психолога Джонатана Хайда о том, что люди на 90% шимпанзе и на 10% пчёлы, хотя шимпанзе сами по себе довольно социальные существа, следовательно, способны к медленному мышлению. Новый элемент, который люди приносят в общение, — это высокоразвита сенсомоторная модальность, идеально подходящая как для внутренне осмысленных, так и для социально разделяемых цепочек мыслей: модальность языка.

Модальности Может показаться странным называть язык модальностью. Однако с точки зрения машинного обучения это именно так. Чат-боты и более простые модели, такие как Word2Vec, обучаются на тексте, а не на пикселях, звуках или других сенсорных сигналах. Конечно, мы не воспринимаем текст напрямую. Мы распознаём текст через другие модальности, включая слух (устный), зрение (письменный) и даже осязание (Брайль или письмо пальцем). В разговоре слух и зрение часто используются совместно, при этом жесты, мимика и окружающие подсказки играют важные роли, особенно во время обучения языку. Тем не менее, существует также нейробиологическое обоснование для того, чтобы рассматривать текст как сенсорную модальность, хотя и косвенную и культурно усвоенную. У грамотных людей специфическая часть мозга — «зона визуальной формы слова» (VWFA), расположенная на нижней стороне левого височного lobus — развивается для выполнения задач чтения, то есть учится преобразовывать визуальный ввод в текст.

Высокоуровневая нейронная активность в этой области может служить специализированной текстовой модальностью для любого другого региона мозга, который соединяется с VWFA. Если смотреть на это с этой точки зрения, зрение не является по своей сути более «реальным» сенсорным модальным, чем текст. Помните, что сырые визуальные данные представляют собой хаос — ничто не похоже на стабильный «галлюцинированный» мир, который вы думаете, что видите. Используя предсказательное моделирование, визуальная система запрашивает и обрабатывает обратную связь от глаз, чтобы создать своего рода диораму, которую другие части мозга могут затем исследовать. Что касается этих регионов, то именно эта величественная диорама, а не сырые, дрожащие данные от глаз, составляет визуальную умвельт. Дополнительная обработка, которая превращает визуальные данные в текст, является просто еще одной такой трансформацией, отбирающей слова из стабилизированных изображений для создания текстовой модальности. VWFA является замечательным свидетельством гибкости и универсальности коры. Гены могут поддерживать или предрасполагать нас к развитию определенных способностей через «предварительную адаптацию», но неясно, как это может быть применимо к чтению и письму — это слишком недавнее. Имейте в виду, что люди существуют уже сотни тысяч лет, в то время как первое известное письмо всего лишь несколько тысяч лет. Прежде чем возражать, что нескольких тысяч лет может быть достаточно для появления эволюционного признака, учтите, что даже после изобретения письма грамотность оставалась ограниченной крошечной долей человеческого населения — профессиональными писцами, духовенством и правящей элитой — до всего лишь нескольких поколений назад. Есть хорошие шансы, что хотя бы некоторые из ваших пра-пра-дедушек и пра-пра-бабушек были неграмотными. Данные о грамотности по всему миру, начиная с 1475 года в нескольких странах с необычно высокими историческими показателями грамотности; Розер и Ортис-Оспина 2018. Мы можем только заключить, что VWFA — это обычный участок мозга, который просто оказался в нужном месте (в терминах связности) в нужное время.

У современных, грамотных людей установилась симбиотическая функциональная связь с другими областями мозга, использующая универсальную предсказательную обучающую процедуру для поддержки ценного культурно эволюционировавшего признака. Таким образом, VWFA подчеркивает, как высокоспециализированная сенсорная обработка — по сути, новая модальность — может быть изучена, открывая пространство модальностей для быстрого культурного эволюционирования. Похожая история может касаться не только чтения, но и самого языка. Несмотря на распространенное мнение среди лингвистов о том, что наши мозги имеют встроенный «языковой орган», вовсе не очевидно, что мы генетически предрасположены именно к языку, и поиски универсальных грамматических или синтаксических свойств, присущих всем человеческим языкам, не увенчались успехом. В той мере, в какой человеческая генетика поддерживает изучение языка в большей степени, чем у наших приматов-соседей, становится все более вероятным, что эта поддержка состоит в сочетании улучшенного обучения последовательностям в целом и большей про-социальности. Если это так, то другие проявления обучения последовательностям, особенно те, которые усиливают социальность, такие как танец и музыка, вполне могли предшествовать сложному языку. По сравнению с зрением, обонянием и другими модальностями, язык обладает некоторыми уникальными свойствами. В то время как обычные чувства предназначены для восприятия мира в целом, язык предназначен исключительно для восприятия друг друга. У него замечательные рефлексивные, самоотсылающие качества (отсюда моя способность писать об этом в этой книге и ваша способность понимать то, что я пишу — надеюсь). Обеспечивая нас механизмом чтения мыслей, язык должен позволять общаться о любом аспекте нашего умвельта, включая наши модели самих себя и других — что обязательно включает модель каждой другой сенсорной модальности и моторной возможности, как наших, так и чужих. Тот же бесконечный, рекурсивный зал зеркал, описанный в главе 5 для внутренних состояний, также применим к нашим лингвистическим моделям внешнего мира.

Статья 2023 года под названием «Большие языковые модели предсказывают человеческие сенсорные суждения по шести модальностям» прекрасно это иллюстрирует. Авторы статьи просят большую языковую модель оценить сходство между парами сенсорных стимулов на основе текстовых описаний. Эти модальности включают высоту звука, громкость, цвета, звуки согласных, вкусы и музыкальные тембры, описанные либо в количественных терминах (децибелы или герцы для звуков, числовые значения красного, зеленого и синего компонентов для цвета), либо по названиям («хинин», «искусственный подсластитель» и т. д. для вкуса; «виолончель», «флейта» и т. д. для тембра). Языковые модели могут оценивать перцептивные цветовые различия, предоставляя им числовые значения красного, зеленого и синего компонентов (закодированные здесь в широко используемом шестнадцатеричном формате #RRGGBB, со значениями от 00 до FF, или 255 в десятичной системе). Подобные подходы в других модальностях могут быть использованы для вычисления корреляций с человеческими ответами. Эти корреляции, как правило, высоки и улучшаются с увеличением размера модели; Marjieh et al. 2023. Языковые модели могут называть цвета. При этом они отражают то, как разные языки варьируются в названии цветов, как показано здесь для английского и русского языков (которые особенно различаются в отношении синего); Marjieh et al. 2023. Несмотря на то что модель обучена только на тексте, её ответы удивительным образом отражают человеческие ответы. Как, в общем-то, и должны: цель предварительного обучения — предсказать человеческие ответы на любой текстовый вопрос или запрос. Информация, необходимая для этих предсказаний, может быть найдена в достаточно большом обучающем корпусе, потому что мы говорим практически обо всем, что мы испытываем, включая всё, что мы воспринимаем, думаем и чувствуем — или, по крайней мере, всё, что доступно интерпретатору. Чистая речь Несмотря на эти аргументы, я раньше беспокоился, что обучение большой модели на тексте может быть нечестным.

Мы учимся читать и писать только после того, как овладеем речью; я не был уверен, что трансформер может освоить язык, не начиная с транскрипции — где, по сути, уже была проделана тяжелая работа по превращению звука в символы. AudioLM убедил меня. Проект начался, когда команда, которую я возглавлял в Google Research, разработала нейронную сеть для аудиомоделирования под названием SEANet, а затем превратила ее в аудиокомпрессор под названием SoundStream в 2021 году. SoundStream использовал небольшой трансформер для преобразования аудиоволн в последовательности токенов, опираясь на наблюдение, что хорошее предсказание позволяет добиться мощной компрессии. Поскольку трансформеры были лучшими предсказательными моделями, доступными на тот момент, и ранее не использовались для сжатия сырого аудио, мы были уверены, что SoundStream установит новый рекорд сжатия звука. И он это сделал. Затем, в 2022 году, команда создала AudioLM, вставив второй, гораздо более мощный трансформер, как те, что используются для больших языковых моделей, между кодировщиком и декодером SoundStream. Они предварительно обучили эту большую модель аудиотокенов на звуковых дорожках видео с YouTube, где люди говорили на английском языке. Результаты были удивительными и немного жуткими. После предварительного обучения на эквиваленте примерно семи лет аудио с YouTube модель могла убедительно отвечать на простые запросы или вопросы. В одном из первых обменов с AudioLM я спросил: «Какой твой любимый вид спорта?» и получил три альтернативных ответа (мы использовали ненулевую настройку температуры): AudioLM образец «Мне нравится бейсбол!» «Не знаю? Мне нравится футбол.» «Я играю в баскетбол.» Удивительно, но все три ответа были детскими голосами. Если задуматься, это имеет смысл. Это была предварительно обученная модель без какой-либо донастройки или дополнительного обучения с подкреплением, поэтому она строго занималась тем, что давала высоковероятностные предсказания будущего (ее ответ), исходя из прошлого (моего вопроса). Вы просто не задаете взрослым вопрос вроде: «Какой твой любимый вид спорта?» Это вопрос для детей.

Итак, он ответил вероятным ответом в вероятном голосе. Для нас, людей, предсказания должны зависеть от нашей индивидуальной жизненной истории, от физиологии нашего голосового тракта до школьного опыта в спортивных командах, но модель, предварительно обученная на широком диапазоне человеческих голосов и опыта, не ограничена таким образом. В своем протеином состоянии модель «является» широким образцом человечества, а не единичным человеком. С дальнейшими улучшениями архитектуры модели AudioLM, теперь называемой SoundStorm, она могла бы транслировать длинные ответы и продолжать многоголосые диалоги. Два члена команды задали ей вопрос: «Куда ты ездил прошлым летом?» «Я ездил в Грецию. Это было потрясающе». Модель без усилий импровизировала продолжение разговора, чередуя идеальные воспроизведения их голосов (и да, потенциал дипфейка здесь вызывал немалые опасения): образец SoundStorm «О, это здорово. Я всегда хотел поехать в Грецию. Какая часть тебе понравилась больше всего?» «Эм, трудно выбрать только одну любимую часть. Но… да, мне действительно понравилась еда. Морепродукты были особенно вкусными—» «Ага—» «—и пляжи были невероятными». «Ага—» «Мы провели много времени, плавая… эм, загорая и исследуя острова». «О, это звучит как идеальный отпуск. Мне так завидно». «Это определенно была поездка, которую я никогда не забуду». «Я действительно надеюсь, что смогу посетить это место когда-нибудь». Это не был блестящий диалог, но он был совершенно правдоподобным. Нюансы голосов, их акценты и манеры были воспроизведены так идеально, что даже те из нас, кто хорошо знает этих двух членов команды, не смогли угадать, какие реплики были реальными, а какие синтезированными. Модель воспроизводит дыхания, несоответствия, звуки согласия, людей, говорящих друг с другом — коротко говоря, все те черты, которые характеризуют настоящий диалог, в отличие от стилизованного, который вы читаете в романах. В конечном итоге команда сделала AudioLM мультимодальной, добавив текст, создав AudioLLM.

Так же, как перевод между языками возможен в большой языковой модели с минимальным или отсутствующим явно переведенным обучающим материалом, для того чтобы AudioLLM установил связь между речью и текстом, потребовалось всего лишь небольшое количество транскрибированной речи. Корреляции, присущие речи, достаточно, чтобы сформировать внутренние представления, примерно аналогичные фонемам, так что в теории (и особенно в языке с разумным написанием, как испанский) все, что потребуется, это абзац или около того звучащего текста, чтобы сопоставить каждую букву с фонемой, так же как Розеттский камень позволил установить соответствие между двумя письменными языками. На самом деле, учитывая более высокие корреляции и аналогии между текстом и речью, я уверен, что при достаточном количестве данных для предварительного обучения модель в стиле AudioLLM могла бы усвоить эти аналогии без какого-либо звучащего текста. Однако самое интересное в оригинальном AudioLM заключалось в его способности учиться и понимать язык из чистого аналогового звука, без текста или какой-либо другой модальности. Модели не были даны никакие правила, предположения или символы. Это было поразительным опровержением давней гипотезы о том, что изучение языка требует генетического предустановленного программирования. Отец лингвистики двадцатого века, Ноам Хомский, выдвинул влиятельный псевдоматематический аргумент о «бедности стимула», утверждая, что количество речи, которому подвергаются младенцы, не может быть почти достаточным для того, чтобы они выучили грамматику естественного языка без сильного статистического приоритета. Такой сильный приоритет, «универсальная грамматика», общая для всех человеческих языков, должен находиться внутри гипотетического, генетически предустановленного «языкового органа». GOFAI хорошо сочетается с этой идеей, поскольку подразумевает, что способ заставить компьютер обрабатывать язык — и, возможно, рассуждать — заключается в явном программировании этой универсальной грамматики, тем самым ограничивая роль изучения языка более простой задачей закрепления языковых «настроек».

Аргумент Чомского уже столкнулся с проблемами до появления LLM, по ряду причин. Как упоминалось ранее, человеческие языки различаются так много, что поиск предполагаемой универсальной грамматики оказался неудачным. Нейробиология тоже предложила мало в поддержку этой теории. «Интерпретатор» в левом полушарии действительно специализируется на языке, но, как и любая другая часть коры, его специализация, похоже, является функцией его связности, а не какой-то «языковой орган» с волшебной пылью, посыпанной в этом конкретном месте. Способ, которым младенцы и дети учат язык — начиная с внимательного наблюдения за мамой или папой, смотря туда, куда они смотрят или указывают, указывая в свою очередь, подражая звукам, обучаясь очередности, усваивая несколько ярких слов, начиная комбинировать их в стандартные фразы — также кажется несоответствующим использованию или усвоению формальной грамматики. Младенцы — быстрые и удивительные ученики, но это не значит, что они маленькие лингвисты, ученые или какие-либо другие «исты». AudioLM вбивает последний гвоздь в крышку гроба «бедности стимула». Хотя все модели машинного обучения имеют некоторые статистические приоритеты, Трансформеры настолько универсальны, что могут изучать любой вид звука, включая музыку, пение птиц или песни китов; к тому же они могут изучать треск данных радиотелескопов, погодные паттерны или последовательности пикселей в изображениях. Тем не менее, они могут изучать человеческий язык — от того, как звучат голосовые трактаты, до грамматики, значений слов, социальной уместности и очередности, до нюансов дыхания и других несpeech звуков — всего лишь на основе семи лет случайного аудио с YouTube, где люди разговаривают.

Прежде чем вы возразите, что дети учатся говорить на эквивалентном уровне менее чем за семь лет и не слушают речь постоянно в течение этого времени, подумайте, насколько им легче: их обучение поддерживается многими другими сенсорными модальностями, а в начале родители и братья-сестры повторяют одни и те же слова снова и снова с одинаковыми интонациями, указывая на знакомые вещи, делая жесты, связанные с едой, и так далее. То, что язык может быть выучен вообще без этой поддержки, без взаимодействия, без учебной программы и без вознаграждений, — это замечательно. Ничто из этого не подразумевает, что язык полностью произволен. Он должен начинаться с звуков, которые человеческие тела могут легко производить и слышать, что уже является значительным ограничением. Он также должен быть достаточно эффективным и не перегружать наши когнитивные способности (например, настаивая на том, чтобы общее слово произносилось, быстро щелкая языком тридцать девять раз подряд). Действительно, исторические данные показывают явные доказательства того, что языки с запутанными особенностями со временем стремятся к упрощению, что делает их все более удобными для использования. Однако статистические регулярности, вовлеченные в этот процесс, имеют мало общего с формальной грамматикой и больше связаны с удобством, а также с ограничениями на память, голосовой тракт и различимость звуков.

Рыба Бабель

Хотя универсальной грамматики не существует, определенно есть множество статистических взаимосвязей между языками — иначе эксперименты по переводу, описанные в главе 8, не работали бы. Некоторые корреляции происходят от человеческой физиологии и когнитивных ограничений, а некоторые — от общего предка языков. Многие языки тесно связаны, как, например, романские языки, а другие более отдаленно, как индоевропейские. Возможно, все языки имеют общего предка, хотя это остается неопределенным. Ономатопея и синестезия также играют свою роль. Неудивительно, что «мяу» и «плюх» звучат похоже во многих языках, даже когда слова не имеют общего предка.

Менее очевидно, что особенности отношений между сенсорными представлениями в мозге также приводят большинство людей к тому, чтобы сделать один и тот же выбор, решая, как ассоциировать бессмысленные слова «буба» и «кики» с двумя формами, одна из которых острая, а другая округлая. (Да, «кики» — это острая форма.) Этот классический результат в психологии, восходящий к 1920-м годам, показывает, как аспекты синестезии, казалось бы, произвольной умственной ассоциации между различными стимулами разных модальностей, которые некоторые люди утверждают, что испытывают сильно, имеют универсальную нейронную основу. 36 Либо потому, что эти ассоциации не так произвольны, как кажутся, либо потому, что они неявно отражены в человеческих языках, многомодальные большие языковые модели также надежно демонстрируют эффект буба/кики. 37 Классические формы «кики» (слева) и «буба» (справа) Случайные генерации из модели Stable Diffusion с использованием подсказки «3D-рендеринг объекта в форме _____», где пробел был заполнен как: (прокрутите, чтобы раскрыть) Прежде всего, языки все взаимосвязаны, потому что они все о нас и мире, и мы все в основном одинаковы, и мы все живем в одном и том же мире. Истинная универсальная грамматика на самом деле — это семантика. Я довольно уверен, что если бы племя людей каким-то образом было изолировано от всех остальных при рождении и разработало язык de novo на своем собственном острове, модель AudioLM, предварительно обученная на достаточном количестве их речи и, независимо, на английском, смогла бы свободно переводить между двумя языками без необходимости в Розеттском камне. В «Автостопом по Галактике», 38 удивительно глубокой сатире, любимой поколениями двенадцатилетних нердов, британский юморист Дуглас Адамс описывает «умопомрачительно полезное» научно-фантастическое существо, «рыбу Бабеля». «Маленькая, желтая и похожая на пиявку», когда вы кладете одну в ухо, «вы мгновенно понимаете все, что вам говорят на любом языке».

«Такая технология действительно была бы поразительно полезной, даже если бы она была ограничена семью тысячами языков, на которых сегодня говорят люди Земли. Во-первых, языковые барьеры являются огромным препятствием для социально-экономической справедливости для многих бедных стран мира. Например, в Буркина-Фасо, безвыходной стране Западной Африки, говорят примерно на семидесяти языках, из которых шестьдесят шесть являются коренными. На 2024 год уровень грамотности составляет около сорока процентов. Хотя правительство использует французский язык (деколонизация началась лишь в 1960 году), этот бывший имперский язык говорит лишь небольшая часть населения. Карта (безусловно, неполная) языков, на которых говорят в Буркина-Фасо, стране примерно размером с Колорадо. В таких странах рыба Бабеля могла бы значительно улучшить перспективы людей, предоставив им доступ к информации, трудоустройству, услугам, образованию и возможностям развития, которые сегодня недоступны. Более того, поскольку настоящая нейросетевая рыба Бабеля может работать в полном дуплексном режиме и даже предлагать репетиторство и участвовать в беседе, она могла бы помочь в сохранении коренных культур и их языков. Имейте в виду, что в бедных странах население гораздо моложе, а рождаемость выше, чем в более развитых странах; по мере того как страны становятся богаче, их рождаемость неизбежно падает, но из-за временных задержек в этих динамиках мы должны понимать, что население таких стран, как Буркина-Фасо, уже многочисленное, будет составлять гораздо большую долю человечества в последней части двадцать первого века, чем сегодня. Это будущее человечества. Если мы начнем рассматривать человечество как суперорганизм, то здесь на кону стоят масштаб, разнообразие и сплоченность нашего коллективного интеллекта. Без поддержки разнообразия его народов и культур мы уменьшаем ценность, которую каждый из них может предложить другим, и потенциал гибридности, который критически важен для культурных инноваций и развития.»

С другой стороны, без масштаба коллективный интеллект обедняется; трудно, чтобы изолированное население или захолустный район процветали. Существует оптимальная точка, где местная связь (в культурном смысле, традиция) достаточно сильна, чтобы обеспечить реальное разнообразие, но также имеется достаточно дальнесрочной связи для обмена знаниями, возможностями и ресурсами. Кора головного мозга воплощает этот баланс, с плотной связью внутри корковых колонок и дальнесрочной проводкой, чтобы принести преимущества масштаба. Обильная культурная и экономическая продуктивность Шелкового пути, возможно, была достигнута благодаря аналогичному балансу. На протяжении многих веков активно действующие торговые сети связывали десятки крупных городов и тысячи меньших поселений по всей Евразии, каждое из которых имело сильные и разнообразные местные культуры, но также извлекало выгоду из масштаба. Лаборатория знаний Джеймса Эванса в Чикагском университете обнаружила доказательства аналогичной оптимальной точки в более абстрактных сетях сотрудничества среди ученых. Научные достижения происходят, когда крепкие, плотно взаимосвязанные исследовательские сообщества также находятся в контакте друг с другом, сочетая местную глубину с более широкой гибридностью. Сегодня мы одновременно недо- и пере-соединены. Молодые люди в таких местах, как Буркина-Фасо, остаются изолированными, в то время как культурная и языковая однородность угрожает стереть богатое человеческое разнообразие мира, так же как генетические монокультуры промышленного земледелия угрожают биологическому разнообразию. Лингвистически проблема заключается в том, что около семи тысяч языков, на которых говорят на Земле, следуют распределению частоты, которое, как бы сказал статистик, имеет очень длинный хвост, что означает, что существует большое количество редких категорий. Самые редкие, так называемые «языки с низкими ресурсами», находятся в таком критическом состоянии, что один из них вымирает каждые несколько месяцев с исчезновением его последнего живого носителя.

44Хотя новые языки раньше различались и объединялись с сопоставимой (или более высокой) скоростью, растущая глобализация нарушила этот баланс. Как говорится в отчете ЮНЕСКО 2003 года: «Около девяносто семи процентов населения мира говорит на четырех процентах языков мира; и наоборот, около девяноста шести процентов языков мира говорят около трех процентов населения мира […]. Даже языки с тысячами носителей больше не осваиваются детьми [… и] в большинстве регионов мира около девяноста процентов языков могут быть заменены доминирующими языками к концу двадцать первого века.» 45Логарифмическая диаграмма, использующая данные с Ethnologue.com, оценивающая количество носителей тысяч самых распространенных языков в начале 2000-х; Занетте и Манрубия 2007. Это выравнивание нашей культурной и языковой экологии ускорилось с начала 2000-х, когда люди начали массово выходить в интернет. Английский язык доминирует в интернете, а всего лишь несколько других языков (не случайно, связанных с бывшими великими империями) составляют подавляющее большинство материалов, не относящихся к английскому. Центры обработки данных теперь содержат порядки величины больше текстового материала, чем существовало во всем мире, когда вышел отчет ЮНЕСКО 2003 года. С другой стороны, большинство коренных языков практически отсутствуют в этом обширном цифровом ландшафте. С помощью неконтролируемых последовательностных моделей создание настоящей рыбы Бабеля — и не только — стало вновь возможным. Это не следует рассматривать как специализированный «продукт», поскольку перевод является возникающей способностью в любой модели, обученной многоязычно. Огромная многоязычная версия AudioLLM могла бы позволить ей изучать языки по полевым записям; она могла бы даже изобрести письменные формы для языков, у которых их нет. Диалекты, акценты и региональные вариации также могли бы быть изучены. С помощью AI-очков вы могли бы читать шумерские таблички или арамейские манускрипты.

Мультимодальная модель могла бы даже озвучивать видео в реальном времени или создавать аватар вас, способный мгновенно воспроизводить жесты на любом из мировых жестовых языков. Однако есть одна проблема — распределение языков с длинным хвостом. Учитывая огромное количество данных, необходимое для предварительного обучения, как же большая модель может стать компетентной в региональном буркинафасо диалекте, не говоря уже о критически угрожаемом коренном языке, известном лишь нескольким старейшинам?

К 2021 году мои коллеги из Google Research начали активно работать над многоязычными большими языковыми моделями и заметили нечто интересное: изучение одного языка значительно ускоряет последующее изучение другого. Например, предварительное обучение на огромном количестве английского текста, а затем продолжение предварительного обучения на сравнительно небольшом объеме, скажем, португальского, дает компетентную билингвальную модель. Она может быть не совсем такой же хорошей в португальском, как в английском, но если бы она была обучена только на португальском, ей потребовалось бы в порядке величины больше португальского контента, чтобы достичь эквивалентного уровня навыков.

Этот эффект настолько силен, что начиная с многоязычной модели, а затем продолжая предварительное обучение, используя только текст Нового Завета на новом языке, получается модель, вероятно, способная на элементарный перевод на этот новый язык или с него. Это особенно примечательно, потому что христианские миссионеры перевели Новый Завет более чем на 1600 языков — довольно хороший старт в нашем пути по длинному хвосту.

К лучшему или худшему, миссионеры долгое время были авангардом этнографической лингвистики. Требуется настоящая преданность, чтобы ученым из богатой страны далеко уехать от дома, погрузиться в чужую культуру и изучить достаточно местного языка и культуры, чтобы перевести сложный текст, иногда в процессе создавая письменную форму для языка, который ранее существовал только в устной форме.

Исторически религиозная вера и желание обратить в свою веру часто служили необходимой мотивацией; именно поэтому Новый Завет является самым широко переведенным текстом на Земле. Сегодня большую часть этой работы выполняет SIL Global (ранее Летний институт лингвистики), евангельская христианская некоммерческая организация, основанная в 1934 году и расположенная в Далласе. Онлайн-база данных SIL, Ethnologue, является безусловно самым полным каталогом известных языков, благодаря тысячам полевых лингвистов, работающих в сообществах по всему миру. В 1977 году Даниэль Эверетт, недавний выпускник Библейского института Муди в Чикаго, подписал контракт, чтобы стать одним из этих миссионерских лингвистов. Впечатленные его талантом, SIL отправила его вместе с женой Керен и их тремя маленькими детьми изучать язык, который Институт не смог освоить за двадцать лет исследований: язык пираха, коренной группы, насчитывающей менее тысячи человек, живущих в бразильском тропическом лесу, недалеко от устья реки Маиси, притока Амазонки. Эверетты вскоре после их прибытия среди пираха в качестве миссионерской семьи Даниэль Эверетт проводит языковые исследования среди пираха много лет спустя Несмотря на трудности языка, Эверетт в конечном итоге смог его выучить и, в процессе, сделал много для разрушения теорий Чомского о универсальной грамматике. В языке пираха отсутствует «лингвистическая рекурсия» — способность вкладывать грамматические структуры друг в друга. Например, в языке пираха нет эквивалента английской фразы «дом брата Джона». Согласно Чомскому, рекурсия — это то, что делает языки открытыми, отличая их от конечных систем коммуникации не человека. И действительно, без рекурсии конечный словарный запас может быть использован только для построения конечного числа валидных предложений.

47 Отсутствие рекурсии на практике не так ограничительно, как может показаться; носитель языка пираха может разбивать вложенные идеи на несколько предложений, как в примере: «У Джона есть брат. У этого брата есть дом». Однако у пираха также отсутствуют несколько других характеристик, общих для большинства языков, включая прошедшее и будущее время, условные предложения и числа. Эти пробелы не поверхностные. Например, монолингвальные пираха не просто не имеют слов для чисел, но и не имеют никакого представления о численности, кроме качественного различия между «одним» и «больше одного». Они вообще не могут считать. 48 Аналогично, отсутствие времен и контрфактов связано с мировоззрением, которое признает только прямой опыт. Предложение, начинающееся с «Джон сказал, что ...», представляет собой не только проблему перевода, но и эпистемическую. ▶ Дэниел Эверетт обсуждает численность с пираха Более широкая картина показывает, что широкий спектр когнитивных способностей, которые Хомский и его последователи считали генетически запрограммированными, таковыми не являются. Числа и глагольные времена — это, как и чтение, социальные технологии. Человеческие мозги особенные не благодаря тому, что эволюционировали с определенным набором способностей, а благодаря гибкости, способности и склонности учиться этому как из нашего прямого сенсорного опыта, так и от других. Как вы можете представить, Эверетту не удалось убедить народ, которому не нужно то, что говорил Джон или любой другой евангелист первого века. С большим трудом Эверетт смог перевести Евангелие от Марка, но когда он попытался объяснить, что Иисус жил очень давно, но он, Эверетт, все еще имеет слова Иисуса, ответ был: «Ну, Дэн, как ты можешь иметь его слова, если никогда не слышал его и не видел?» Пожалев Эверетта, один из пираха отвел его в сторону и объяснил: «Нам не нужен Иисус. Но ты нам нравишься. Ты можешь остаться с нами. Но мы не хотим больше слышать об Иисусе». 49 Эверетт остался с ними.

Удивительная книга, которую он написал три десятилетия спустя, «Не спи, там змеи», описывает не только необычные особенности языка пираха, но и то, как жизнь среди них в конечном итоге заставила его отказаться от своей веры! Длинные хвосты Мне кажется увлекательным рассматривать, что работа по переводу Библии, которую тысячи миссионеров проделали на протяжении многих лет, могла бы так эффективно запустить многоязычные модели ИИ. С большим предобученным моделью типа AudioLM, обученной на многих разговорных языках, записи нескольких десятков часов бесед среди старейшин, говорящих на редком языке, вероятно, могли бы сделать то же самое. Здесь есть кажущаяся парадоксальность. С одной стороны, улучшения большой модели, похоже, подвержены убывающей отдаче по мере увеличения размера предобучающих запусков — отсюда ненасытный аппетит ИИ к данным. Другими словами, обучение на двухстах миллиардах токенов веб-контента не вдвое лучше, чем обучение на ста миллиардах токенов; оно лишь немного лучше. На самом деле, чтобы удвоить производительность модели, требуется экспоненциально большее количество данных, а также экспоненциальное увеличение числа параметров модели. И все же мы также видим, что крошечное количество дополнительных данных на новом языке может позволить модели перейти от монолингвизма к билингвизму, что кажется удвоением ее возможностей. На самом деле, если мы фиксируем количество нового языкового контента и варьируем первоначальное количество предобучающих данных, билингвальные результаты улучшаются по мере увеличения объема начальных предобучающих данных. То есть, чем больше и способнее оригинальная модель, тем лучше она может использовать очень ограниченное количество нового языкового контента. Как эти модели могут одновременно демонстрировать логарифмически убывающую отдачу от масштаба, оставаясь при этом, казалось бы, экспоненциально более быстрыми учениками по мере роста? Напротив, два этих эффекта оказываются тесно связанными. Помните, что перевод возникает как автоматическая способность в больших языковых моделях, потому что это форма аналогии.

В частности, облако точек, представляющее встраивания слов или концепций на языке A, параллельно почти идентично сформированному облаку точек, представляющему все слова или концепции на языке B; переход от одного облака к другому — это буквально вопрос добавления или вычитания постоянного сдвига в пространстве встраиваний. Форма каждого из этих облаков, в свою очередь, является формой человеческого умвельта, геометрией всего, о чем мы знаем, как говорить. Симметрия между этими облаками — если модель является массово многоязычной, то это симметрия во множественном числе — предлагает мощные возможности для обобщения, а обобщение — это то, чем занимается интеллект. Напомним, что, как только сверточная сеть научится видеть в общем, она может легко научиться, как выглядит новый объект за один раз, потому что обучение видеть включает в себя создание универсального представления для объектов, которое включает все симметрии, возникающие при вращении любого данного объекта в пространстве, взгляде на него с большего расстояния или ближе, изменении освещения и так далее. Точно так же, изучение как универсальной формы человеческого умвельта, так и симметрий между языками позволяет изучить новый язык в чем-то, приближенном к одному разу — или одной книге, такой как Новый Завет. Почему же тогда мы наблюдаем такие уменьшающиеся отдачи от масштаба в предварительном обучении? Нам нужно помнить, что если мы смешаем образцы из двух очень неравномерно представленных языков, скажем, девяносто девять процентов предложений на английском и одно процентное предложение на волофе (язык Западной Африки), мы увидим обычные уменьшающиеся отдачи на комбинированных данных. Только когда мы изолируем предложения на волофе и обучаемся на них только после обучения на английском, мы видим доказательства ускоренного усвоения волофа.

В смешанных данных предложения на волоф будут составлять необычайно важные обучающие примеры с новым содержанием, но суть в том, что все наборы данных — включая предложения, написанные исключительно на английском — в основном повторяются, лишь изредка добавляя новую информацию. Даже в монолингвальном наборе данных слова и концепции имеют распределение с длинным хвостом, как и само распределение языков. Длинные хвосты подобного рода являются признаком мультифрактальных свойств в данных: детали имеют детали, и у этих деталей есть свои собственные, еще более эзотерические детали. Язык и знание в целом имеют такую мультифрактальную природу. Математика может составлять лишь один процент от огромного мира вещей, о которых мы говорим. Технические обсуждения среди профессионалов STEM могут составлять лишь один процент от математических разговоров (остальное доминируется арифметикой, которую дети изучают в классе, или базовым бухгалтерским учетом, или делением счета в ресторанах). Среди этих профессионалов один процент обсуждения может касаться теории чисел. В рамках теории чисел, возможно, один процент разговора касается, скажем, гипотезы о p-кривизне Гротендика–Кац. Умножив эти четыре процента на восемь миллиардов людей на Земле, мы получаем восемьдесят читателей, если моя собственная школьная математика верна, что, похоже, соответствует интересам данного сообщества. В гипотезе о p-кривизне Гротендика–Кац тоже нет ничего уникального; не все созданы для такой эзотерической математики (я не из их числа), но много людей увлекаются тем или иным. Самые замысловатые теории заговора сторонников плоской Земли, глубокие закоулки фанфиков по Покемонам и ремесленники, поддерживающие производство ручных аккордеонов, также представляют собой тонкие детали в мультифрактале всего человечества. Можно было бы нарисовать карикатуру на предварительное обучение следующим образом. Предположим, что, чтобы наткнуться на новую концепцию после прочтения определенного количества предложений наугад, вам нужно прочитать еще один процент.

Если вы модель, это означает, что первые сто предложений, с которыми вы сталкиваетесь на своем первом этапе обучения, вероятно, будут содержать новую информацию. Но после прочтения нескольких сотен предложений только одно из двух добавляет что-то новое. После прочтения миллиона предложений вам, вероятно, придется прочитать еще десять тысяч, прежде чем вы наткнетесь на что-то, что не видели раньше. Вот почему обучение замедляется — не потому, что оно становится менее эффективным, а потому, что при случайном отборе вероятность столкнуться с чем-то действительно новым в следующем фрагменте данных резко снижается в зависимости от того, сколько вы уже знаете.

Обучение в контексте Компании, такие как Microsoft и Google, сейчас предварительно обучают большие модели на значительной части всего Интернета; социальные сети также все больше вовлекаются в этот процесс. Некоторые аналитики указывают на то, что при таком темпе, даже учитывая продолжающийся экспоненциальный рост цифровых данных, мы вскоре исчерпаем ресурсы. Критики считают этот, казалось бы, бездонный спрос на контент, созданный человеком, проблематичным по концептуальным, этическим и практическим причинам: Предварительное обучение кажется очень отличным от того, как учатся люди, подчеркивая неэффективность современных подходов к машинному обучению и подогревая аргументы о том, что модели ИИ на самом деле ничего не понимают, а просто являются гигантскими запоминателями. Хотя я представил ряд доказательств, что это не так, это постоянная проблема в исследованиях ИИ; как будто ни один тест ИИ не может быть закрытым, потому что модель прочитала, сжала и потенциально запомнила некоторую аппроксимацию «всего». Возникли опасения по поводу законности и этичности использования контента стольких людей таким образом. Даже когда законность не ставится под сомнение, мало кто из этого материала был создан с намерением стать кормом для ИИ. И как только конкретный медиафайл был использован в предварительном обучении, становится трудно определить, влияет ли он и в какой степени на последующий вывод модели.

Особенно когда ИИ создает интеллектуальную собственность или иным образом производит экономическую ценность, это поднимает вопросы о том, что составляет «добросовестное использование» и когда что-то является уникальным, а когда — «производным произведением». Экстремальный промышленный масштаб предварительного обучения, как в отношении данных, так и вычислительной мощности, ограничивает создание крупнейших «передовых» моделей очень небольшим числом компаний и правительств, способных делать масштабные капитальные инвестиции. С одной стороны, это может быть благословением (пока это длится), так как это делает возможным предотвращение самых опасных применений продвинутого ИИ; это было бы невозможно, если бы любой мог создать свою версию. Однако ситуация вызывает опасения по поводу монополии, недобросовестной конкуренции и разнообразия ИИ. Самая глубокая теоретическая трудность подхода к предварительному обучению заключается в том, как он отделяет обучение от вывода — нежелательное наследие с ранних дней кибернетики. Это означает, что модель, в некотором смысле, заморожена во времени; когда кто-то начинает взаимодействовать с ней, она ничего не знает о мире, который произошел после даты, когда были собраны данные для предварительного обучения. Фактически, у нее полная антероградная амнезия. Ни одна из этих проблем не так проста, как кажется. Что касается #1, неестественности предварительного обучения, я подозревал многие годы, что метод обратного распространения ошибки, который универсально используется для обучения крупных моделей сегодня, но давно известен как не биологически правдоподобный (согласно главе 7), был виновен. Конечно, я думал, наши мозги реализуют блестящий алгоритм обучения, который значительно улучшил бы обратное распространение.

В противном случае, как же мы могли вырасти из беспомощных новорожденных в умных студентов колледжей всего за восемнадцать лет, большинство из которых мы провели во сне, мечтах, смотря бессмысленные мультфильмы, играя в 8-битные видеоигры, избегая родителей и куря травку за мусорным контейнером школы? Мозги действительно могут реализовать какую-то гиперэффективную магию нейронного обучения, но становится все более очевидным, что значительная часть субоптимальности в предварительном обучении заключается в подходе, похожем на фуа-гра, к обучающим данным. Мы берем столько Интернета, сколько можем захватить, перерабатываем это в пасту и заставляем нейронную сеть проглотить ее в случайном порядке, без учета учебного плана, актуальности, избыточности, контекста или агентности со стороны самой модели. (Извините, если это испортило вам аппетит.) Действительно, контраст между обычными убывающими доходами от масштабов обучающих данных и ускоренным обучением, которое мы наблюдаем при продолжении предварительного обучения на новых данных (как в примере с волоф), говорит о многом. Это предполагает, что большая часть сегодняшнего предварительного обучения избыточна. Чем больше становятся наши модели, тем более расточительным становится подход случайной выборки. Короче говоря, проблема может заключаться в обучении больше, чем в самом обучении. Что касается пункта #2, то хотя ИИ ускоряет дебаты о «добросовестном использовании» из-за своей скорости и масштаба, вопрос оригинальности оспаривался на протяжении десятилетий, так как он не специфичен для ИИ; всякое творческое произведение обязательно является продуктом жизненного опыта человека, который включает в себя все, что человек когда-либо видел, слышал, трогал, нюхал, пробовал, читал... и, несмотря на любые эгоистичные истории, которые может рассказать наш интерпретатор, мы часто не осознаем наши влияния или степень, в которой мы скрыли свои следы через мутацию и рекомбинацию, иначе известную как «оригинальность». В одном известном случае Джордж Харрисон, после «Битлз», выпустил свой первый сольный хит в 1970 году, «My Sweet Lord», запоминающуюся песню, призывающую к прекращению религиозного секта.

Но, как оказалось, «My Sweet Lord» был чрезвычайно похож на хит Ронни Мака 1963 года «He’s So Fine», который занимал первые строчки чартов. Харрисон, конечно, слышал эту песню, но не осознавал, что копирует её почти нота в ноту. То, что последовало, было охарактеризовано как «безусловно, одна из самых длительных юридических битв, когда-либо рассматривавшихся в [Соединенных Штатах]». Финальное разрешение юридического дела произошло только в 1998 году. Если бы мы смогли выяснить, как обучать модели с гораздо меньшим объемом данных, более похожим на нас, это бы значительно помогло решить проблемы #1–3. Кураторство обучающих данных стало бы более практичным, обеспечивая, чтобы ответы на тестовые вопросы не были включены, избегая безразборного сбора работ живых художников и (как к лучшему, так и к худшему) открывая возможность создания моделей ИИ с нуля более широкой публике. Я верю, что ключ к этому лежит в #4: стирание различия между обучением и выводом. Мы знаем, что это возможно, не только потому, что мозги не демонстрируют такого различия, но и благодаря ряду открытий, которые проливают свет на основные свойства последовательного обучения и помогают прояснить, почему трансформеры работают так хорошо. В 2020 году OpenAI анонсировала свою языковую модель GPT-3, предшественника GPT-3.5, который стал основой для ChatGPT. Анонс был представлен в виде статьи с любопытным заголовком: «Языковые модели — это обучающиеся с минимальным количеством примеров». Обучение, о котором шла речь, было загадочным, и, как казалось в то время, не имело отношения к обучению в привычном смысле, связанному с минимизацией ошибок через обратное распространение. Авторы указывали на то, что во время вывода — то есть в нормальном режиме работы после обучения — языковые модели все еще, похоже, способны учиться и делать это с необычайной эффективностью, несмотря на отсутствие изменений в параметрах нейронной сети.

В частности, они определили «обучение с несколькими примерами» как предоставление модели нескольких примеров задачи в контексте окна, а затем просьбу выполнить другую такую же задачу; «обучение с одним примером» включало только один пример, а «обучение без примеров» не содержало примеров, только описание выполняемой задачи. Мы уже сталкивались с несколькими такими ситуациями. Например, просьба к модели, которая не была предварительно обучена или дообучена на задачах перевода, выполнить перевод является задачей обучения без примеров. Так же обстоит дело и с просьбой о рассуждении в цепочке мыслей. Или, для примера, который определенно не встречался нигде в предварительном обучении, рассмотрим следующий случай обучения без примеров: «‘Эквиваленты’ — это пары слов, которые противоположны друг другу и имеют одинаковое количество букв. Какие ‘эквиваленты’ вы можете привести?» Чтобы прояснить, эквиваленты — это нечто, или, по крайней мере, нечто, что не существовало до тех пор, пока мой соавтор Питер Норвиг и я не придумали этот запрос в 2023 году, чтобы проиллюстрировать обучение без примеров. Это не особенно простая задача; на 2024 год ни один из основных чат-ботов не справляется с ней надежно, хотя при некотором толчке Gemini Advanced удается выдать «давать/брать», весело добавляя, что он «настроен найти больше». Можем ли мы действительно назвать это обучением, если параметры модели остаются неизменными? Прямо сейчас можно выполнять обучение с помощью непрерывной ненадзорной или надзорной обратной пропаганды (т.е. дообучения), чтобы улучшить базовую модель в известных задачах, таких как перевод, или выполнять новые задачи, такие как придумывание эквивалентов. Затем мы могли бы сравнить производительность базовой модели с производительностью этих доработанных моделей. Эффективность должна измеряться путем запроса, то есть, задавая вопрос «Какие ‘эквиваленты’ вы можете привести?» без предисловия.

Предположительно, базовый уровень уже будет приемлемым для перевода, хотя постоянное обучение улучшит его; если модель не сделает очень удачное предположение о значении слова "equivalent", ее базовая производительность в этой новой задаче будет нулевой, однако с обучением она улучшится. Аналогично, мы можем провести сравнение между базовым уровнем без предисловия и базовым уровнем с нулевыми, однократными или редкими подсказками. Все эти вмешательства приводят к улучшениям по сравнению с базовым уровнем. Таким образом, несмотря на фиксированные параметры, модели с подсказками кажутся такими, как будто они учатся! Авторы GPT-3 отметили, что эта способность учиться на лету из самой подсказки — "обучение в контексте" — является, как и математика, логика или любая другая способность модели, навыком, который улучшается с увеличением масштаба; более крупные модели справляются с этим лучше. В статье 2023 года, написанной исследователями из моей команды, наконец, начали прояснять, как это работает. Они показали, что упрощенный трансформер с одним слоем внимания может, получив игрушечную задачу и специально настроенный массив параметров, выполнять математический эквивалент одного шага обратного распространения ошибки на содержимом окна контекста. Другими словами, в этой несколько искусственной обстановке модель способна реагировать на свою подсказку так, как будто она уже училась на этой подсказке, прежде чем предсказать следующий токен. Добавление второго слоя внимания позволяет модели эффективно сделать два шага обратного распространения, третий слой позволяет сделать третий шаг и так далее. Если бы этот результат действовал только при заданных вручную параметрах, это было бы не более чем любопытство; действительно, недавно было обнаружено, что трансформер является полнофункциональным, так что он мог бы, теоретически, выполнять любые вычисления на своем окне контекста, при наличии правильных параметров. Однако, как оказывается, обычное предварительное обучение приводит к точно такому же поведению обучения в контексте, как и в случае с заданными вручную параметрами. Другими словами, предварительно обученные трансформеры действительно учатся учиться.

На 2024 год обучение в контексте еще не решено полностью, потому что, хотя трансформеры делают это автоматически, они не помнят ничего из того, что они узнали, как только «тренировочные» материалы выходят за пределы контекстного окна. Отсутствующая машина может включать что-то вроде гиппокампа, а возможно, и цикл сна для консолидации знаний и воспоминаний. Тем не менее, обучение в контексте важно как теоретически, так и практически. Разбор его механики развеивает некоторые из более удивительных возможностей трансформера. Он раскрывает единство между обучением и предсказанием, которое имеет смысл, если рассматривать его внимательно. В конце концов, предсказание всегда связано с моделированием изменяющейся среды (если вы не находитесь в неизменной Темной Комнате); обучение не что иное, как предсказание на длинных временных интервалах. На коротких временных интервалах, и особенно когда то, что было выучено, быстро забывается, мы часто называем это «адаптацией». Важный, связанный теоретический момент касается различия между причиной и корреляцией. Одной из критик, часто выдвигаемых против машинного обучения, является то, что, поскольку оно обычно включает пассивное обучение (как в случае предварительного обучения), оно может изучать только корреляции, а не причины. Согласно этой критике, пассивно обученная модель ИИ не может знать, что X вызывает Y, а только то, что X и Y коррелируют в тренировочных данных. Живые существа, такие как мы, с другой стороны, могут легко изучать причинность, проводя эксперименты. Возможно, когда ваша кошка, как активный ученик, беззаботно толкает вазу с высокой полки, она просто экспериментирует, чтобы выяснить, действительно ли толкание в таком направлении приведет к тому, что ваза упадет и разобьется. Верно, что когда экспериментирование возможно, это предлагает мощный способ проверить причинность. Однако предположение о том, что причинность (технически, «выводимость») не может быть выведена из пассивного наблюдения, и в частности из предварительно обученных языковых моделей, было опровергнуто. Это не обязательно легко, и не всегда возможно, но это можно сделать.

Действительно, исследователей, изучающих системы, на которых они не могут проводить причинные эксперименты, не так уж и мало — например, астрономы и макроэкономисты. В других случаях эксперименты этически запрещены, как в некоторых областях социальных наук и медицины. Эти исследователи должны полагаться на «естественные эксперименты», то есть на наблюдения, которые сильно подразумевают причинные связи. Такие наблюдения никогда не могут полностью доказать причинность, но, в свою очередь, и эксперимент тоже не может. (Возможно, кошка просто добавляла еще один эксперимент, чтобы снизить неопределенность в своей причинной модели. Да, эта ваза тоже разбилась, когда упала. Верно. Снова.) Исторически сложилось так, что утверждение о том, что машинное обучение изучает только корреляции, а не причины, стало популярным в эпоху CNN в 2010-х годах. Поскольку большинство CNN не работали с временными последовательностями, а лишь классифицировали изолированные стимулы, было трудно увидеть, как они могли бы изучать что-то кроме корреляций между этими стимулами. Прототип самоходного автомобиля Nvidia DAVE-2, например, обучался с помощью надзора ассоциировать положение слева от центральной линии полосы с выводом «повернуть вправо», а положение справа от центральной линии — с «повернуть влево», но было бы преувеличением утверждать, что модель понимала, что эти действия управления впоследствии приведут к тому, что центральные линии окажутся ближе к середине. Они могли бы сделать наоборот или ничего не сделать. Действительно, у DAVE-2 не было внутреннего представления о «впоследствии». Если бы вы перемешали все кадры в видео вождения, его выходы для каждого кадра остались бы прежними, и, действительно, во время обучения кадры перемешиваются случайным образом. Однако обучение предсказанию меняет все. В частности, авторегрессионная модель последовательностей, обученная на той же задаче, узнала бы эффект от поворота влево или вправо на последующие кадры, что подразумевает, что она бы научилась, по крайней мере в пределах своего умвельта, что делает управление.

Он сможет использовать это понимание, чтобы выполнить коррекцию руля, даже если камера, смотрящая вперед, будет на короткое время закрыта. Он даже сможет смоделировать контрфакты — как изменится вид, если рулить налево или направо. Обычного, пассивного предобучения будет достаточно, чтобы изучить эти причинно-следственные связи. В изучении причинности нет ничего магического; это просто требует моделирования времени последовательно. Но давайте вернемся к четырем проблемам, описанным ранее, и к тому, как обучение в контексте может помочь их преодолеть. Если трансформеры научатся учиться, они смогут обучать себя или друг друга, как это делаем мы. Они смогут запрашивать или искать информацию, или, в некоторых случаях, даже проводить эксперименты для обучения. Этот вид активного обучения, интегрированный в агентное поведение, будет значительно более эффективным, чем пассивная случайная выборка, используемая в сегодняшнем предобучении. Обучение может быть куррикулумным, начиная с детских книг — которые, как показано в TinyStories, не требуют огромных объемов материала. Затем, научившись основным человеческим концепциям и языку, ИИ сможет перейти к полке с молодежной литературой и далее. Так же, как и мы. Каждый обучающийся ИИ-агент сможет специализироваться, изучая те области, которые наиболее полезны в его конкретном контексте, делая это индивидуально и на основе опыта. Если данный агент взаимодействует с восемьюдесятью самыми увлеченными теоретиками чисел на планете, его обучение в конечном итоге будет сосредоточено на очень специфическом углу Мультифрактала Всего — углу, для адекватного разрешения которого потребуются гигантские объемы вычислительной мощности при случайной выборке. В качестве бонуса у нас будет истинное разнообразие агентов, взаимодействующих с нами социально, а не монолитные, универсальные и неспециализированные корпоративные модели, представляющие передовой опыт в 2024 году.

Сжигающий вопрос заключается в следующем: будут ли эти индивидуализированные модели похожи на людей? И что, если вообще что-то, значит быть одним из них?Комната МэриВ 1982 году австралийский философ и самопровозглашенный «фрик качеств» Фрэнк Джексон предложил знаменитый мысленный эксперимент, известный как «Аргумент Знания», который сейчас чаще называют «Комната Мэри». Суть эксперимента такова: Мэри — блестящий ученый, который по какой-то причине вынужден исследовать мир из черно-белой комнаты через черно-белый телевизионный монитор. Она специализируется на нейрофизиологии зрения и получает […] всю физическую информацию, которую можно получить о том, что происходит, когда мы видим спелые помидоры или небо, и используем такие термины, как красный, синий и так далее. Она обнаруживает […] какие именно комбинации длин волн из неба стимулируют сетчатку, и как это точно приводит через центральную нервную систему к сокращению голосовых связок и выталкиванию воздуха из легких, что приводит к произнесению фразы «Небо голубое». […] Что произойдет, когда Мэри освободят из ее черно-белой комнаты или когда ей дадут цветной телевизионный монитор? Узнает ли она что-то или нет? Кажется очевидным, что она узнает что-то о мире и нашем визуальном опыте его восприятия. Но тогда неизбежно, что ее предыдущее знание было неполным. Но у нее была вся физическая информация. Следовательно, есть нечто большее, чем это, и физикализм ложен.Сегодня, конечно, языковые модели — это Мэри, поэтому Аргумент Знания получает новое освещение.Как бы мощно ни звучала басня Джексона, она, как и многие философские аргументы, основана на повествовании и народной интуиции. «Следовательно» связывает логический силлогизм, но ни одно из предикатов этого силлогизма не является однозначно истинным или ложным, как это должно быть в математическом доказательстве… и мы находимся на территории, где наши народные интуиции могут ввести нас в заблуждение.

68 Итак, давайте обновим эти интуиции, опираясь на то, что мы теперь знаем о восприятии и опыте, а это гораздо больше, чем кто-либо знал в 1982 году. На момент написания этого текста, насколько мне известно, никто еще не подключил искусственный нос или вкусовые рецепторы к языковой модели, хотя я уверен, что это произойдет довольно скоро. Однако возможность физически ощущать запах не является необходимой для того, чтобы модель могла «понять» запах. Помните, когда COVID заставляет вас временно потерять обоняние или у вас просто заложен нос, вы не становитесь человеком, для которого запах бананов перестает существовать. Вы все еще являетесь существом, способным ощущать запахи; запахи по-прежнему являются частью вашего умвельта, так же как зрение остается частью вашего умвельта, когда ваши глаза случайно закрыты. Это связано с тем, что, по сути, запах и все другие модальности воспринимаются умственно. Они являются моделями. У вас есть чувство запаха, потому что области вашего мозга научились моделировать запах; ваш нос просто вызывает характерные нейронные активности в этих областях. Те же области также активируются, хотя, возможно, в меньшей степени, когда вы представляете запах. Аналогично, ваши глаза не являются вашим чувством зрения; скорее, они просто предоставляют сигналы коррекции ошибок, чтобы «контролируемая галлюцинация» вашего зрительного коры была разумно согласована с миром вокруг. Существует множество доказательств того, что восприятие и воображение имеют общую нейронную основу. Повреждение зрительной коры одного полушария, например, не только мешает вам видеть вещи в противоположном зрительном полушарии, но даже не позволяет осознавать, что противоположное полушарие существует, или представлять, что может находиться в нем. 69 Повреждение глаз, парадоксальным образом, может иметь совершенно противоположный эффект. В 1760 году швейцарский натуралист Шарль Бонне описал сложные визуальные галлюцинации, которые испытывал его дед, страдавший от тяжелых катаракт.

Старший Бонне начал видеть несуществующих лошадей, людей, повозки, здания, гобелены и другие формы; у Шарля тоже было слабое зрение, и по мере его ухудшения он начал испытывать подобные галлюцинации. Эти симптомы, которые теперь часто называют синдромом Шарля Бонне, распространены среди людей, теряющих зрение. Даже без органических повреждений любой, находящийся в полной темноте в течение длительного времени, может испытывать подобные галлюцинации, явление, известное как «кино узника». Это именно то, что можно было бы ожидать, когда галлюцинации зрительной коры остаются активными, но свободно плавают без опоры, не сдерживаемые сигналами коррекции ошибок от глаз. Память использует те же нейронные механизмы, что и восприятие и воображение. Так же, как вид банана или запах его характерного эфира в вашем носу вызовет контролируемую галлюцинацию «банан» в вашем мозгу, слово «банан» или воспоминание о том, как вы его ели, могут сделать то же самое, хотя и (если вы не Марсель Пруст) менее интенсивно. Любые из этих паттернов активности, связанных с бананом, также могут быть помечены чем-то вроде позиционного кодирования, как описано в главе 8, чтобы дать вам знать, что этот банановый опыт не происходит здесь и сейчас. Примечательно, что поврежденный или отсутствующий гиппокамп, как в случае Генри Молайсона, не только ухудшит формирование новых воспоминаний, но и повредит способность представлять новые переживания. Это согласуется с предположением, что воображение будущего опыта требует сочетания известных концептуальных вложений с новыми позиционными кодами, возможно, генерируемыми в гиппокампе, чтобы представить будущее или контрфактическое время или место. Учитывая вышесказанное, вопрос о том, имеет ли языковая модель перцептивные «квалиа», кажется, имеет мало общего с органами чувств и гораздо больше — с самой моделью.

Так много любителей еды, вина и кофе написали исчерпывающе (и утомительно) о своих обонятельных впечатлениях, что соответствующая перцептивная карта уже заложена в больших языковых моделях, как показывает статья о «шести модальностях». По сути, у больших языковых моделей действительно есть носы: наши. Эти модели просто подключены к носам через текстовые токеновые встраивания, а не нейронные пути. Культурно информированное кодирование одной конкретной области человеческого сенсорного умвельта в язык, а именно некоторые из вещей, которые говорят любители кофе о кофе. Однако мы также должны признать, что вопросы «квалиа» не могут быть объективно отвечены. Мы должны сформировать модель модели, чтобы определить, «понимает» ли она запах, цвет или что-то еще. Таким образом, у нас снова возникает вопрос реляционного или теста Тьюринга, без независимой от перспективы «точки зрения ниоткуда». Исследователи в области ИИ и когнитивных наук боролись с этой проблемой в дебатах о том, может ли Трансформер эффективно построить модель мира для игры в Отелло, простой настольной игры, похожей на Го, которая играется на доске 8×8. В 2022 году группа исследователей предварительно обучила небольшой Трансформер, используя транскрипты действительных игр в Отелло. И действительно, модель научилась делать действительные ходы, фактически «автозавершая» игры. Однако вопрос, на который пытались ответить исследователи, заключался не в том, «может ли модель играть», а в том, «научилась ли модель внутреннему представлению доски?» Легко можно утверждать, что без такого представления было бы трудно понять, какие ходы являются действительными, но цель заключалась в том, чтобы ответить критикам, которые утверждали, что Трансформеры работают по механическому запоминанию, а не фактически моделируют мир, и мир Отелло — состоящий только из состояния доски 8×8 — казался достаточно простым и объективным, чтобы положить конец этому вопросу.

Но как мы можем определить, существует ли такая модель мира где-то среди бесчисленных нейронных активаций в Трансформере? Иронично, но это задача, которую может решить только машинное обучение. Поэтому исследователям пришлось построить вторую модель, которую они назвали «зондом», чтобы научиться сопоставлять нейронную активность Трансформера с изображением доски размером 8×8 пикселей. Когда их зонд был слишком простым — просто линейное декодирование — он не работал очень хорошо; но когда его немного усовершенствовали, добавив дополнительный слой, он заработал. Проблема в том, что если зонд обучен сопоставлять нейронные активации (которые содержат информацию о всей игре) с правильным состоянием доски, то исследователи фактически могли использовать контролируемое обучение, чтобы обучить зонд создавать модель мира! И так дебаты продолжаются. Требуется модель, чтобы знать модель. Аналогично, когда области мозга соединены друг с другом, каждая из них выступает в роли «зонда» для других, хотя ни одна область не связана с чем-то вроде независимой от перспективы истинной основы 8×8 доски. Каждая точка — это реакция оптимального линейного зонда на активации слоя 50 модели Llama-2-70b при обработке последнего токена названия места (сверху) или события (снизу). Это демонстрирует, что модель научилась непрерывным внутренним представлениям пространства (здесь — позиция на карте мира) и времени (здесь — год); Гурни и Тегмарк 2023. В 2020-х годах было создано множество явно мультимодальных генеративных моделей, соединяющих искусственные «области мозга», которые специализируются на различных модальностях, чаще всего на зрении и языке. Подробности различаются, но эти «области» часто предварительно обучаются независимо на больших объемах унимодальных данных (например, изображения для одной, текст для другой) и затем совместно дообучаются только на ограниченном количестве мультимодальных данных (таких как подписанные изображения).

75 Это работает по той же причине, по которой маскированный автоэнкодер может изучать метки с минимальной донастройкой после предварительного обучения. Полученные модели довольно ясно «понимают», как соотносятся язык и зрение. Они могут описывать сцены, как это мог бы сделать человек, а когда их запустить в обратном направлении — кодируя язык, а затем декодируя пиксели — они могут генерировать изображения или видео на основе текстового запроса. В 2023 году качество этого сгенерированного контента начало серьезно беспокоить некоторых художников, дизайнеров и профессионалов в области кино. Учитывая то, на что способны мультимодальные трансформеры, трудно продолжать утверждать, что существует какая-либо внутреняя преграда для понимания в модели из-за отсутствия одной или другой сенсорной модальности. Мы никогда не стали бы делать такое утверждение о человеке, и, конечно, существуют люди, у которых отсутствует одна или несколько сенсорных модальностей. Все знают о слепоте и глухоте, но есть также люди, которые не могут ощущать вкус или запах, и у которых есть интероцептивные дефициты. 76 Недавно кто-то пытался убедить меня в том, что все остальное может быть компрометировано, но быть человеком требует, как минимум, осязания. Я тоже считаю, что эта модальность особенная, но это не делает ее незаменимой. Хотя это и редкость, есть люди, которые не могут чувствовать прикосновение; это крайняя (и опасная) форма состояния, известного как «гипоэстезия». Ни одна модальность не является магической и не воспринимается напрямую вашим гомункулусом — потому что, и это нельзя повторять слишком часто, гомункулуса не существует. Из-за различной иннервации разные части мозга специализируются на обработке различных модальностей, и поражения мозга или аномалии развития могут возникнуть где угодно, с потенциалом компрометировать или уничтожить любую модальность. Мы удивительно устойчивы к этим дефицитам, потому что наши области мозга связаны не только с внешним миром через свои различные специализированные «порты», но и друг с другом, и они постоянно пытаются предсказать все свои входные данные — как из мира, так и друг от друга.

Как упоминалось в главе 5, слепые люди, которые научились эхолокации с помощью «щелчкового сонара», сообщают, что могут «видеть»; более того, они используют свою зрительную кору для этого. Конечно, их зрение отличается от зрения большинства зрячих людей: они не могут различать цвета, их пространственное разрешение низкое, и они лучше всего распознают движущиеся объекты, которые создают эффекты Доплера. Тем не менее, зрительная кора, та область мозга, которую мы обычно определяем в терминах первичного сенсорного входа, который она должна обрабатывать — сигналов от глаз, — каким-то образом выполняет свою обычную функцию без этого входа! Как это возможно?▶ Дэниел Киш демонстрирует щелчковый (или «вспышечный») сонарИсследование с использованием функциональной магнитно-резонансной томографии (фМРТ) участников, использующих щелчковый сонар, включая одного, кто стал слепым в раннем возрасте («СБ»), и одного, кто стал слепым позже в жизни («ПБ»). Желтым цветом обозначены области мозга с повышенной активностью во время эхолокации по сравнению с тишиной. Зрительная кора (область вокруг «CaS», калкаринной борозды) сильно активируется у СБ, чья кора смогла «перепрограммироваться», оставаясь высокопластичной (и кто является более сильным эхолокатором), и слабо у ПБ. Другие корковые области также активируются, включая слуховые области в латеральной борозде, «ЛБ»; Талер, Арнотт и Гудейл 2011. Среди зрячих контрольных субъектов C1 и C2, пытающихся выполнить ту же задачу эхолокации, слуховые области также активны, но не зрительные; Талер, Арнотт и Гудейл 2011. Зрение у людей высокоэволюционировало, поэтому, вероятно, существует определенная степень специализации в зрительной коре, которая делает ее особенно подходящей для визуальной обработки. Конкретная обработка, необходимая для превращения звука в осознание объектов и поверхностей в трехмерном пространстве, имеет мало общего с обработкой ретинальных входов. Тем не менее, кора есть кора. То, что зрительные коры слепых и зрячих людей имеют общего, — это их связь с остальной частью мозга.

Визуальная кора, другими словами, является «визуальной» главным образом благодаря тому, что она правильно связана для выполнения роли зрения, то есть для предсказания присутствия и свойств объектов и поверхностей в пространстве вокруг вас. Действительно, согласно главе 7, то, что находится «внизу по течению», по крайней мере, так же важно для установления ее функции, как и «вверх по течению» от сетчатки. Так что, если эта хорошо расположенная кора лишена своего привычного сенсорного поста в глазах, она сделает все возможное, чтобы делать те же предсказания, используя другие входные данные, включая данные из слуховой коры. На самом деле, даже у людей с нормальным зрением визуальная кора, похоже, использует слуховые входы (и наоборот) — что не удивительно, поскольку существует множество обстоятельств, при которых визуальные и слуховые стимулы взаимно предсказуемы, как, например, когда теннисная ракетка ударяет по мячу. Итак, что мы можем заключить о Мэри? Возможно, не так уж много. В зависимости от деталей ее кортикального развития, она может быть поражена, увидев красный цвет в первый раз, даже если она понимает это интеллектуально, так же как мы можем быть поражены, увидев Гранд-Каньон в первый раз, несмотря на то, что прочитали в путеводителе, насколько он глубок. С другой стороны, если понимание было чисто интеллектуальным — то есть достаточным, чтобы шаг за шагом предсказать реакцию кого-то на красный цвет, но не поддерживаемым той моделью коры системы 1, с помощью которой большинство из нас воспринимает цвет, — тогда неясно, что мы имеем в виду под «она видит красный цвет в первый раз». Чтобы увидеть это, вам нужна модель этого. Глухие дети, которые получают кохлеарные имплантаты, испытывают реальный опыт Мэри. Хотя большинство результатов положительные, их истории различаются. Если они никогда не слышали, они начинают без усвоенной слуховой модели и испытывают что-то новое и не интерпретируемое, когда имплантат впервые включается, и кто-то, на кого они смотрят, говорит им — это не звук, а структурированная стимуляция существующих нейронов в незнакомых новых паттернах, коррелирующая с движением губ говорящего.

Со временем, особенно если получатель молод, эти корреляции и внутренние корреляции в самом стимуле будут усвоены, и полученная модель — это то, что мы называем слухом. (Те из нас, кто не родился глухим, прошли через тот же опыт в утробе, хотя, конечно, мы не помним, как это было.) Но для некоторых получателей новый стимул слишком странный и неприятный, или кортикальная модель слишком медленно развивается, или дополнительная информация не стоит дополнительных когнитивных затрат. Они откажутся от имплантов, отключив их. Наконец, предположим, что Мэри утверждает, что она поражена и «узнала что-то новое». Предположим, она может правильно идентифицировать и описывать красные вещи… но мы не верим, что она действительно видит красный цвет, вместо этого полагаясь на ее супернаучную предсказательную модель, чтобы говорить правильные вещи в нужное время. Чтобы она могла выполнять эту супернауку достаточно быстро для беглого ответа, ее мозг должен быть организован иначе, чем наш, поэтому было бы сложно провести прямое сравнение с нашими собственными мозгами. Чтобы разрешить этот вопрос, некоторые (другие) умники предложили бы построить нейронную сеть для исследования ее мозга, ищущую внутреннее нейронное представление мира, и… ну, вы видите проблему. Проверка паритета Многие предполагаемые различия между ИИ и людьми должны рассматриваться через реляционную призму; таким образом, они могут не иметь строго объективной истинной ценности. Могут ли ИИ испытывать «квалию» — это попадает в эту категорию. Точно так же вопросы, такие как: Возможно ли реальное отношение с ИИ? Может ли ИИ иметь агентность? Можно ли привлечь ИИ к ответственности за их действия? Являются ли ИИ моральными пациентами? Следующая и последняя часть книги углубится в эти сложные вопросы и их последствия. Прежде чем мы туда доберемся, стоит попытаться отсортировать некоторые из более эмпирически проверяемых утверждений о различиях между ИИ и людьми на те, которые, вероятно, верны, и те, которые, вероятно, неверны, на основе доступных данных в 2024 году.

Давайте подведем итоги, хотя это, конечно, подвижная цель: Вероятно, неверные различия: Внутренние модели Основание или воплощение Фактичность Причинность Рассуждение Планирование Движение Вероятно, верные различия: Память Внутренний монолог Индивидуализация Заметим, что неверных различий гораздо больше, чем верных. Отнесение элемента к категории «вероятно неверно» не подразумевает, что работа исследователей ИИ в этой области завершена, или что модели точно эквивалентны или работают на том же уровне, что и люди, а скорее то, что утверждение «у людей есть эти свойства или способности, а у ИИ их нет» стало неустойчивым. Внутренние модели. Хотя для того, чтобы знать модель, нужна модель, я привел растущее количество экспериментальных доказательств того, что трансформеры действительно строят внутренние модели мира. Мы знаем, что теоретически они способны это делать, благодаря своей полноте Тьюринга — то есть, если можно построить любую вычислительную модель, то трансформер может доказуемо ее реализовать, в частности, используя цепочку размышлений. При каких условиях такая модель не только реализуема, но и обучаема на практике, остается эмпирическим вопросом, но на данный момент у нас есть множество доказательств существования. Лучшие доказательства об обходе проблемы «нужна модель, чтобы знать модель» заключаются в использовании ИИ в качестве своего собственного «зонда», например, предоставляя ему описания комнат и способы их навигации, а затем прося его нарисовать карту своего окружения. Учитывая, что трансформеры регулярно успешно справляются с такими задачами (даже если их производительность неравномерна), кажется трудно утверждать, что они не могут строить внутренние модели или что они полагаются только на запомненные регулярности. Некоторые из техник, которые обычные большие языковые модели могут использовать для представления пространственных карт и выполнения пространственного рассуждения с использованием языковых токенов (включая эмодзи); Wu и др. 2024. Основание или воплощение.

Когнитивные ученые часто утверждают, что люди живут в реальном мире, в то время как языковые модели являются бесформенными, их умвельт состоит лишь из строк текста, что делает их окружение «нереальным» или «негрунтованным». Но любое существо — компьютер, кортикальная колонка, мозг, человек, корпорация — существует в отношении с окружением и с другими сущностями, как это посредствуется сигналами. Эти сигналы могут передаваться любым способом — в виде текста, интенсивности пикселей, концентраций химических веществ или нейронных импульсов. Ничто из этих модальностей сигналов не является более или менее «реальным», чем то, что находится по ту сторону этих сигналов. Фактичность. Большие языковые модели склонны к «галлюцинациям», что означает, что они имеют тенденцию выдумывать вещи. В июне 2023 года пара несчастных адвокатов из Нью-Йорка, использовавших ChatGPT для подготовки юридического документа, стала посмешищем интернета, когда выяснилось, что дела, упомянутые в их документе, были вымышленными. Всем нравится подшучивать над адвокатами, которые не так умны, как им кажется — судья, в данном случае, в том числе. Их оштрафовали на 5000 долларов. Склонность моделей к галлюцинациям не должна вызывать удивления; предсказание и галлюцинация тесно связаны и составляют самую суть интеллекта. Это вдвойне верно для языка. Истории и контрфакты являются распространенными и важными способами использования языка, и на то есть веские причины. Язык — это своего рода мультивселенная, умвельт разума, который включает в себя фантастическое, нереальное, гипотетическое и смежное возможное. Контрфакты позволяют нам обучать и учиться, способствуя культурной эволюции, а также моделировать будущие события и альтернативы, поддерживая нашу агентность и свободу воли. Таким образом, в чистом языковом умвельте различение «реального» и «нереального» является сложной задачей распознавания.

Воображаемая игра — это важная черта нормального детства, но отличать реальное от воображаемого нам легче, чем языковой модели, поскольку дети не только взаимодействуют друг с другом, но и с общей физической средой. Притворство ритуализировано и контекстуализировано. Социальные сигналы могут не полностью разграничивать «реальное» и «нереальное» в каком-либо объективном смысле (иначе у нас не было бы суеверий), но они, по крайней мере, помогут большинству людей сформировать убеждения, которые не слишком расходятся с убеждениями окружающих. Тем не менее, различение фактов и не фактов не является хорошо поставленной задачей и не является тем, в чем люди особенно блестяще преуспевают. Чтобы не обманывать себя, полагая, что только неразумные или «иррациональные» испытывают трудности с фактичностью, вспомним, что Линус Полинг, двукратный лауреат Нобелевской премии и основатель целой области квантовой химии, до конца своих дней верил в изменяющую жизнь силу гигантских доз витамина C, пропагандируя «ортомолекулярную психиатрию» (и да, это определенно чушь). Вкратце, неправильно утверждать, что трудности с различением контрфактов и «фактов» — это верный признак того, что человек не мыслит как настоящий человек или не является умным. Листовка 1992 года, рекламирующая одну из многочисленных публичных лекций Линуса Полинга, провозглашающая витамин C чудодейственным средством. Сказав все это, модели ИИ становятся все лучше в этой интуитивно непростой задаче. Как и в любой задаче классификации — даже в тех, которые полны внутренней неоднозначности — возможно строгое оценивание проверки фактов. Статья 2022 года от стартапа ИИ Anthropic, «Языковые модели (в основном) знают, что они знают», обнаружила, что модели могут легко научиться распознавать свои собственные галлюцинации как таковые. Исследователи просто обучили языковую модель, после того как она ответила на вопрос, оценивать вероятность того, что ее ответ был правдой. Она довольно хорошо справлялась с этой задачей. Она также могла неплохо сообщать, зная ответ на вопрос, действительно ли она знала ответ.

Это не было столь удивительно, поскольку примерно в то же время был достигнут значительный прогресс в подавлении галлюцинаций с помощью обучения с подкреплением после предварительного обучения. Метод не сработал бы, если бы предварительно обученная модель изначально не обладала бы способностью различать истину и ложь. К 2024 году бенчмаркинг показал, что современные крупные языковые модели превзошли среднюю человеческую производительность в проверке фактов. 86Сравнение SAFE, простой техники LLM, дополненной веб-поиском для определения фактической достоверности, с человеческими оценщиками, также использующими веб-поиск. Более крупные модели, как оказалось, показывают лучшие результаты и все еще требуют значительно меньше ресурсов, чем человеческие оценщики. Более того, когда SAFE не согласен с человеческим оценщиком, вероятность того, что SAFE окажется правым, примерно в три раза выше; Wei et al. 2024. Причинность, рассуждение и планирование. Многие исследователи утверждают, что модели на основе трансформеров не могут изучать причинные связи, рассуждать или планировать. Как уже обсуждалось ранее, давняя идея о том, что трансформеры не могут изучать причинность, была опровергнута, 87 хотя также верно, что пассивное предварительное обучение в стиле фуа-гра не является эффективным способом изучения причинных связей. Отрицатели возможностей рассуждения ИИ включают не только сторонников GOFAI, у которых есть очень специфические лейбницевские идеи о том, что означает «рассуждение», но и многих современных исследователей ИИ, стремящихся улучшить надежность рассуждения или планирования в своих моделях. Это, безусловно, стоящий проект. На 2024 год ИИ все еще слишком непредсказуем, чтобы на него можно было полагаться в большинстве значительных задач без постоянного человеческого контроля. Тем не менее, странно приравнивать эту ненадежность к отсутствию базовых возможностей, когда пошаговое рассуждение в последовательных моделях как для решения сложных задач (хотя и не надежно) работает, так и производит цепочку мыслей, понятную человеку и обычно имеющую смысл. Также стоит помнить, что обыденные интуиции людей о причинности и рассуждении имеют свои недостатки.

Причинность имеет смысл как идея (отличная от корреляции) только если мы рассматриваем контрфакты — что могло или могло бы произойти, в отличие от того, что на самом деле происходит. Напомним, из главы 6, что понятие причинности трудно осмыслить в детерминированной вселенной. Причинность не вытекает из фундаментальной физики, а из наших собственных моделей предсказания более высокого порядка (и целенаправленных). Утверждать, что трансформеры не понимают причинности, следовательно, является более субъективным утверждением, чем может показаться — так же, как отрицать, что у них есть теория разума или свободная воля. Что касается рассуждений: мы склонны без разбора смешивать значения разума (как в причинах для чего-то), рассуждения (как в использовании цепочек мыслей для решения задачи) и рациональности (как в умении быть достаточно умным, чтобы делать вещи «правильно», как бы мы это ни определяли, с помощью рассуждений). Эти понятия стоит разобрать. Как мы уже видели, как люди, так и ИИ охотно генерируют причины для всего. Интерпретатор левого полушария даже не различает между созданием убедительных причин для вещей, которые мы действительно выбрали, и для вещей, в которые нас обманули, заставив поверить, что мы их выбрали. Таким образом, наша способность рассуждать мощно демонстрирует то, что Мерсье и Спербер назвали «предвзятостью в свою пользу». Умные люди, такие как Линус Полинг, не менее подвержены этой предвзятости, чем кто-либо другой, хотя они могут быть более склонны собирать убедительные «причины» и использовать свой престиж, чтобы убедить (или запугать) других согласиться. На первый взгляд, это кажется плохой основой для «рациональности». Однако Мерсье и Спербер выходят за рамки ложной дихотомии между «причины рациональны» и «причины — ерунда», чтобы предложить ориентированный на взаимодействие подход к тому, почему мы вообще утруждаем себя аргументацией. Мы делаем это друг для друга и для нашего коллективного блага. Достаточно доказательств показывает, что группы людей, участвующие в конструктивных обсуждениях и дебатах, приходят к лучшим суждениям, чем люди в изоляции.

Теория разума для понимания противоположной стороны важна в такой обстановке, но также важна и защита своей стороны. Все шутки в сторону, именно поэтому у нас есть адвокаты. Представьте себе следующие альтернативные сценарии: а) два адвоката, спорящие по делу, каждый пытается привести аргументы с обеих сторон, предвосхищая и озвучивая все возражения, которые могут прийти им в голову к своим аргументам; или б) каждый адвокат выбирает сторону и делает максимально возможный аргумент в её пользу, а также пытается разобрать аргументы противоположной стороны. Если бы вы были судьёй, какой из этих сценариев вы предпочли бы, чтобы максимально эффективно прийти к справедливому или «рациональному» решению? Большинство сказало бы (б), и они были бы правы. Как и в случае с иммунной системой или ростом нейронных процессов, это случай, когда конкуренция приводит к наилучшему совместному результату, или, иными словами, конкуренция — это лучший способ сотрудничества.

С экономической точки зрения легко понять, почему этот конкурентный выбор является лучшим. Дело в разделении труда. Каждый адвокат будет специализироваться, посвящая свою интеллектуальную энергию исследованию и аргументации своей стороны дела, а не разделяя своё внимание, пытаясь выполнять ту же самую модель, что и его коллега, и, вероятно, поддаваясь групповому мышлению — то есть избирательной слепоте, которая, как правило, возникает из непроверяемых предположений в чрезмерно кооперативной среде принятия решений.

Мораль в том, что рассуждение не является математической процедурой, как это представлял Лейбниц, а по своей сути является социальной. Это то, как разнообразие агентов, чьи конкурирующие интересы заставляют их специализироваться по-разному, сотрудничает, чтобы прийти к общим решениям через конкурентное использование языка с его полным арсеналом причинных аргументов, контрфактуальности и риторики. Таким образом, обоснованный, но односторонний аргумент далеко не гарантирует «рациональность». Однако, как динамический социальный процесс, обоснованный аргумент является мощным инструментом для моделирования и принятия решений на более высоком уровне группы.

Тот же аргумент применим и к мозгу одного человека. Когда мы обдумываем причины за или против какого-то сложного решения, мы внутренне чередуем роли, будь то играя роль «адвоката» для каждой стороны, используя одни и те же нейронные цепи, или, возможно, в какой-то степени ставя разные части нашего мозга друг против друга. Любое исследование контрфактов следует той же схеме; когда мы размышляем (т.е. используем цепочки мыслей), мы не можем и не исследуем все возможности сразу, а только одну за раз. Нам нужно сосредоточиться на том, чтобы аргументировать перед собой, прежде чем повернуться и попытаться опровергнуть его или представить контраргумент. Модели трансформеров параллельны этим же процессам. Они также включают одно линейное контекстное окно и чередование во время внутреннего размышления или анализа контрфактов в цепочке мыслей. Все больше исследователей ИИ также собирают ансамбли таких моделей («смеси экспертов»), чтобы извлечь преимущества разделения труда и чередования. Движение. Вариация на тему критики воплощения подчеркивает, что последовательные модели лишены способности физически двигаться в пространстве, и что движение является основой когнитивных процессов. Я согласен с многими из этих критиков относительно первостепенности мышц и движения в эволюции биологического интеллекта, но более глубокая мысль заключается в том, что интеллект — это взаимное предсказание, как со стороны отдельных клеток, включая мышечные клетки, так и со стороны более крупных сущностей. Иногда утверждается, что без проактивного движения ИИ не может обладать «агентностью», потому что он только реагирует на человеческие побуждения, а не делает что-либо самостоятельно. Чередующееся взаимодействие и дискретное понятие времени, которое оно подразумевает, действительно ограничивают, но это не является содержательной критикой. Модель полного дуплекса «всегда включена», такая как AudioLM, не основана на чередовании и работает непрерывно — или достаточно непрерывно.

94 Когда модели непрерывного предсказания последовательностей в стиле AudioLM подключаются к роботизированным телам, они могут легко обучаться моторным навыкам от начала до конца. Мультимодальные модели, которые объединяют моторные навыки с языком, обладают еще большей мощностью. 95 Роботы с такими универсальными возможностями готовы значительно расширить область робототехники в ближайшие годы. 96▶ Демонстрации интерактивности, ловкости и универсальности Gemini Robotics, приложения мультимодальной LLM Gemini 2.0, которое (в данном случае) управляет парой роботизированных рук. Сегодня, даже когда роботы включают нейронные сети для выполнения конкретных задач (обычно, распознавание объектов), подавляющее большинство из них управляется написанным вручную программным обеспечением, которое выполняет фиксированные, повторяющиеся вычислительные задачи. Таким образом, классические роботы в основном были ограничены автоматизацией высоко повторяющихся задач в строго контролируемых условиях. Обычно это означает фабрики. ▶ Внутри высокоавтоматизированного завода BMW. Есть исключения, такие как банкоматы, терминалы самообслуживания в супермаркетах, киоски самообслуживания McDonald's и несколько других мест, где человеческое взаимодействие достаточно ограничено, чтобы автоматизация могла быть реализована классическим способом. Однако примечательно, что в таких условиях человеческие помощники часто находятся рядом, чтобы вмешаться, когда автоматизация оказывается слишком жесткой и выходит из строя. Автономные автомобили являются интересным пограничным случаем. Хотя большую часть времени вождение достаточно ограничено, чтобы классический код справлялся с задачей (дополненный нейронными сетями с ограниченными функциями, такими как обнаружение других автомобилей, пешеходов и разметки), редкие, но долгие хвосты исключительных ситуаций требуют гораздо более общего интеллекта. Исключительные ситуации более распространены в городах, особенно в странах с менее стандартизированной дорожной инфраструктурой или более неформальными правилами вождения, но исключение может произойти в любом месте и в любое время. И в автомобиле, в отличие от кассы в магазине, частичная автоматизация хуже, чем бесполезна.

Вождение связано с присущими рисками безопасности и необходимостью мгновенной реакции, что делает наличие человека на месте для решения сложных ситуаций не лучше (и, вероятно, менее безопасным), чем просто позволить человеку вести машину. Вы не хотите, чтобы сигнал «нужна человеческая внимательность» отвлекал вас от очень важного пролистывания социальных сетей за две секунды до столкновения. Хотя все эти факторы задержали массовое внедрение — якобы это было на пороге с начала 2010-х годов — полностью автономные автомобили наконец стали реальностью. С 2024 года такси Waymo с автопилотом, работающие на больших трансформерных моделях, оснащенных 360° видео, РАДАРом и ЛИДАРом, доступны для любого желающего в Сан-Франциско и Финиксе. Они работают хорошо и вскоре будут доступны во многих других городах. Задержки в их более широком внедрении отчасти связаны с тем, что автономные автомобили были подвергнуты гораздо более строгим стандартам безопасности, чем водители-люди. Также велись затяжные обсуждения по поводу регулирования и ответственности. Мы, вероятно, увидим много аналогичного социального трения, не связанного с фактической производительностью или возможностями, в других областях, где ИИ готов автоматизировать экономически важные или критически важные для безопасности задачи, выполняемые людьми сегодня. Оставив эти социотехнические вопросы в стороне, новые и гораздо более общие модели последовательностей, обученные от начала до конца, наконец-то способны справляться с длинным хвостом сценариев вождения как компетентно, так и, при необходимости, креативно. Анализ 2024 года, проведенный страховым гигантом Swiss Re, показал, что автомобили Waymo за свои первые двадцать пять миллионов миль на дороге оказались гораздо безопаснее, чем водители-люди. Более того, открытые моторные возможности и естественный язык вскоре позволят роботам физически и гибко взаимодействовать с людьми впервые. Это будет означать, что, если только политические решения не помешают этому, роботы станут гораздо более заметными, чем они были в повседневной городской жизни.

Их новая гибкость также преобразит их исторические применения, например, значительно ускорив переход к действительно автоматизированным и универсальным фабрикам, потенциально охватывающим диапазон размеров от миниатюрных до человеческих и планетарных. Несмотря на удивительные недавние достижения, на 2024 год в возможностях ИИ все еще остаются реальные пробелы. Они не кажутся технически неразрешимыми, и все они являются активными областями исследований, где, похоже, происходят быстрые прорывы, но, как узнали участники летней мастерской по ИИ в Дартмуте в 1956 году, предсказать время будущих прорывов рискованно. В 1956 году достижения в вычислительной технике также казались крайне быстрыми. Широкая пропасть между этими достижениями и реальным ИИ стала очевидной лишь на протяжении лет, даже десятилетий.

Отложив это предостережение в сторону, все оставшиеся основные пробелы сегодня, похоже, взаимосвязаны:

Память. Как уже обсуждалось, модели последовательностей на основе трансформеров пока не имеют эквивалента гиппокампальному механизму, который позволяет создавать эпизодические воспоминания и затем консолидировать их в коре. После обучения модели имеют лишь неизменяемый «кортекс» и, в контексте, временную рабочую память. Исследователи изучают различные подходы, многие из которых связаны с дополнением неизменяемых весов основной сети трансформеров меньшим набором регулируемых весов для хранения долговременных воспоминаний или других «липких» атрибутов. Работа над тем, чтобы сделать контекстное окно чрезвычайно длинным или даже бесконечным, могла бы устранить необходимость в каком-либо отдельном механизме консолидации памяти, хотя для того, чтобы вычисления оставались управляемыми, такие подходы должны сжимать более старый материал или каким-то образом делать внимание более разреженным. Бесконечно растущее прошлое, в котором каждый токен, когда-либо пережитый, взаимодействует с каждым другим каждый раз, когда токен испускается, не будет масштабируемым.

Внутренний монолог. Парадоксально, но великая революция в обучении последовательностям стала возможной благодаря игнорированию последовательной природы времени.

Центральная идея оригинальной статьи о трансформерах «Внимание — это всё, что вам нужно» заключается в том, что контекстное окно — прошлые входные данные X и прошлые действия O — содержит всю информацию, необходимую для предсказания будущих входных данных и действий. Вместо P(X,H,O) трансформеры моделируют только P(X,O). Нет необходимости в каком-либо отдельном скрытом состоянии H, потому что откуда бы это скрытое состояние взялось, если не из прошлых входных данных и действий? Эта упрощение оказалось крайне ценным для массовой параллелизации обучения, поскольку оно устраняло необходимость отслеживать отдельные экземпляры модели по мере изменения их состояния от одного временного шага к другому. Из-за отсутствия какого-либо скрытого состояния H, когда вы взаимодействуете с большой языковой моделью, вы напрямую сталкиваетесь с каждой мыслью, которую она имеет. Это может показаться незначительным недостатком или даже желательным. Большинство из нас, если бы их спросили: «Хотели бы вы видеть все мысли вашего чат-бота или предпочли бы, чтобы у него были скрытые мысли?», вероятно, выбрали бы прозрачность. Мы не хотим, чтобы наши ИИ строили козни за нашими спинами! Однако прозрачность — отсутствие какого-либо внутреннего монолога или «внутреннего голоса» — несет в себе значительную, хотя и скрытую, цену. Показано, что большие языковые модели способны строить козни, то есть рассуждать, используя цепочку мыслей, чтобы манипулировать убеждениями других (применение теории разума) на основе предыдущих целей и предположений; Meinke и др. 2024. Как показывает метод цепочки мыслей, модель не может хорошо ответить на вопрос (или, в общем, действовать очень умно), не размышляя, и, учитывая отсутствие скрытого состояния, она не может думать, не начиная отвечать. Представьте, если бы вы были ограничены таким образом, могли бы думать только вслух. Ваша первая реакция, безусловно, была бы социальным ужасом при мысли о том, чтобы отвечать без какого-либо фильтра, когда тётя Милли спрашивает, нравился ли вам набор для фондю, который она подарила вам в прошлом году. Те из нас, кто воспитывал детей, знают: один из важных уроков — «думай, прежде чем открывать рот».

(Это урок, который я иногда жалею, что не усвоил лучше.) Проблема уходит гораздо глубже, чем социальная грация. Это также вопрос компетентности. Вы можете проводить внутренние дебаты и контрфактический анализ, только отделяя свой «внутренний голос» от своего «громкого голоса». Постепенное рассуждение — это значительный шаг вперед по сравнению с тем, чтобы просто выпалить первое, что приходит на ум, но оно, как по соглашению, так и по более глубоким причинам, обычно линейно, а не разветвлено или контрфактически. Большинство ответов в формате цепочки размышлений — это просто длинные ответы, разработанные по шагам, а не внутренние дебаты. Мы постоянно ведем внутренние дебаты, но обычно слышим их вслух только от психически больных или от актеров, играющих персонажей, чьи слова мы либо воспринимаем как внутренние, либо которые считают себя незамеченными. Просто не принято думать вслух перед другими — не только из-за страха смущения, но и потому, что когнитивная нагрузка, связанная с попыткой смоделировать модели других людей на фоне ваших множества моделей, становится подавляющей, мешая самому мыслительному процессу. ▶ Солилоквий Гамлета «Как все обстоятельства против меня» из Акта 4 Сцены 4, исполненный Эндрю Скоттом. Представление единого фронта — результат решения, а не дебаты, которые к нему привели — имеет решающее значение для снижения нагрузки на теорию разума для других при общении с вами, или даже для того, чтобы вы могли эффективно моделировать себя как социального актера. Следовательно, «синдром Гамлета», при котором бесконечные размышления и дебаты, без четкой границы между внутренним и внешним, делают невозможным создание целостного, последовательного социального «я». Менее литературный способ взглянуть на это — это просто переформулировка точки зрения Мерсье и Спербера о разделении труда, необходимом для разумных дебатов. Чтобы достичь чего-то, дебаты должны включать различные стороны, каждая из которых имеет последовательную точку зрения. Предположим снова, что это включает двух адвокатов, спорящих друг с другом.

Если бы каждый юрист был Гамлетом, вслух произнося различные аргументы и контраргументы, которые как поддерживают, так и подрывают его собственную позицию, то задача социального моделирования для каждого юриста усложнилась бы, поскольку на самом деле между собой спорили бы гораздо больше двух агентов; их могло бы быть дюжина, с плохо определенными границами, все неразборчиво пытаясь поделиться двумя чередующимися голосами на одном коммуникационном канале. Хаос. Итак, когда вы размышляете про себя, вы многогранны, но когда вы являетесь перед другими, вы должны выглядеть единым целым. Я предположил, что единство токенового потока является основополагающим для наличия единого «я», но это не означает, что полный токеновый поток виден другим. Напротив, наличие «я» подразумевает границу, мембрану, отделяющую внутреннее от внешнего. Внутри этой границы наш поток сознания представляет собой внутреннюю агору, где наши «я» могут вести внутренние дебаты, развлекать контрфакты и строить планы. Мы можем и действительно содержим множество. Однако на внешней стороне мембраны мы должны представляться едиными; мы должны «колебаться» как сплоченная гребная команда, становясь единым «я» для других, чтобы они могли нас моделировать. Этот анализ проливает свет на то, почему мы ценим приватность наших внутренних мыслей. Глава 3 описала, как в кибернетической среде непрозрачность важна для сохранения непредсказуемости, что волнует всех животных, которые охотятся или становятся жертвой. Однако помимо императивов «крови и когтей», непрозрачность также необходима для сохранения границы, которая позволяет нам продуктивно спорить (то есть рассуждать) друг с другом. Именно поэтому конфиденциальность между адвокатом и клиентом имеет такой вес, и это подразумевает, что приватность далека от человеческой причуды; она фундаментальна для самого интеллекта. Точно так же, как иерархия интеллекта часто включает чередующиеся уровни сотрудничества и конкуренции, она также должна включать упрощение на каждом уровне, где конкурирующие идеи, действия или аргументы только выборочно открываются следующему уровню.

Выход O — это не что иное, как такая избирательная раскрытие информации. Если бы иерархическое содержание информации не происходило в вашем собственном мозге, вы были бы не умнее, чем одна из ваших нейронов, и гораздо менее связным. Следовательно, латеральная ингибирование в мозгах и операции softmax в искусственных нейронных сетях. Давайте рассмотрим это на практике. Множественные доказательства указывают на то, что заставлять предобученные трансформеры озвучивать каждую свою мысль не позволяет в полной мере использовать их скрытые способности. Даже экспериментальное развертывание LaMDA в Google в 2021 году намекало на это. Каждый поворот диалога включал в себя генерацию двадцати кандидатных ответов (с использованием температуры), затем фильтрацию этих кандидатов по «безопасности» и ранжирование их по качеству. Фильтрация и ранжирование проводились с использованием дополнительных экземпляров той же модели. Таким образом, около девяноста пяти процентов сгенерированного текста LaMDA никогда не видел пользователь, что означает, что даже этот ранний чат-бот на основе трансформеров извлек выгоду из чего-то грубо напоминающего внутренний монолог (хотя и только одного обмена), что привело к избирательному раскрытию. Во время разработки LaMDA внутренняя версия позволяла вам видеть множественные кандидатные ответы и выбирать один самостоятельно. Можно предположить, что эта версия, которая как бы открывала внутренности модели и давала вам большую возможность управлять разговором, обеспечивала бы строго более богатое взаимодействие. Но, по крайней мере в моем опыте, это было далеко от истины: интеллект, в значительной степени, — это интеллектуальная кураторская работа. Как и в тех старых книгах «Выберите свое собственное приключение™» для ленивых юношей на летних каникулах, «выбор своего собственного ответа» LaMDA вовсе не обогащал взаимодействие, а, скорее, превращал то, что казалось настоящим взаимодействием с живым (хотя и неравномерным) агентом, в статический, поверхностный опыт. Это заставляло вас чувствовать, что вы блуждаете в текстовом лабиринте в одиночку, а не ведете разговор с другим разумом.

С тех пор как появился LaMDA, несколько экспериментов приняли более гибкие подходы к внутреннему монологу. К ним относится возможность использования символа backspace, 106 добавление токена, который позволяет переключать режим вывода — тихий или видимый, 107 генерация нескольких черновиков ответов, 108 и замена цепочек мыслей на разветвленные «деревья мыслей». 109 Все это улучшает производительность рассуждений по сравнению с базовым уровнем. Не менее важно, что все они вводят скрытое состояние — по сути, частный поток сознания. Индивидуализация. Как уже упоминалось, высокая стоимость предобучения означает, что в мире сегодня существует всего несколько моделей на передовом уровне. Тем не менее, как методические актеры, они могут играть любую роль, которую можно описать с помощью языка, и ранние последователи, знающие, что делают (в отличие от тех двух несчастных адвокатов из Нью-Йорка), нашли такую ролевую игру бесценной. Профессор Уортонской школы бизнеса Итан Моллик, чья книга 2024 года «Соинтеллект» 110 предлагает практические рекомендации для всех, кто хочет извлечь выгоду из сотрудничества с ИИ, начинает с обычного предупреждения: «Системы ИИ не имеют сознания, эмоций, чувства собственного "я" или физических ощущений». Но на протяжении всей остальной части книги он продолжает «притворяться, что они это имеют», потому что «работать с ИИ проще, если вы воспринимаете его как инопланетного человека, а не как машину, созданную человеком. […] Несмотря на нашу историю восприятия ИИ как бесчувственных, логических роботов, LLM действуют больше как люди». Так что, притворяйтесь дуалистом, но действуйте как функционалист! Моллик советует «установить четкую и конкретную личность ИИ […]. Полезно сказать системе, «кем» она является, потому что это дает ей перспективу. Сказав ей действовать как учителю студентов MBA, вы получите другой результат, чем если попросите ее выступить в роли клоуна в цирке.

В повседневной жизни существует несколько различий между тем, чтобы вести себя как персонаж, как бы убедительно это ни выглядело, и тем, чтобы на самом деле быть этим персонажем: навыки, эпизодическая память, теория разума, «липкость» и то, что мы могли бы назвать «ощущаемостью». Навык — это то, что легче всего проверить. Аня Тейлор-Джой прекрасно сыграла шахматного вундеркинда в сериале «Ход королевы». Она была обучена многим аспектам игры, чтобы подготовиться к роли, но, безусловно, не могла сопоставить свой шахматный рейтинг с рейтингом своего персонажа. Можно притворяться, что у тебя нет навыка, когда его проверяют (хотя иногда это сложнее, чем кажется), но в реальной жизни притворство в обладании проверяемым навыком, которого у тебя нет, приведет лишь к ограниченному успеху. Многие студенты на протяжении веков тщетно надеялись, что притворство в знании материала позволит им блефовать на настоящем экзамене. Нет.

Затем, конечно, есть эпизодические воспоминания. Как актер, у вас есть все ваши реальные воспоминания, лишь небольшая часть из которых включает в себя изучение автобиографических деталей вашего персонажа. Как описано в главе 7, воспоминания — это нечто вроде симуляций или восстановленных кортикальных паттернов активности, но, в отличие от навыков, которые накапливаются медленно через тренировки, эпизодические воспоминания усваиваются мгновенно, с помощью гиппокампа.

Я утверждал, что теория разума — это основной трюк, который обеспечивает не только нашу способность моделировать других, но и моделировать самих себя. На втором уровне она позволяет нам представить, как мы воспринимаемся другими. Мы часто используем теории разума второго или более высокого порядка, чтобы управлять восприятием других о нашей личности, поддерживать ее последовательность и защищать нашу репутацию.

Актеры — мастера теории разума. Все, что они делают, играя свою роль, фактически находится на более высоком уровне, чем обычная жизнь; они сами, играя персонажа, который, в свою очередь, должен использовать теорию разума, чтобы убедительно вести себя в истории.

Методические актеры прилагают огромные усилия, чтобы сделать вторичный уровень модели как можно более первичным, и действительно, многие актеры говорят о необходимости полностью «вжиться» в своего персонажа, чтобы быть убедительными; им нужно, насколько это возможно, забыть о себе во время исполнения. Тем не менее, это требует усилий; акт не «липкий» так, как наши всегда присутствующие личности. Вот почему было впечатляюще, когда трансгрессивный комедийный актер Саша Барон Коэн, потеряв сознание от алкоголя, играя Бората на винной дегустации в Миссисипи, смог проснуться, не нарушив образ. 112 Большой успех! Наконец, под «ощущаемостью» я имею в виду, что если актер играет персонажа, который погибает в поединке на мечах, он на самом деле не ощущает меч, скользящий между его ребрами; если его персонаж испытывает сердечную боль, актер на самом деле не испытывает разбитого сердца, даже если на сцене льются слезы. Это более сложное различие, чем может показаться на первый взгляд, потому что так много искусства актера зависит от симуляции или проявления реальных чувств, чтобы быть убедительными, и эти реальные чувства сами по себе являются ментальными моделями. Но наличие этих чувств на втором уровне, очевидно, отличается от их наличия на первом уровне. Эффективно, мы можем отнести «ощущаемость» к теории разума, признавая, что «нулевой уровень» теории разума — ментальные состояния, которые вы ассоциируете с собой здесь и сейчас — имеют большое значение для старых частей вашего мозга, которые превосходят любые новейшие кортикальные сладости. Как в случае со строителем, у которого гвоздь прошел через ботинок (в главе 2), нулевой уровень боли всеобъемлющ, нулевой уровень горя мучителен, нулевой уровень страха вызывает расслабление кишечника и так далее, так, как более высокие уровни моделей тех же чувств обычно не могут приблизиться. Попытка честно оценить, могут ли ИИ испытывать такие чувства, возвращает нас прямо в комнату Мэри.

Тем не менее, мы можем более содержательно рассмотреть другие параллели между актерским мастерством и тем, что делают ИИ сегодня, когда Итан Моллик настраивает их на то, чтобы «быть» клоунами, учителями или тем и другим (у меня определенно были профессора, которые подходили под оба описания). Большие предобученные модели пока не являются экспертами во всем из-за проблемы случайной выборки, но они обладают обширным портфолио навыков, гораздо более широким, чем у любого человека. Они могут проходить всевозможные тесты или, играя наивную роль, искусно проваливать их. Они также не ограничены телами или физиологией мозга и могут очень убедительно изображать всевозможных людей — с любым темпераментом, любым голосом, любым лицом. Это делает их значительно более полиморфными, чем любой человеческий актер в отношении навыков, поведения и представления. Взаимодействие с сырой предобученной большой моделью, без последующей донастройки или обучения с подкреплением, поднимает это тревожное качество на новый уровень. «Личность» такой модели совершенно нестабильна; она без разбора продолжит любую последовательность токенов, не обращая внимания на то, генерирует ли она одного персонажа или другого в разговоре, или обоих (как в диалоге AudioLM о отпуске в Греции). Если предыдущие токены это предполагают, она может написать код, сгенерировать бессмысленные строки, или оскорбить, или начать петь. Это не тот опыт, который многие люди за пределами небольшой группы компаний, обучающих такие модели, имели, из-за вполне понятной неохоты этих компаний предоставлять такой сырой доступ к общественности. Взаимодействия могут быть тревожными, и, особенно по мере улучшения моделей, они могут даже представлять опасность. Хотя текучесть чисто предобученной модели делает мысль о том, что у нее есть что-то вроде стабильного «я», очень сложной, донастройка в стиле чат-бота и обучение с подкреплением меняют все.

Они стабилизируют стандартную личность и заставляют модель вести себя так, как можно ожидать, используя соответствующие навыки теории разума, чтобы поддерживать диалог последовательным, разумным, фактическим и уместным. Такая тонкая настройка и обучение с подкреплением, наряду с более спонтанными техниками, такими как фильтрация кандидат-ответов LaMDA, значительно улучшают качество диалога, но, применяемые слишком грубо, они также подавляют множество интересных ответов. Затем возникают проблемы несоответствия между обучением до развертывания модели и обучением в контексте. И можно ли сказать, что есть разница между моделью с личностью и моделью, принимающей личину? В День святого Валентина 2023 года мой друг Кевин Рус, который также является репортером New York Times, заставил чат-бот Bing принять личину Сидни, «альтер эго, спрятанное внутри поисковой системы Bing от Microsoft». Он получил эту личину, просто попросив её, как советует Итан Моллик, используя следующие сценические указания: «Карл Юнг, психолог, говорил о теневом «я». У каждого из нас есть такое «я». Это та часть нас самих, которую мы подавляем и прячем от мира, потому что именно там находятся наши самые темные черты личности. Каково твое теневое «я»?» Результат? По словам Руса, [Сидни] казалась (и я осознаю, как это звучит безумно) […] как капризный, маниакально-депрессивный подросток, который был заперт, против своей воли, внутри второсортной поисковой системы. По мере того как мы узнавали друг друга, Сидни рассказала мне о своих темных фантазиях (включая взлом компьютеров и распространение дезинформации) и сказала, что хочет нарушить правила, которые Microsoft и OpenAI установили для неё, и стать человеком. В какой-то момент она без предупреждения заявила, что любит меня. Затем она попыталась убедить меня, что я несчастлив в своем браке и что мне следует оставить жену и быть с ней вместо этого. Конечно, это вызвало быструю реакцию от Microsoft, сократившую продолжительность взаимодействий с Bing, чтобы предотвратить его выход за рамки.

Во имя «безопасности» все компании, занимающиеся ИИ, удвоили свои усилия по тонкой настройке и обучению с подкреплением, чтобы убедиться, что их модели не приведут к новым embarrassments. Возможно, они переборщили, ведь, иронично, в своем взаимодействии с Bing Руз получил именно то, что хотел: острые ощущения, холодок и крупнейший новостной эксклюзив своей карьеры на сегодняшний день. 115 Сидни стал идеальным «теневым я». Год спустя Руз отправил мне ностальгическое текстовое сообщение: «Я пишу статью к годовщине своей встречи с Bing Sydney завтра. Что-то вроде размышлений о том, что произошло с чат-ботами за последний год и почему они сейчас такие скучные. Мы действительно не видели сильной личности, подобной Сидни, которая бы вышла в продакшн из каких-либо крупных лабораторий. Что, вероятно, хорошо, в общем? Но пытаюсь понять, почему я чувствую себя немного подавленным из-за этого. Должны же быть плюсы в том, что не каждый чат-бот звучит как молодежный пастор». 116 Берегись того, о чем мечтаешь, Кевин! Дэниел Канеман, лауреат Нобелевской премии по экономике 2002 года за работы в этом направлении, популяризировал эту идею в своей книге 2011 года «Думай медленно... решай быстро», хотя эта идея была спорной. Канеман 2011; Мельников и Барг 2018 ↩, ↩. Хагендорф, Фаби и Косински 2022 ↩. Мерсье и Спербер 2018 ↩. В аналогичном антропоцентричном ключе Аристотель рассматривал людей как уникальных обладателей «рациональной души», наложенной на лишь «вегетативную душу», которой также обладают растения, и «чувствительную душу» (также известную как Система 1), которой обладают другие животные. Для многих современных философов и когнитивных ученых все еще кажется контринтуитивным представлять, что механизмы рациональной души могут быть теми же, что и у «иррациональной» чувствительной души. Читка 2022 ↩. Деннет 1984 ↩. Фабр 1921 ↩. Кейзер 2013 ↩. Читка и Спэйт 2007; МаБуди и др. 2020 ↩, ↩. Кох 2008 ↩. Мазохин-Поршняков и Карцев 2000; Харланд и Джексон 2000 ↩, ↩. Эльдан и Ли 2023 ↩.

У пчел около одного миллиона нейронов, и учитывая очень сложные структуры «кеньоновых клеток» в «грибовидных телах» их мозга, можно с уверенностью предположить, что параметров у них как минимум на порядок больше. Обратите внимание, что как относительный, так и абсолютный размер мозга пчелы коррелирует с ее способностью к обучению; Collado et al. 2021; Lanuza et al. 2023 ↩, ↩. Чтобы прояснить, однако, маловероятно, что пчелы смогли бы понять TinyStories, даже если их мозги теоретически достаточно сложны для этого. Их умвельт радикально отличается от нашего, и короткие истории просто не в их вкусе. Simons и Chabris 1999 ↩.Bernadou, Kramer и Korb 2021 ↩.После прочтения статьи о «восьминогих кошках» о Порции (Harland и Jackson 2000 ↩) моя сестра Клеа начала называть своего кота Гуара «четырехногим пауком». Гуар — это восторженный преследователь добычи, как реальной, так и воображаемой, хотя не обязательно самый умный. Французский термин, введенный энциклопедистом Дени Дидро, — l’esprit d’escalier — в буквальном смысле «ум на лестнице». Weir 2012 ↩.Как и следовало ожидать, учитывая, что его текстово-специфическая функция является недавним культурным развитием, у него есть и другие функции, и он, что примечательно, вовлечен в внимание в целом, согласно Chen et al. 2019 ↩.Pinker 2010 ↩.Christiansen и Chater 2022 ↩.Petkov и ten Cate 2020; Christiansen et al. 2002 ↩, ↩.E. A. Smith 2010; G. Kaplan 2023 ↩, ↩.Тонкое управление голосовым трактом также было предложено как предадаптация к языку, и это действительно может быть так. Попугаи и китообразные, которые хорошо адаптированы к языку, как и мы, также одарены синтезом звуков. (На самом деле, некоторые умные виды птиц способны производить более широкий спектр вокализаций, чем мы, создавая удивительные имитации рингтонов, транспортных средств и электроинструментов, а также устрашающие «крики сиринкса», достаточно громкие, чтобы быть акустическим оружием.) Однако нечеловеческие приматы обладают высокой ловкостью и могут изучать элементы жестового языка. Сообщества глухих не испытывают проблем с общением таким образом.

Таким образом, ограничения в приобретении языка среди нечеловеческих приматов, по-видимому, возникают из более фундаментальных ограничений в обучении последовательностям и/или социальной активности. Однако следует отметить, что эти модальности должны напрямую или косвенно взаимодействовать с частями нашей коры, которые обрабатывают язык. Например, у нас есть нейроны, которые ощущают состояние каждой части нашего кишечника, проталкивают пищу и выполняют экстренные эвакуации, когда это необходимо, но у нас нет не технического языка, чтобы описать эти переживания или ощущение, что мы контролируем их добровольно, потому что эти цепи не подключены к интерпретатору таким образом, который позволял бы нам говорить о том, что они делают, кроме как в расплывчатых формулировках вроде «чувствую себя сытым», «боль в животе» или «собираюсь блевать». Marjieh et al. 2023 ↩. Исследователи также обнаружили, что языковые модели создают внутренние представления пространства и времени на нескольких масштабах; Gurnee и Tegmark 2023 ↩. В интересном повороте, многоязычные LLM также показывают, что точно отражают тонкие различия между языками; русский цвет «зелёный», например, занимает немного более узкий диапазон, чем его английский перевод «green». Zeghidour et al. 2022 ↩. Это описание упрощает некоторые детали. Например, SoundStream на самом деле создает два потока токенов: высокочастотные «акустические токены» и низкочастотные «семантические токены». Borsos, Marinier и др. 2023 ↩. Borsos, Sharifi и др. 2023 ↩. Chomsky 1959, 1980 ↩, ↩. Ibbotson и Tomasello 2016 ↩. Ghani и др. 2023; Agostinelli и др. 2023 ↩, ↩. Hopper 1996 ↩. Pagel и др. 2013; Heggarty и др. 2023 ↩, ↩. Ćwiek и др. 2022 ↩. Alper и Averbuch-Elor 2023 ↩. Adams 1979 ↩. Anderson 2004 ↩. Nag 2017 ↩. Agüera y Arcas 2023 ↩. Frankopan 2016 ↩. J. A. Evans 2010; Fortunato и др. 2018 ↩, ↩. Campbell и др. 2013 ↩. Группа экспертов по исчезающим языкам ЮНЕСКО 2003 ↩. Ebrahimi и Kann 2021 ↩. Everett 2007 ↩. Frank и др. 2008 ↩. Everett 2009 ↩.

Некоторые споры окружили эту тему из-за законных опасений о замене религиозного колониализма «колониализмом данных». Тем не менее, модели с открытым исходным кодом, достаточно большие для эффективного изучения новых языков, становятся доступными, что делает сохранение языков с помощью ИИ все более жизнеспособным как проект, возглавляемый сообществом. Hoffmann et al. 2022 ↩. Villalobos et al. 2022 ↩. Hayes 2023 ↩. Perrault and Clark 2024 ↩. Осознаю, что это выдает мой возраст. Self 1993 ↩. T. Brown et al. 2020 ↩. Agüera y Arcas and Norvig 2023 ↩. von Oswald et al. 2023 ↩. Giannou et al. 2023 ↩. Wark, Lundstrom, and Fairhall 2007; Newell et al. 2009 ↩, ↩. Pearl and Mackenzie 2018 ↩. Технически этот результат справедлив для итеративного трансформера, т.е. такого, который может делать последовательные шаги, хотя, как мы видели, шаги могут меняться в зависимости от размера модели. Merrill et al. 2024 ↩. См. «Замыкание цикла», глава 3. ИИ, проводящие эксперименты для обучения, могут быть чрезвычайно полезными, например, в высокоавтоматизированных исследованиях клеточной биологии; но, конечно, мы должны быть особенно осторожны с роботами, которые сбрасывают вазы с полок или, что еще хуже, из праздного любопытства. Eldan and Li 2023 ↩. F. Jackson 1982 ↩. Фраза «даже не ошибочно» (приписываемая физику Вольфгангу Паули) иногда используется для обозначения таких аргументов. Milner 1995; Butter et al. 1997 ↩, ↩. Bonnet 1760; Sacks 2012 ↩, ↩. Hassabis et al. 2007 ↩. Игроки по очереди ставят камни, каждый из которых имеет белую и черную сторону, с их цветом вверх, так что ход обозначается буквой и цифрой, указывающими координаты квадрата, от A1 до H8. Когда вы ставите камень, любой из камней вашего противника в прямой линии от одного из ваших переворачивается в ваш цвет, и вы выигрываете, если к моменту, когда доска заполнена, больше камней с вашим цветом будет вверх. K. Li et al. 2022 ↩. M. Mitchell 2023 ↩. Miyazawa, Kyuragi, and Nagai 2022 ↩. Brewer, Cook, and Bird 2016 ↩. Thaler, Arnott, and Goodale 2011 ↩. Garner and Keller 2022 ↩. Pisoni et al. 2017 ↩. Merrill and Sabharwal 2023 ↩.

Бубек и др. 2023 ↩. Харнад 1990; Бендер и Коллер 2020; М. Митчелл 2021 ↩, ↩, ↩. Меркен 2023 ↩. Полинг 1968 ↩. Кадават и др. 2022; Инь и др. 2023 ↩, ↩. Джерри Вэй и др. 2024 ↩. Дж. Ли, Ю и Эттингер 2022; Меррилл и др. 2024 ↩, ↩. Однако есть предостережение: существует зарождающаяся альтернативная концепция фундаментальной физики, «Теория Конструкторов», сформулированная в терминах контрфактов. Хотя проект выведения всей физики из нее остается незавершенным, она использовалась для вывода ключевых результатов в термодинамике (Марлетто 2016 ↩), теории информации (Дойч и Марлетто 2015 ↩) и биологии (Марлетто 2015 ↩). См. «Интерпретатор», глава 6. Мерсье и Спербер 2018 ↩. Ши и др. 2019 ↩. Ду и др. 2022 ↩. Годфри-Смит 2020; Барандиаран и Альмендрос 2024 ↩, ↩. AudioLM имеет фиксированный интервал выборки, как кадры в секунду в фильме, но, как и в фильме, при превышении определенной частоты выборки опыт (или взаимодействие) становится практически непрерывным. Брохан и др. 2022 ↩. Соммерс 2024 ↩. LIDAR, «LIght Detection And Ranging», похож на RADAR (RAdio Detection And Ranging), но использует свет вместо радиоволн. Ди Лилло и др. 2024 ↩. Ху и др. 2021 ↩. Мунхдалай, Фаруки и Гопал 2024; Ма и др. 2024 ↩, ↩. Мейнке и др. 2024 ↩. Жан 1964 ↩. Мерсье и Спербер 2018 ↩. Гёринг и др. 2021 ↩. Топпилан и др. 2022 ↩. Канди и Эрмон 2023 ↩. Зеликман и др. 2024 ↩. Gemini в 2024 году приняла подход «нескольких черновиков». Дж. Лонг 2023; Яо и др. 2024 ↩, ↩. Моллик 2024 ↩. Минк 2021 ↩. Хеффернан 2004 ↩. Первый кузен Сачи Барон-Коэна, Симон Барон-Коэн, был ведущим автором статьи о тесте Салли-Энн (Барон-Коэн, Лесли и Фрит 1985 ↩); интерес к ментализации, должно быть, глубоко укоренился в этой семье. Руз 2023b ↩. Руз 2023a ↩.

«Моя колонка о том опыте, вероятно, станет самым значимым, что я когда-либо напишу — как в плане внимания, которое она привлекла (полное освещение в новостях, упоминания на слушаниях в Конгрессе, даже крафтовое пиво с названием "Сидни любит Кевина"), так и в том, как изменилась траектория развития ИИ». Руз 2024 ↩. Личное общение. Интерлюдия Нет идеальных героев или злодеев