Почему искусственный интеллект не сможет создавать искусство?
В рамках долгоиграющего проекта, направленного против стресса и тревоги, «Артгид» публикует перевод терапевтической статьи американского писателя-фантаста Теда Чана об искусственном интеллекте и о том, когда же наконец машина сможет заменить человека (спойлер: вероятно, никогда).
Виктор Вон. Фовистские мечты Gemini 03. 2020. Искусственный интеллект Gemini, рисовая бумага, китайская тушь, акрил, золотая краска. Источник: 3812gallery.com
В 1953 году Роальд Даль опубликовал рассказ «Чудесный грамматизатор» — об инженере-электрике, который втайне мечтает стать писателем. По сюжету однажды, закончив создание самой быстрой в мире вычислительной машины, инженер понимает, что английская грамматика подчиняется правилам, почти математическим по своей строгости. Тогда он конструирует программу для написания художественных произведений, способную сочинить рассказ из пяти тысяч слов за тридцать секунд; роман займет у нее пятнадцать минут и потребует от пользователя манипуляций с ручками и педалями, чтобы регулировать уровень юмора и пафоса, как если бы он управлял автомобилем или играл на органе. Получившиеся в результате произведения оказываются настолько популярны, что уже через год половина художественной литературы, издаваемой на английском языке, является порождением изобретения инженера.
Есть ли в искусстве что-то такое, из-за чего мы думаем, что его нельзя создать нажатием кнопки, как в рассказе Даля? Сейчас художественная литература, генерируемая большими языковыми моделями вроде ChatGPT, ужасна, но можно предположить, что в будущем такие программы станут лучше. Насколько хорошими они будут? Смогут ли превзойти людей в писательском деле, создании картин или фильмов — так же, как калькуляторы превзошли нас в сложении и вычитании?
Искусство, как известно, трудно поддается определению; также сложно обозначить разницу между хорошим искусством и плохим. Но позвольте мне сделать обобщение: искусство — результат множества выборов. Легче всего объяснить эту мысль, если взять в качестве примера художественную литературу. Когда вы пишете художественное произведение, вы — сознательно или бессознательно — принимаете решения в отношении почти каждого слова. Сильно упрощая, можно представить, что короткий рассказ в десять тысяч слов потребует порядка десяти тысяч выборов между разными вариантами. Сформулировав запрос для нейросети, вы не получите много вариантов: запрос из ста слов даст порядка ста возможных значений.
Когда искусственный интеллект (ИИ) генерирует историю из десяти тысяч слов на основе вашего запроса, он должен за вас принять решение во всех тех ситуациях, в которых его не приняли вы. Есть разные способы сделать это. Один из них — взять среднее значение решений, принятых другими авторами в текстах, найденных в сети; это среднее значение представляет собой наименее интересный вариант, и потому текст, сгенерированный ИИ, часто оказывается очень скучным. Другой путь — поручить программе подражать стилю, то есть, по сути, подражать выбору, сделанному конкретным писателем, что приведет к появлению довольно вторичного произведения. Ни в том, ни в другом случае интересного искусства не получится.
Я думаю, тот же основополагающий принцип применим и к изобразительному искусству, хотя количество выборов, которые совершает художник, посчитать труднее. Картины несут на себе отпечаток огромного числа решений. Для сравнения: человек, использующий программу преобразования текста в изображение типа DALL-E, вводит запрос «Рыцарь в доспехах сражается с огнедышащим драконом» и отдает на откуп программе все остальное (новейшая версия DALL-E принимает запросы длиной до четырех тысяч символов — то есть сотен слов, однако их все еще недостаточно для описания каждой детали сцены). Большую часть образов в полученном изображении программе придется заимствовать из похожих картин, найденных в интернете. Результат может выйти даже изящным, но у пользователя, формулирующего запрос, вряд ли получится претендовать на авторство.
Существует мнение, что генераторы изображений повлияют на визуальную культуру так же, как когда-то повлияло появление фотографии. Хотя на первый взгляд это может показаться правдоподобным, идея о том, что фотография похожа на генеративный ИИ (тип ИИ, который может создавать уникальный контент — тексты, изображения, аудио и видео. — Артгид), требует более пристального рассмотрения. Полагаю, в момент своего возникновения фотография не воспринималась как художественное средство — было неочевидно, что этот процесс тоже требует принятия большого количества решений: вы просто настраиваете камеру и спускаете затвор. Но со временем стало понятно: с помощью камеры можно делать огромное количество вещей и мастерство фотографа заключается как раз в совокупности сделанных им выборов. Четко сформулировать, в чем именно состоят эти выборы, не всегда легко, но, сравнивая работы любителя и профессионала, вы увидите разницу. Тогда возникает вопрос: возможно ли такое же поле выбора при использовании генераторов изображений? Я думаю, что ответ — нет. Художник, работает ли он в цифровом формате или с красками, в процессе создания картины неявно принимает гораздо больше решений, чем умещается в текстовом запросе из нескольких сотен слов.
Мы можем представить себе нейросеть, которая позволяла бы на протяжении многих сеансов вводить в поле запроса десятки тысяч слов и таким образом обеспечила бы нам чрезвычайно детальный контроль над создаваемым изображением — это было бы что-то вроде Photoshop с чисто текстовым интерфейсом. На мой взгляд, использующего такую программу человека еще можно назвать художником. Например, кинорежиссер Беннетт Миллер создал с помощью DALL-E 2 несколько поразительных изображений, которые были выставлены в галерее Гагосяна. Он составил для программы подробные текстовые инструкции, а затем поручил ей снова и снова пересматривать и обрабатывать производимые изображения. Миллер сгенерировал более ста тысяч вариантов, чтобы в итоге получить двадцать показанных на выставке. В то же время он отметил, что на более поздних версиях DALL-E ему не удалось добиться сопоставимых результатов. Я связываю это с тем, что Миллер использовал DALL-E для задач, для которых программа не была предназначена. Все равно что он взломал бы Microsoft Paint и заставил его работать как Photoshop — с выходом новой версия Paint его ухищрения перестали бы действовать. По всей видимости, компания OpenAI создает продукт не для пользователей типа Миллера, потому что программа, которая для генерирования изображения потребует от человека месяцев работы, попросту непривлекательна для широкой аудитории. Компания хочет предложить продукт, который работал бы без особых усилий со стороны пользователя.
Труднее представить программу, которая также в течение серии сеансов помогала бы написать хороший роман. Эта гипотетическая программа потребовала бы от вас введения сотни тысяч слов инструкций, чтобы сгенерировать совершенно другую сотню тысяч слов, составляющих задуманный вами роман. Мне не совсем ясно, как должна выглядеть такая программа. Если бы она существовала, то ее пользователь, возможно, и заслуживал бы звания автора. Но, опять же, я не думаю, что компании вроде OpenAI хотят создавать версии ChatGPT, требующие от пользователей столько же усилий, сколько и написание романа с нуля. Вся фишка генеративного ИИ заключается как раз в том, что он производит гораздо больше того, чем вы изначально в него вкладывали — и именно это мешает таким программам быть эффективным инструментом для художника.
Компании, продвигающие программы генеративного ИИ, утверждают, что с их помощью можно высвободить творческий потенциал. По сути, они говорят, что искусство может быть одним только актом вдохновения и не требовать никаких усилий — но эти вещи нельзя так просто разделить. Я не говорю, что создание искусства непременно должно быть утомительным занятием. Я говорю о том, что искусство требует принятия решений на всех уровнях: бесчисленные маленькие выборы, сделанные на этапе реализации, так же важны для конечного результата, как и несколько крупных, сделанных во время разработки концепции. При этом, говоря о решениях, принимаемых при создании произведения искусства, ошибочно приравнивать «крупные» к «важным». Взаимосвязь между крупным и малым — вот где кроется мастерство.
Если человек верит в то, что в творчестве вдохновение преобладает над всем остальным, значит, он плохо понимает, с чем имеет дело. Я настаиваю на этом даже в случае, когда речь идет о создании развлекательного контента, а не «высокого» искусства. Люди часто недооценивают необходимые здесь усилия. Вероятно, роман-триллер не соответствует идеалу Кафки, по которому «книга должна быть топором, способным разрубить замерзшее море внутри нас», но все же он может быть сделан так же тонко, как швейцарские часы. Эффектный триллер — это нечто большее, чем его посыл или сюжет. Я сомневаюсь, что, заменив каждое предложение в тексте на семантически эквивалентное, вы получите такой же захватывающий роман. Это означает, что эффектность триллера определяют именно предложения — и те небольшие выборы, которые стоят за ними.
Многие писатели сталкивались с ситуацией, когда какой-нибудь человек, убежденный, что у него есть отличная идея для романа, предлагал поделиться ею в обмен на половину доходов от продаж. Очевидно, такой человек считает формулирование предложений скорее неприятными хлопотами, чем основой написания произведения. Программы генеративного ИИ рассчитаны на тех, кто думает, что можно выразить себя в каком-либо медиуме, фактически с ним не работая. Но создатели романов, картин и фильмов обращаются к этим жанрам, поскольку видят в каждом из них уникальный выразительный потенциал. Именно стремление раскрыть его в полной мере и делает ценными их произведения — будь то развлекательный контент или «высокое» искусство.
Конечно, для написания большинства текстов вроде статей, отчетов и электронных писем принятие тысячи решений не является необходимым. Есть ли какой-то вред от автоматизации в таких случаях? Позвольте мне предложить еще одно обобщение: любой текст, заслуживающий внимания читателя, — это всегда результат усилий человека, который его написал. Такие усилия не гарантируют, что конечный продукт будет достоин прочтения, но без них создать стоящую работу невозможно. Внимание, которое вы уделяете при чтении личного электронного письма, отличается от внимания, которое вы уделяете при чтении бизнес-отчета, но в обоих случаях оно оправдано, только если автор вложил в него хоть какую-то мысль.
Недавно во время Олимпийских игр в Париже Google показала рекламу своего чат-бота Gemini — конкурента GPT-4 компании OpenAI. В рекламе отец просит Gemini написать фанатское письмо, которое его дочь отправит вдохновляющей ее спортсменке. Google снял ролик с показа после широкой негативной реакции зрителей, а один профессор медиа назвал это видео одним из самых тревожных, которые ему когда-либо встречались. Примечательно, что публика отреагировала именно так. Никто не ожидает от детского письма экстраординарности: если бы девочка сочинила его сама, оно, вероятно, ничем не отличалось бы от множества других. Но значимость письма ребенка-болельщика — как для него самого, так и для спортсмена, который письмо получит, — заключается не в красноречии, а в том, что оно пишется от всего сердца.
Многие из нас отправляли купленные в магазине поздравительные открытки с текстом, зная, что адресату будет очевидно, что мы не сами сочинили эти слова. Мы не копируем слова с открытки Hallmark своим почерком, потому что это было бы нечестно. Программист Саймон Уиллисон назвал обучение больших языковых моделей «отмыванием денег за данные, защищенные авторским правом», и я считаю, этот подход полезен для осмысления привлекательности программ генеративного ИИ: они позволяют заниматься чем-то вроде плагиата, не испытывая чувства вины, — ведь, используя их, даже мы сами не осознаем, что попросту копируем.
Некоторые утверждают, что большие языковые модели не «отмывают» тексты, на которых их обучают, а скорее учатся у них, так же как писатели учатся у прочитанных ими книг. Но большая языковая модель — не писатель и даже не пользователь языка. Язык по определению является системой общения, а для него требуется намерение. Функция автозаполнения вашего телефона может предлагать хорошие или плохие варианты, но ни в одном из случаев она не пытается сказать что-то вам или человеку, с которым вы переписываетесь. Тот факт, что ChatGPT может генерировать связные предложения, заставляет нас думать, будто он понимает язык лучше, чем функция автозаполнения в телефоне, однако намерения общаться у ChatGPT нисколько не больше.
Легко заставить ChatGPT выдать ряд слов вроде «я рад вас видеть». И хотя мы многого не понимаем в том, как работают большие языковые модели, в одном мы можем быть уверены: ChatGPT не рад нас видеть. Собака может сообщить, что рада вас видеть, и то же самое может сделать еще не умеющий говорить ребенок, несмотря на то что оба неспособны использовать слова. ChatGPT ничего не чувствует и ничего не желает, и именно это отсутствие намерения является причиной, по которой он на самом деле не пользуется языком. Лингвистическим высказыванием фразу «я рад тебя видеть» делает не хорошо сформированная последовательность лексем, а намерение сообщить что-то.
Язык дается нам очень просто, поэтому мы с легкостью забываем, что вообще-то он воплощает в себе переживание субъективных чувств и желание их передать. Когда большая языковая модель выдает связные предложения, возникает искушение спроецировать на нее свой, человеческий опыт и способность к переживанию. Но сделать это — значит стать жертвой мимикрии. Это то же самое, что и большие темные пятна на крыльях бабочек, которые позволяют им выдать себя за хищников с большими глазами и обмануть птиц. В определенном контексте этих пятен будет достаточно: такую бабочку птицы съедят с меньшей вероятностью, а ей, в свою очередь, все равно, почему ее не едят, пока она остается жива. Но разница между бабочкой и хищником, представляющим для птиц реальную угрозу, безусловно велика.
Человек, использующий генеративный ИИ как вспомогательный инструмент для письма, может утверждать, что черпает вдохновение из текстов, на которых обучалась программа. Но я бы снова сказал: все же это отличается от случая, когда один писатель вдохновляется произведением другого. Представьте себе студентку колледжа, которая сдает работу — пятистраничную цитату из книги — и заявляет, что цитата совершенно точно передает ее мысль, причем лучше, чем она сама смогла бы сказать. Даже если студентка абсолютно честна с преподавателем в отношении своего поступка, нельзя утверждать, что она черпает вдохновение из процитированной книги. Да, большая языковая модель может перефразировать цитату вплоть до неразличимости источника, но это не меняет фундаментальной природы происходящего.
Как заметила лингвист Эмили М. Бендер, учителя просят студентов писать эссе не потому, что мир нуждается в еще большем количестве студенческих эссе. Цель здесь в укреплении у учащихся навыков критического мышления. Точно так же, как поднятие тяжестей полезно вне зависимости от того, каким видом спорта занимается человек, написание эссе развивает навыки, необходимые для любой работы, которую в конечном итоге получит студент. Использовать ChatGPT для выполнения учебных заданий — все равно что привезти вилочный погрузчик в тренажерный зал. Так вы никогда не улучшите свои когнитивные способности.
Не каждый текст должен быть творческим, искренним или даже хорошим — иногда ему просто нужно быть. Ведь тексты могут преследовать разные цели: например, привлечение внимания с целью рекламы или выполнение бюрократических требований. Когда людям приходится создавать такие тексты, мы вряд ли можем винить их за использование любых доступных инструментов для ускорения процесса. Но станет ли мир лучше, если в нем станет больше документов, на подготовку которых было затрачено минимум усилий? Нельзя утверждать, что с отказом от применения больших языковых моделей исчезнет и потребность в текстах, не требующих мастерства. Однако я считаю неизбежным следующее: чем чаще мы будем использовать большие языковые модели для удовлетворения этого спроса, тем больше этот спрос в итоге станет. Мы вступаем в эпоху, когда один человек может с помощью программы превратить список тезисов в документ и отправить его другому только для того, чтобы тот, также используя программу, перевел этот документ обратно в список тезисов. Можно ли всерьез назвать это прогрессом?
Вполне возможно, однажды у нас появятся компьютерные программы, способные делать все, что может делать человек, но, вопреки заявлениям компаний, продвигающих ИИ, в ближайшие несколько лет мы этого не увидим. Даже в областях, не имеющих абсолютно ничего общего с творчеством, нынешние программы искусственного интеллекта имеют большие ограничения, и это позволяет нам усомниться в том, что здесь в принципе применимо слово «интеллект».
Ученый-компьютерщик Франсуа Шоле предложил следующее различие: навыки — это то, насколько хорошо вы справляетесь с задачей, а интеллект — то, насколько эффективно приобретаете навыки. Я думаю, это довольно хорошо отражает наши интуитивные представления о людях. Большинство из нас при достаточной практике могут освоить навык, но чем быстрее человек овладевает навыком, тем более умным мы его считаем. В этом определении интересно то, что, в отличие от IQ-тестов, оно применимо и к нечеловеческим существам: когда собака быстро учится трюку, мы считаем это признаком ума.
В 2019 году исследователи провели эксперимент, в ходе которого обучили крыс вождению. Крыс поместили в маленькие пластиковые контейнеры с тремя перекладинами из медной проволоки, и когда мыши клали лапы на одну из них, контейнер шел вперед, поворачивал налево или направо. Крысы видели тарелку с едой на другом конце комнаты и пытались проехать к ней на своих «машинках». Исследователи обучали крыс по пять минут, и после двадцати четырех тренировок те в совершенстве овладели навыками вождения. Двадцати четырех попыток было достаточно для освоения задачи, с которой, вероятно, никогда раньше не сталкивалась ни одна крыса в истории эволюции вида. По-моему, это хорошая демонстрация признаков ума.
Теперь рассмотрим существующие программы ИИ, получившие широкое признание за свою эффективность. AlphaZero, разработанная Google DeepMind, играет в шахматы лучше человека, но за время обучения она сыграла сорок четыре миллиона партий, что намного больше, чем человек может сыграть за всю жизнь. Чтобы освоить новую игру, ей придется пройти такое же огромное количество тренировок. По определению Шолле, программы вроде AlphaZero обладают высокой квалификацией, но не особенно умны, так как неэффективны в приобретении навыков. Сегодня невозможно написать компьютерную программу, способную освоить даже простейшую задачу всего за двадцать четыре попытки, если задача не была поставлена программисту заранее.
Беспилотные автомобили, проехавшие миллионы миль во время обучения, все равно могут врезаться в перевернутый грузовик с прицепом, потому что такие вещи обычно не встречаются во время их тренировки. В свою очередь человек уже на первом уроке вождения будет точно знать, что нужно остановиться. Для нас способность справляться с незнакомыми ситуациями является большим доказательством разума, нежели умение решать алгебраические уравнения.
Компьютеры не заменят людей, если не приобретут такого рода способность, а до этого еще очень далеко. Пока же мы просто даем им работу, которую можно выполнить путем автозаполнения.
Несмотря на многолетний ажиотаж, способность генеративного ИИ резко повысить экономическую производительность остается лишь теорией. (Ранее в этом году компания Goldman Sachs опубликовала отчет под названием «Поколение ИИ: слишком много трат, слишком мало пользы?».) Пока ИИ успешнее всего справился с одной задачей — он снизил наши ожидания и в отношении того, что мы читаем сами, и в отношении себя, когда пишем что-то для других. Это фундаментально дегуманизирующая технология, поскольку она рассматривает нас как нечто меньшее, чем мы являемся на самом деле — а именно создателями и постигателями смыслов. Она уменьшает количество намерений в мире. Некоторые люди защищают большие языковые модели, утверждая, что в основном наши устные или письменные высказывания не особенно-то и оригинальны. Это правда, но не имеет значения. Когда кто-то говорит вам «извините», не имеет значения, извинялись ли люди в прошлом; не имеет значения, что «извините» — статистически ничем не примечательная фраза. Если человек искренен, его извинения будут ценны и значимы, даже если эти слова уже произносились ранее. И точно так же когда вы говорите кому-то, что рады их видеть, вы говорите что-то значимое, даже если в этом нет новизны.
Нечто подобное справедливо и для искусства. Создавая роман, картину или фильм, вы общаетесь с вашей аудиторией. Для того чтобы иметь ценность, ваше произведение не обязано быть совершенно непохожим на все предыдущие в истории человечества. Тот факт, что это говорите вы, тот факт, что это проистекает из вашего уникального жизненного опыта и приходит в определенный момент жизни того, кто видит вашу работу, — вот что делает ее новой. Мы все являемся продуктами того, что было до нас, но именно проживая свою жизнь во взаимодействии с другими, мы привносим в мир смысл. Это то, чего алгоритм автозаполнения никогда не сможет сделать — и не позволяйте никому убеждать вас в обратном.