Выпуск: №127 2024

Рубрика: Без рубрики

О смотрении

О смотрении

Чихуахуа и маффины, популярный интернет-мем.

Егор (Георгий) Крафт Родился в 1986 году в Санкт-Петербурге. Междисциплинарный художник, работает в области медиа, компьютерных наук, спекулятивного дизайна, кино и философии. Живет в Вене и Токио.

Чихуахуа, узоры в древесине и кексы

Популярный среди техно-гиков мем о чихуахуа и кексах маффинах наглядно демонстрирует, как в поле компьютерного зрения между двумя разнородными сущностями может возникать тревожащее своей абсурдностью сходство. Это классический пример того, как модель нейросети, обученная распознавать некий предмет, с большой вероятностью может увидеть его там, где его нет. Мы наблюдали, как предшествующие итерации моделей компьютерного зрения являли изумительные образы: от тарелки спагетти с фрикадельками, галлюцинирующей адским «пейзажем» собачьих морд в интерпретации Deep Dream, до поражающих воображение современных миниметражных галлюцинаций в формате MPEG-4.

Но не дает ли наше, человеческое, зрение похожие сбои? Например, когда в узоре волокон на срезе фанерного листа нам начинают мерещиться собачьи «лица», увидев которые, мы уже не можем развидеть.

Однако, при всей кажущейся схожести, природа этих сбоев — в человеческом видении и синтетическом — различна. В первом случае ИИ ошибся из-за своей ограниченной способности различать два разных, но визуально похожих, предмета. Иначе говоря, если бы модель была лучше обучена видеть собак чихуахуа и кексы, или, скажем, основные технические параметры — вес и смещение связей между архитектурой искусственных нейронов нейросети — были установлены иначе, то модель не допустила бы ошибки, приняв изображения маффинов за мордочки собак (или наоборот).

Во втором же случае мы увидели собачью морду в куске фанеры, вероятно, потому, что прежде видели огромное множество собачьих морд и всевозможных их стилистических вариаций, и наш взгляд, заметив нечто похожее в случайном рисунке волокон на срезе древесины, считал узор как еще одну модификацию знакомого образа.

Другими словами, с большой вероятностью, ИИ ошибся потому, что в предшествующем процессе тренировки, изучения датасета моделью, последняя не видела достаточного количества примеров и не развила достаточной насмотренности для различения. Мы же, напротив, видим нечто отличное от представляющегося нам, инстинктивно ассоциируя визуальные сходства, скорее потому, что имеем развитую способность быстро распознавать образы как результат перенасыщенного опыта смотрения.

Очевидно, что в обоих случаях количество опыта, то есть контактов с предметом смотрения, определяет качество его распознавания и визуальной осведомленности в его отношении. Например, если мы часто видим китайские логографические символы ханьцзы (象形), то c большой долей вероятности со временем выработаем к ним визуальную восприимчивость. И, даже не понимая значение иероглифа, приобретем навык распознавать его среди прочих символов, каким шрифтом он бы ни был воспроизведен.

Схожим образом обучаются нейросети сверточного типа (convolutional neural network, CNN), разработанные для эффективного распознавания образов. Они обучаются смотрению через сложную цепочку процессов внутренней логистики цифровых данных. Циркуляция образов в виде цифровых изображений проходит через многоуровневую архитектуру алгоритмов: нейросеть типа CNN — это многослойная стопка процессов, или — стек, где первый слой сверсточный слой. За ним следуют дополнительные слои сверстки и группирования, последний слой — полносвязный. С каждым новым слоем нейросеть увеличивает сложность функции смотрения, идентифицируя все большие фрагменты изображения. Ранние слои фокусируются на простых признаках, таких как цвет и конфигурация. По мере прохождения данных изображения через слои нейросеть начинает распознавать более крупные элементы, формы и текстуры объекта, пока, наконец, не идентифицирует его полностью. При этом качество распознавания напрямую зависит от объема и качества датасета и от того, сколько раз эти данные прошли через слои. То есть качество зависит от набора данных обучения и количества времени, в течение которого модель обучалась.

Степень натренированности нейросети зависит от визуального опыта: его широты — «видеть много тщательно отобранных примеров», или ограниченности — «редко видеть случайные примеры». Возвращаясь к рассмотренным выше примерам, можно предположить, что сбои связаны не только с тем, как именно устроен смотрящий агент — человек или машина, но и с внешними обстоятельствами, в которых он учился смотреть. Например, что касается распознавания образов собак в рисунке текстуры фанерного листа, не исключено, что, помимо прочего, нашим смотрением руководил инстинкт самосохранения, исторически обусловивший выживание человека как вида, — предполагаю, что в прошлом нам пришлось развить навык быстрого распознавания представителей дикой фауны как защитный механизм. В случае же ошибки, проиллюстрированной вышеупомянутым мемом, — не исключено, что она была унаследована набором данных обучения. Например, мы можем предположить, что в интернете среди незащищенных правами на использование изображений гораздо больше кексов маффинов, нежели собак породы чихуахуа, что привело к смещению количества в пользу первых в датасете, на котором обучалась горе-модель. То есть и человеческое смотрение, и имитирующее его синтетическое могут грешить пристрастностью (biased) в силу особенностей как устройства смотрящего, так и опыта, обусловленного контекстом.

О латентных пространствах и доменных онтологиях

Важную роль в организации опытного знания нейросети играет архитектура латентного пространства (latent space). Латентное пространство, также известное как «пространство скрытых объектов» или «пространство встраивания», — это математическая модель, в которой все возможные образы представлены в виде точек, каждая из которых соответствует уникальному набору характеристик того или иного объекта, при этом похожие объекты располагаются близко друг к другу. Глубина же латентного пространства определяется способностью модели к визуализации или распознаванию многообразия предмета его обучения.

Для лучшего понимания сказанного представим себе лес, состоящий из самых разнообразных деревьев. Если модель ИИ внимательно изучила каждое дерево в этом лесу, то может виртуально смоделировать лес таким образом, что похожие деревья будут расположены ближе друг к другу, образуя топологии плавно меняющихся форм. Например, те, на которых ветви с одной стороны реже или совсем отсутствуют, будут в его северной части, а густые и равномерно ветвистые — в южной. И так далее, следуя принципу схожести — породы, структуры ствола, цвета листвы и всего многообразия признаков. Каким же, в самом деле, антиутопическим получился бы такой лес во плоти. Даже попытка представить прогулку среди его упорядоченных форм вызывает гипнотический страх.

Генеративную модель text-to-image, обученную на датасете изображений всего, что только может быть изображено, как, например, популярную сегодня Stable Diffusion, легко заставить синтезировать смежный образ между «собакой-чихуахуа-и-маффином». В таком случае текстовый запрос был бы конвертирован в координату, расположенную между орбитами образов обоих наименований в латентном пространстве. Это пространство, своего рода облако знания модели, где есть все, что модель видела, и все, что она может изобразить на основе смешивания всего ею виденного.

Обращаясь к ИИ для создания таких гибридных интерпретаций предметов или даже целых понятий, мы нарушаем саму суть метафизики, смешивая фундаментальные онтологические категории.

С середины 1970-х годов исследователи в области искусственного интеллекта признали, что процесс инженерии знаний является ключом к созданию крупных и мощных систем ИИ. Ученные утверждали, что могут создавать новые онтологии в виде вычислительных моделей, которые позволяют осуществлять автоматизацию рассуждения. В 1980-х годах для одновременного обозначения теории моделирования мира и организации систем знаний стал применяться термин онтология. Будучи производными от соответствующего философского понятия, вычислительные онтологии стали своего рода прикладной философией.

Онтологии компьютационных систем отличаются от философии тем, что создаются с конкретными целями и оцениваются больше с точки зрения применимости, чем полноты. Стремясь к классификации и объяснению сущностей, они содержат идею общего словаря, определений понятий и отношений между ними. Том Грубер, американский ученый в области информатики, известный своей основополагающей работой в области онтологической инженерии в контексте ИИ, в статье 1993 года пишет: «Для моделей организации знания то, что “существует”, — это именно то, что может быть представлено»[1]. Иначе говоря, в информационных моделях компьютерных систем сам словарь представленных понятий определяет их как существующие. Вычислительная онтология функционирует как база данных и как структура организации информации; она не только занимается изучением природы бытия, как раздел философии, но и является реальной архитектурой, которая в значительной степени управляет и организует знания, их логистику и порядок возникновение смыслов. Например, онтологии архитектуры компьютерных систем опираются на такие сущности, как файл, путь, гипертекст, гиперссылки, классы, метаданные, восходящие и нисходящие порядки, иерархии доступа, файловые системы, переменные и расширения, исполняемые файлы и многое другое; это устройства и элементы, образующие анатомию архитектуры мышления ИИ.

Если озабоченность философией языка помогла нам лучше понять корреляцию между языком, значением, знанием, восприятием и миром, можно предположить, что нам также необходимо озаботиться исследованием того, как на все это влияют прикладные онтологии. Каковы масштабы этого влияния на то, как мы приобретаем и организуем опыт познания, принимаем решения и какие воздействия это имеет вне нас, во внешнем мире? Многие современные прикладные разработки в области машинного обучения были созданы как средства автоматизации работы с информацией, а некоторые стали сами по себе средствами производства знания. Эпистемологии моделей ИИ обладают особым качеством, хорошо объясняемым емким словом: программируемость. Эти системы обладают алгоритмической осведомленностью и позволяют генерировать информацию по запросу на основе цифровой модели знания, что само по себе представляет любопытный феномен генеративных эпистемологий. 

Возвращаясь к визуальным образам, зададимся вопросом: в чем разница между изображением предмета, сгенерированного моделью ИИ, созданной и обученной генерировать сотни гиперреалистичных изображений в секунду, случайной фотографией предмета, скажем, полученной в результате запроса в поисковой системе Google, и представлением о том же предмете в нашей коллективной или индивидуальной памяти? И может ли какая-либо из этих производных быть онтологически более верной и, следовательно, более реальной, чем другие? Вопрос, похожий на тот, который прозвучал в знаковой работе 1965 года классика концептуального искусства Джозефа Кошута «Один и три стула», где он подверг испытанию формы репрезентации предмета.

Эхо-камеры, один и бесконечное количество стульев

«Один и три стула» — пожалуй, самый хрестоматийный пример концептуального искусства второй половины ХХ века. Во многом потому, что эта работа затрагивает ряд характеристик, определяющих концептуальное искусство как таковое. Искусство, которое ставит концепцию выше формы и содержания, ассоциируется с дематериализацией искусства.

Работа Кошута — это три различных презентации стула как объекта: сам стул, его фотография и описание — копия словарной статьи. Стиль стула, материал, из которого он изготовлен, и другие физические характеристики в данном случае не принципиальны, поэтому замена одного стула на другой идею работы не меняет. Более того, по замыслу художника стул и, соответственно, его фотография должны быть новыми в каждой последующей экспозиции. Неизменны только копия словарной статьи и схема установки инсталляции. Самотематизирующий характер работы подталкивает к ее рассмотрению в контексте различных философских экзерсисов, например: что включает в себя понятие стула? как это понятие соотносится с образом стула? как определяется функция стула в рамках понятия того, чем он является? как язык, искусство и онтологические категории могут быть манифестированы в физической реальности? каково отношение этой работы к платоновской теории форм? Вспоминаются аналитик Людвиг Витгенштейн, согласно философии которого язык как изобразительное средство играет главную роль в познании мира, и одновременно эмпирик Дэвид Юм, отрицавший существование врожденных идей и считавший новое знание результатом чувственных данных и многократного опыта. И, конечно, Иммануил Кант с его «Критикой чистого разума», где он рассуждает о том, как физическая форма стула соответствует нашему знанию о нем и как это знание может быть нами применено. Наше ожидание увидеть произведение искусства как самоцель — это ожидание увидеть объект, который выделяется из мира объектов; но вместо этого нам представлено практически обнаженное понятие о крайне банальном предмете — обыкновенном стуле. Художник здесь не так уж и нужен, потому что сам акт сборки работы, скорее, является делом куратора. В данном случае он курирует представления о стульях, как text-to-image нейросеть курирует представления об объектах.

Элвин Люсье, американский экспериментальный композитор и художник саунд-арта, в 1969 году в студии электронной музыки Университета Брандейса записал «I am sitting in a room», ставшую одним из самых знаковых работ жанра. В этом произведении Люсье произносит текст и записывает на пленочный рекордер звук своего голоса. Затем он проигрывает эту запись и вновь записывает ее через микрофон, подключенный к записывающему и воспроизводящему запись устройству.

some text
Подборка собачьих мордочек
в деревянных панелях из
различных форумов сайта reddit.

Новая запись снова воспроизводится и записывается. Это повторяется до тех пор, пока в процессе перезаписи слова становятся совершенно неразборчивыми, заменяясь акустическими искажениями звуковых частот, характерных для пространства, где происходит запись. Текст из нескольких предложений, произносимый автором, описывает весь процесс звуковой инсталляции, начинаясь со слов — «Я сижу в комнате, отличной от той, в которой сейчас находитесь вы. Я записываю звук своего голоса …» и далее предсказывает, что в итоге произойдет с записью голоса в этом акте повторения[2].

Итак, пожалуй, наблюдения, изложенные в этом тексте, ведут к следующему тезису — сегодня сложные архитектуры компьютерных систем планетарного масштаба и не менее сложные алгоритмы взаимодействия с хранящимися в них отпечатками коллективного знания, где апогеем этого проекта является ИИ, функционируют не просто как средства, обеспечивающие доступ (medium), но и как институты производства смыслов и образов. Компьютерная спайка информации в смыслы, синтетические когнитивные возможности искусственного интеллекта и логистика планетарной взаимосвязанности не только меняют способ производства знания, как и способ связи с ним вовлеченных агентов, но также влияют и на саму фундаментальную онтологию понятий о том, что есть что. Хотя все же, как художник в первую очередь, я хотел бы поупражняться в достоверности этой идеи на примере собственной работы с довольно странным названием «1&∞🪑».

some text
Егор Крафт «1&∞■», 2023. Кадры из видео. Отобранные виды стульев из 1-й и 2-й итераций обучения и
генерации изображений при создании работы с помощью text-to-image модели ИИ.

1&∞🪑

В этом эксперименте, цель которого — сгенерировать несколько сотен изображений стульев, я обратился к популярной text-to-image модели ИИ Stable Diffusion. В качестве запроса (prompt), использовался текст: «один стул на нейтральном фоне». Полученный набор изображений, преимущественно фотореалистичных, был использован для повторного обучения той же самой модели, в результате чего ожидаемо повысилась ее способность воспроизводить «стул на нейтральном фоне» во всем тиражируемом многообразии этого образа.

Этот процесс повторного обучения модели на «собственноручно» сгенерированных изображениях повторялся снова и снова — до тех пор, пока на 6-й итерации вместо фотореалистичного образа стула, блестяще исполненном нейросетью на первом этапе, модель не деградировала до такой степени, что производила только яркие цветные пятна, которые не имели ни малейшего сходства с каким-либо образом стула, больше походя на неуклюжую цифровую имитацию живописи Марка Ро́тко. Другими словами, процесс повторялся до тех пор, пока фигуративный образ стула не исчез полностью из представления о нем модели ИИ. Не так уж и много времени заняло у продвинутой модели Stable Difusion, представляющейся сегодня триумфальным продуктом прикладной инженерии компьютерного зрения, чтобы забыть тривиальный образ стула в ходе изучения собственных результатов его интерпретации(3).

В науке о данных явление, в котором ИИ обучается на данных сгенерированных ИИ, часто называют дата-каннибализмом. Из-за необходимости расширять наборы данных и в связи с растущим распространением генерации изображений и данных с помощью ИИ все больше и больше новых систем искусственного интеллекта будут обучаться на синтетических наборах данных, то есть синтезированных другими генеративными моделями ИИ. Данный феномен создает проблемы в этой прикладной онтологии и загрязняет будущие наборы данных, эпистемологическую и визуальную точность моделей.

Могут ли в будущем в результате продолжающегося и ускоряющегося процесса синтезиса всех данных наши модели ИИ утратить свою основную функцию точной репрезентации? Или как минимум размыть полученную в опыте изучения репрезентации реальных объектов точность, разбавив ее синтетическим шумом деградации восприимчивости. Пример «1&∞🪑» показал, как под воздействием таких обратных связей(feedback loop) и эффекта алгоритмической эхо-камеры автогенерируемых и автопотребляемых данных доменная онтология предмета и его визуальная репрезентация распадаются в не-фигуративную абстракцию. По крайней мере, так это выглядит для человеческого глаза.

Однако виден ли все еще там образ стула для машины в последней фазе, где он не виден нам? Как мы наблюдали в примерах с собачьими мордами, фанерными листами, узорами древесины и маффинами, и люди, и машины как могут видеть то, что не представлено, так и упускать из виду явное. И все же, видит ли машина там стул в рамках прикладной онтологии компьютерных систем? Это важный вопрос, потому что если машина его видит — значит, согласно устройству ее прикладной онтологии, он есть. Более того, он (стул) — применяемый объект, исполняемый как файл расширения .exe, или как строчка кода, или как промпт-запрос. Согласно Тому Груберу, если он представлен, то — «существует». А это значит, что в наше время всеобъемлющей индустриализации и вездесущей компьютации планетарного масштаба такие сбои могут приводить к вполне осязаемым, реальным последствиям за пределами иллюзорности своей беспредметной природы.

 

ПРИМЕЧАНИЯ:

Gruber Т. R. A Translation Approach to Portable Ontology Specifications. 1993. URL.: https://www.sci-hub.ru/10.1006/knac.1993.1008?ysclid=m2f3getglh617102346. 

2 Полный текст: «Я сижу в комнате, отличной от той, в которой сейчас находитесь вы. Я записываю свой голос, а затем собираюсь проигрывать его в этой же комнате снова и снова, пока под влиянием резонансных частот комнаты мой голос не утратит всякое сходство с человеческой речью за исключением, возможно, ритма. То, что вы услышите в результате этой трансформации, — это натуральные резонансные частоты комнаты, усиленные моим голосом. Я рассматриваю свои действия не как демонстрацию физического факта, а, скорее, как способ сгладить любые дефекты своей речи». URL.: https://www.youtube.com/watch?v=YUIPK8CWxpw&t=1423s.

3 Полная версия фильма URL.: vimeo.com/egorkraft/chair.

Поделиться

Статьи из других выпусков

№7 1995

Новогодний чёрный шар (Заметка о нынешней художественной ситуации в Москве)

Продолжить чтение