Поэт как математическая функция

Поэт как математическая функция

Лингвист. Окончил Башкирский государственный университет со степенью магистра филологии. Кандидат филологических наук (2008). С 2013 года доцент Школы лингвистики Национального исследовательского университета «Высшая школа экономики», сотрудник Центра цифровых гуманитарных исследований НИУ ВШЭ.
Автор Словаря языка французских стихотворений Ф. И. Тютчева и около 150 научных работ. Соавтор учебника «Поэзия» (М.: Б. С. Г.-Пресс: ОГИ, 2016).

Борис Орехов о нейросетях, способных порождать поэтические тексты

Нейросеть — это математическая концепция способного к обучению искусственного интеллекта. Она появилась еще в 1940‑е годы, когда ученые попробовали воссоздать на техническом уровне биологические нейронные сети — то есть, человеческий мозг.

Нейротехнологии внедрены в Google Assistant (то, что работает в телефоне, если произнести «О’кей, Google!») или в приложение Faсe App, позволяющем менять лица актеров в видеороликах и фильмах на лица ваших знакомых. Приложение Google Arts and Culture проверяет, есть ли у вас двойник на всемирно известной картине. В медицине существует алгоритм, способный определять календарный возраст человека по анализу крови. С помощью нейросетей можно предсказывать наводнения, прогнозировать исходы спортивных матчей и т. д.

Рекуррентные нейронные сети — особый тип нейронных сетей, который стал актуален совсем недавно. Подобные сети способны порождать текст. Они обучаются на уже существующих произведениях и во многом воспроизводят стилистику «загруженных» в нее текстов.

Если речь о поэзии, то чтобы добиться сходства с оригиналом, НС нужно множество стихотворений — сотни тысяч строк. Минимальное количество знаков для приемлемого результата — 1 млн символов, что немало даже для продуктивных поэтов.

Как происходит обучение? Нейросеть прочитывает тексты как последовательности букв. Сеть понимает, что буквы расставлены неслучайно, затем что буквы разделены на слова, слова на словосочетания, те на строки — и так далее.

Наш гость — один из первых исследователей поэзии рекуррентных нейросетей на постсоветском пространстве Борис Орехов.

— Борис Валерьевич, с чего началось ваше увлечение рекуррентными нейросетями?

— Это была производственная необходимость. Я все-таки имею право называть себя ученым, а ученый должен постоянно осваивать новые методы. Без этого он быстро окажется на обочине. Мне нужно было познакомиться с нейросетями, чтобы быть в курсе того, что происходит, и чтобы научить пользоваться этим инструментом своих студентов. Если ты не можешь помогать в познании молодым специалистам, зачем ты тогда нужен (улыбается)? Я попробовал создать свою нейросеть, а поскольку у меня филологический бэкграунд, то мне было интересно натренировать ее на поэтических текстах. Так получилось, что я взялся за это чуть раньше, чем другие. Кажется, первую модель я получил еще до того, как появились знаменитые эксперименты на русском языке от «Яндекса».

— Как исследователю понять, что нейросеть обучилась, но не переобучилась? Хватило ли ей данных? Есть ли математические метрики кроме субъективных оценок?

— Да, конечно. Это заложено в той архитектуре, которая позволяет сети обучаться, и там нет места субъективности исследователя. Этот субъективизм возникает на других этапах, когда мы начинаем рассуждать, способна ли нейросеть воспроизвести стиль. Результат обучения оценивается просто. Внутри нейросети «живут» математические функции. Внутри этих функций — коэффициенты. На каждом шаге нейросеть подсчитывает, насколько эти коэффициенты соответствуют материалу, с которым она имеет дело.

— Как она это делает?

— Если речь о рекуррентной сети, то она берет текст и разделяет его на обучающий и тестировочный. На обучающем этапе она изучает текст, пересчитывает коэффициенты, а потом сравнивает результат с тестировочным фрагментом. Ей надо понять, насколько буквы, поданные на вход, соответствуют (в математическом смысле) тестировочному кусочку. Благодаря этому мы на каждом шаге знаем, насколько порожденные тексты отличаются от реальных, то есть, как сильно нейросеть ошибается. Если ошибка со временем не падает, чек-поинты, которые фиксируют промежуточные этапы, не создаются, данные пересчитываются вхолостую, прогресса в обучении нет. Именно это происходит с маленькими корпусами текстов. Когда сеть выдает более-менее приличный результат, общий коэффициент ошибки должен быть меньше 1. Это значит, что она часто попадает в цель, практически предсказывая тестировочный фрагмент.

— В преддверии фестиваля «Контекст» (Харьков, 31 марта — 1 апреля 2018 г.) вы помогли породить нейротексты «по мотивам» стихов Галины Рымбу и Лесика Панасюка. В первом случае нейросеть худо-бедно справилась (хотя 110 тыс. знаков — критически мало для порождения приемлемого текста). Во втором случае текстов даже для одного чек-поинта оказалось недостаточно. И я — объясняю для читателей — дослал новые стихотворения. Вопрос: можно ли безболезненно добавлять в нейросеть новые тексты. Или ее придется тренировать заново?

— Особой проблемы здесь нет. Существуют предобученные сети, которые натренировались на корпусе текстов или картинках — и последующим дообучением мы их специализируем на определенной стилистике. С коллегами мы планировали провести эксперимент: что будет, если предобучить сеть на прозе Толстого, а потом дообучить на современной беллетристике или новостных текстах? Тогда либо новости были бы поданы словами Толстого, либо Толстой начал бы излагать «Анну Каренину» в стиле ТАСС. Результата мы не знаем, потому что эксперимент не получился из-за нехватки компьютерной инфраструктуры (нейросеть требовательна к ресурсам, хотя и на домашнем компьютере можно натренировать что-то небольшое. — Ред.). Но действительно, мы можем дообучить сеть на других текстах, и стилистика текста, который выдает сеть, после этого будет меняться.

— Предположим, я решил пред­обучить сеть на стихах Пушкина, а дообучить на стихах Дмитрия Кузьмина. Сколько нужно текстов того и другого, чтобы нейросеть начала отличать стили?

— Вопрос подразумевает, что нейросеть отличает один стиль от другого, но это не так. Теоретически мы можем создать программу, не обязательно нейронную сеть, отличающую стили разных авторов или литературных эпох. Помимо нейросетей есть машинные методики, которые помогают определить автора, например, алгоритм «Delta». Он довольно доступный и действительно хорошо отличает авторов друг от друга. Например, этот инструмент распознал, что роман, который Джоан Роулинг написала под псевдонимом, действительно принадлежит ей. К томе же, «Delta» прекрасно определяет авторов спорных текстов…

— «Тихого Дона», например?

— Ну… про это слишком давно пишут, с «Тихим Доном» уже не интересно (улыбается). Он все-таки шолоховский, и судя по «Delta», и по другим свидетельствам. А вот любопытно, что бахтинские спорные тексты скорее всего принадлежат Бахтину. Возможно, они писались в соавторстве. Но они точно не принадлежат Волошинову и Медведеву единолично.

— Бахтин в одном из интервью заявил, что они работали в тесном творческом контакте. В концепцию книг Волошинова/Медведева и книги Бахтина о Достоевском положены общие идеи. Так что задача поиска «своего» и «чужого» в этих работах до сих пор стоит остро…

— И все же, они с точки зрения стиля (не обязательно содержательно) принадлежат Бахтину. С «Delta» возникают такие же вопросы, как и с нейросетями: она хорошо работает на больших объемах данных, поэтому романы успешно анализируются. А небольшие статьи и рецензии не дают надежных результатов. Нужно не менее 10 тысяч слов, чтобы надежно определить авторство. И на таких объемах «Delta» работает довольно хорошо. А нейросеть не отличает, а воспроизводит стиль.

Борис Орехов натренировал нейросеть на русских переводах античных гекзаметров — Гомера, Гесиода, Овидия, Вергилия и других объемом более 5 млн символов (106 тыс. строк). Обучившись, сеть выдала такой текст:

Силу, к голубке хитон отличась, Гиоклей благородный.
На Ликеи веселие слово кружает другого,
Слишком попал бы и все повреждает она одиноко
И возливаешь они рассудить — городские, проделать
Кровью вкусили два дочь. На корабль он твухте твоей силы

Нейросеть успешно воспроизвела гекзамкетр. Заметны и стилистические особенности. Например, эпитет «благородный» после имени собственного — как и писали в переводах античных авторов. Некоторые несогласованности, например, «два дочь» объясняются недостаточным числом текстов. Для хорошего результата нейросети требуется не 5 млн символов, а 20–30.

— То есть, если обучить нейросеть на Пушкине и Кузьмине, то получится некий Кузьмопушкин?

— Да, это будет странный результат, в котором будет что-то от одного автора, что-то от другого. Мне нравится метафора самого Кузьмина, которую он приводит, когда объясняет, почему сейчас нельзя писать как Пушкин. Это все равно, как если бы мы сейчас увидели на улице человека, одетого в стиле пушкинской эпохи. Анахронизм.

— Но эксперименты с современными текстами вы проводили.

— У меня нет специального интереса к современной поэзии, и то, что я поучаствовал в учебнике «Поэзия», — скорее случайность. Мне кажется, что у коллег, которые его создали, получилось бы гораздо лучше без меня.

— Без оголтелой критики не обошлось даже с вами…

— Это гениальный военный ход со стороны Наталии Азаровой, Дмитрия Кузьмина и Кирилла Корчагина в той литературной борьбе, которую они ведут. Абсолютно гениальный и сопоставимый с обходом линии Мажино. Потому что… Что такое литературная полемика и зачем она нужна? Это когда одна группа литераторов пытается убедить всех, что их концепция литературы правильнее, чем у другой группы или у всех остальных. Книжки, книжечки, особенно художественные, приходят и уходят, а учебники, энциклопедии и справочники остаются. Учебник «Поэзия» — это великолепный военный удар. И естественно, что те, кто проиграл в этом сражении, будут возмущены, будут возражать. Но главное уже сделано. Поэтому Азаровой нужно издать словарь после учебника. И, я думаю, война выиграна.

— В дальнейшем вы собираетесь проводить нейроэксперименты с актуальной поэзией?

— Мне любопытнее поэзия классической эпохи — и для нового эксперимента мне бы хотелось объединить усилия с молодыми коллегами-филологами. С современной поэзией нам работать не так интересно. Моя кандидатская посвящена, например, поэзии Тютчева, коллеги тоже, в основном, пишут про прошлое. Нейросеть может создать для нас ненаписанные стихи Мандельштама. А современные поэты сами за себя все напишут.

Беседовал Владимир Коркунов

Поэт, переводчик, критик. Родился в 1984 году в г. Кимры (Тверская область). Окончил МГУПИ и Литературный институт им. А. М. Горького. Кандидат филологических наук. В 2018-2019 гг. — соредактор журнала «Контекст». Публиковался в журналах «Цирк “Олимп”+TV», «Воздух», «Знамя», «Волга», «НЛО», «Дискурс», «Ф-письмо»  TextOnly, «Двоеточие», «Новый мир», альманахе «Артикуляция», на сайтах Soloneba, Litcentr, «Носорог», «полутона» и др. Автор сборников стихотворений «Кратковременная потеря речи» (2019), «Последний концерт оркестра-призрака» (2020), а также книги интервью «Побуждение к речи: 15 интервью с современными поэт(к)ами о жизни и литературе» (2020). Соредактор журнала Paradigma. Живёт в Москве.

Дивіться також
Поліна Городиська
Зинаида Драгомощенко