#ПАНДАН_на_завтрак_26
Шесть интерактивных заданий для поступления на программу магистратуры «Прикладной анализ данных и искусственный интеллект» и программу ДПО Европейского университета и Яндекса.
Задания 2026 года будут публиковаться еженедельно со 2 мая.
Выберите два задания из шести для поступления в магистратуру и одно для поступления на программу ДПО и по каждому напишите эссе на русском языке в объеме от 5 000 до 10 000 знаков (включая знаки препинания, цифры и пробелы)
Первое задание
от мастерской Анализа Текстовых Данных (ТекстАН) Летней Школы

Проект Летняя Школа каждый год собирает под своим крылом очень разные мастерские. В одной участники пишут код и работают с данными (как, например, наша), в другой — читают тексты и спорят об интерпретациях, в третьей — танцуют, поют и строят архитектурные макеты. На первый взгляд все они находятся внутри одного образовательного проекта. Но если внимательно прочитать их описания, становится видно, что каждая мастерская по-своему отвечает на вопросы: чему здесь учатся, каким должен быть участник, что считается хорошим результатом, как устроена работа и зачем вообще приходить именно сюда.

В этом задании мы предлагаем посмотреть на проекты и организации как на набор текстов. Описания мастерских, вступительные задания, программы занятий и публичные материалы не просто сообщают факты. Они создают образ мастерской, формируют ожидания, объясняют ценности и обращаются к будущему участнику определенным языком. Одни тексты подчеркивают исследовательскую свободу, другие — практический результат, третьи — командную работу, четвертые — сложность и профессиональность, пятые — атмосферу совместного поиска.
Выберите несколько мастерских Летней Школы — например, мастерские одного года или мастерские разных лет — и предложите способ сравнить их с помощью методов анализа текстовых данных.

В эссе попробуйте ответить на вопрос: как по текстовым описаниям можно понять, чем организации или направления внутри организаций отличаются друг от друга? Какие признаки этих различий можно извлечь автоматически, а какие требуют внимательного чтения и ручной разметки? Как можно это отобразить? Используя карту, определяя категории по текстовым признакам или каким-то иным образом?

Опишите, какие данные вы бы использовали. Это могут быть описания мастерских на сайте, вступительные задания, программы, новости, отзывы участников или другие открытые материалы.

Объясните, как вы превратили бы эти тексты в корпус для анализа: что стало бы единицей наблюдения, какие тексты вы бы включили, что пришлось бы исключить, какие ограничения есть у таких данных.

Предположите как такой подход можно перенести за пределы Летней Школы. Ведь мастерские — это только один пример более общей задачи: сравнивать объекты по тому, как они описаны в текстах. Но как эту логику можно перенести на иные ситуации?



Второе задание
от команды центра «Прожито»

Студенты ПАНДАНа в рамках итогового проекта начали разрабатывать биографическую базу данных и методы извлечения биографических данных об авторах документов архива «Прожито» из различных источников. Одно из практических применений этой базы — анализ сетевых связей авторов документов из семейных архивов. Поэтому помимо извлечения биографических данных о персонах, важно устанавливать связи между персонами.

Родственные связи (родители, родственники, дети, партнеры), пожалуй, самый очевидный вид таких связей между персонами, и они полезны для генеалогов. Но в текстах дневников и воспоминаний авторы часто упоминают людей как из круга своего общения, так и лиц, с кем они лично не знакомы.

В эссе мы предлагаем поразмышлять о том, какие связи между персонами можно выделить из текстов личных документов? О чем могут рассказать эти связи? Есть ли примеры других проектов, в которых реализована близкая задумка, и что в них заслуживает внимания? Какие формальные критерии в тексте дневника позволяют нам утверждать, что между персонами существует связь? Как отличить «случайную встречу» от «устойчивой связи»? Необходимо ли в биографической базе данных учитывать лиц, с которыми автор документа не был лично знаком, но которые важны для него, и если да, то для какого рода исследований? Как можно визуализировать найденные связи между персонами?

Поскольку для извлечения данных из текстов мы используем большие языковые модели (LLM), также оцените перспективы их использования для определения отмеченных вами связей между персонами. Для этого возьмите любые дневниковые записи из корпуса «Прожито» (например, Юрия Бартенева, Евлалии Казанович  и Анны Головко) и с помощью LLM (например, ChatGPT, Alice AI, HuggingChat или любой другой) оцените качество установления связей между автором и упоминаемой персоной. С какими проблемами и ограничениями можно столкнуться при автоматическом выявлении связей?

Мы ожидаем, что написанное ваши эссе может содержать примеры промтов и ответов LLM, однако просим вынести их в приложения. Основой эссе должны стать ваши рассуждения и описание проведенных экспериментов, текст также должен быть подкреплен источниками и дополнительными примерами.

КОНТАКТЫ ПРИЕМНОЙ КОМИССИИ
Адрес: ул. Шпалерная, дом 2/4, литера А

E-mail: admissions.pandan@eu.spb.ru, pandan.eu@yandex.ru.
Присоединяйтесь к нам социальных сетях: