#ПАНДАН_на_завтрак_26
Шесть интерактивных заданий для поступления на совместные программы Европейского университета и Яндекса: магистратуру «Прикладной анализ данных и искусственный интеллект» и программу ДПО по анализу данных.

Задания 2026 года будут публиковаться еженедельно со 2 мая.
Выберите два задания из шести для поступления в магистратуру и одно для поступления на программу ДПО и по каждому напишите эссе на русском языке в объеме от 5 000 до 10 000 знаков (включая знаки препинания, цифры и пробелы)
Первое задание
от мастерской Анализа Текстовых Данных (ТекстАН) Летней Школы

Проект Летняя Школа каждый год собирает под своим крылом очень разные мастерские. В одной участники пишут код и работают с данными (как, например, наша), в другой — читают тексты и спорят об интерпретациях, в третьей — танцуют, поют и строят архитектурные макеты. На первый взгляд все они находятся внутри одного образовательного проекта. Но если внимательно прочитать их описания, становится видно, что каждая мастерская по-своему отвечает на вопросы: чему здесь учатся, каким должен быть участник, что считается хорошим результатом, как устроена работа и зачем вообще приходить именно сюда.

В этом задании мы предлагаем посмотреть на проекты и организации как на набор текстов. Описания мастерских, вступительные задания, программы занятий и публичные материалы не просто сообщают факты. Они создают образ мастерской, формируют ожидания, объясняют ценности и обращаются к будущему участнику определенным языком. Одни тексты подчеркивают исследовательскую свободу, другие — практический результат, третьи — командную работу, четвертые — сложность и профессиональность, пятые — атмосферу совместного поиска.
Выберите несколько мастерских Летней Школы — например, мастерские одного года или мастерские разных лет — и предложите способ сравнить их с помощью методов анализа текстовых данных.

В эссе попробуйте ответить на вопрос: как по текстовым описаниям можно понять, чем организации или направления внутри организаций отличаются друг от друга? Какие признаки этих различий можно извлечь автоматически, а какие требуют внимательного чтения и ручной разметки? Как можно это отобразить? Используя карту, определяя категории по текстовым признакам или каким-то иным образом?

Опишите, какие данные вы бы использовали. Это могут быть описания мастерских на сайте, вступительные задания, программы, новости, отзывы участников или другие открытые материалы.

Объясните, как вы превратили бы эти тексты в корпус для анализа: что стало бы единицей наблюдения, какие тексты вы бы включили, что пришлось бы исключить, какие ограничения есть у таких данных.

Предположите как такой подход можно перенести за пределы Летней Школы. Ведь мастерские — это только один пример более общей задачи: сравнивать объекты по тому, как они описаны в текстах. Но как эту логику можно перенести на иные ситуации?



Второе задание
от команды центра «Прожито»

Студенты ПАНДАНа в рамках итогового проекта начали разрабатывать биографическую базу данных и методы извлечения биографических данных об авторах документов архива «Прожито» из различных источников. Одно из практических применений этой базы — анализ сетевых связей авторов документов из семейных архивов. Поэтому помимо извлечения биографических данных о персонах, важно устанавливать связи между персонами.

Родственные связи (родители, родственники, дети, партнеры), пожалуй, самый очевидный вид таких связей между персонами, и они полезны для генеалогов. Но в текстах дневников и воспоминаний авторы часто упоминают людей как из круга своего общения, так и лиц, с кем они лично не знакомы.

В эссе мы предлагаем поразмышлять о том, какие связи между персонами можно выделить из текстов личных документов? О чем могут рассказать эти связи? Есть ли примеры других проектов, в которых реализована близкая задумка, и что в них заслуживает внимания? Какие формальные критерии в тексте дневника позволяют нам утверждать, что между персонами существует связь? Как отличить «случайную встречу» от «устойчивой связи»? Необходимо ли в биографической базе данных учитывать лиц, с которыми автор документа не был лично знаком, но которые важны для него, и если да, то для какого рода исследований? Как можно визуализировать найденные связи между персонами?

Поскольку для извлечения данных из текстов мы используем большие языковые модели (LLM), также оцените перспективы их использования для определения отмеченных вами связей между персонами. Для этого возьмите любые дневниковые записи из корпуса «Прожито» (например, Юрия Бартенева, Евлалии Казанович  и Анны Головко) и с помощью LLM (например, ChatGPT, Alice AI, HuggingChat или любой другой) оцените качество установления связей между автором и упоминаемой персоной. С какими проблемами и ограничениями можно столкнуться при автоматическом выявлении связей?

Мы ожидаем, что написанное ваши эссе может содержать примеры промтов и ответов LLM, однако просим вынести их в приложения. Основой эссе должны стать ваши рассуждения и описание проведенных экспериментов, текст также должен быть подкреплен источниками и дополнительными примерами.

Третье задание
от команды проекта «Карта этнографических коллекций»

Экспонаты, попадая в музей, проходят долгий путь: от места сбора в этнографической экспедиции, через полевые заметки собирателя, до научной атрибуции в фондах музея, где каждый предмет описывается по строгим стандартам (автор, время и место создания, материал, размеры, назначение, этническая принадлежность и т.д.). В последние годы эта информация из печатных каталогов музеев оцифровывается и становится структурированным массивом данных, пригодных для анализа. В этом задании мы предлагаем вам поработать с данными  нескольких этнографических коллекций Российского этнографического музея, собранных Виктором Николаевичем Васильевым на Дальнем Востоке.

В первой части задания обратитесь к карте и рассмотрите локации как самостоятельный источник данных. Перед вами 40 геоточек, из которых были привезены предметы. Цветом маркера обозначена этническая принадлежность жителей этих локаций, а размером — число собранных в них предметов. Какие качественные (например, пространственные) или количественные закономерности вы видите? Какие возможные объяснения этим наблюдениям можно предложить, опираясь на исторический, социологический и антропологический контекст?

Во второй части задания перейдите к данным о музейных предметах. Как с этой совокупностью данных может работать аналитик? Какие гипотезы можно выдвинуть, опираясь на уже подмеченные вами пространственные закономерности, а также на особенности региона в аспекте социогуманитарного знания? Можно ли сгруппировать или классифицировать предметы и какие признаки для этого окажутся наиболее информативными? Какие преобразования, отбор или структурирование данных могут понадобиться перед анализом?

В заключение мы предлагаем выйти за пределы конкретного кейса. Представьте себя аналитиком, который занимается геокодированием. Как вы бы подошли к поиску координат исторических локаций? Какие источники и методы проверки могли бы обосновать и повысить надежность географической привязки? Как можно валидировать такие данные?

Порассуждайте, как подобный подход — сопоставление пространственных данных и характеристик объектов — можно перенести на коллекции других собирателей и музеев? Если вы видите архитектурное решение для такой задачи, опишите его. Какие исследовательские возможности это открывает для анализа социальных процессов? С какими ограничениями и трудностями можно столкнуться как на уровне данных, так и на уровне интерпретации?




Четвертое задание
от команды лаборатории «Искусство и искусственный интеллект»

Во время археологических раскопок и при включение находок в коллекцию или в архив исследователи проводят фотографическую фиксацию находки (in situ и в лаборатории), при этом в кадре присутствует масштабная линейка для определения истинного размера предмета. Вам могут встретиться самые разнообразные типы линеек: классическая чёрно-белая линейка с сантиметровыми и миллиметровыми делениями, цветная линейка (например, красно-белая), линейки с подписанными цифрами или буквенным кодом раскопа и не только. Для понимания природы данных изучите правила съемки подобных предметов и кратко опишите существуют ли различия в правилах съемки для разных типов предметов в разных странах? Какие общие конвенции существуют?

Изображения археологических находок, как правило, включают в себя объект измерения (в одной или нескольких проекциях), масштаб (линейку, шкалу, подпись масштаба), а также могут содержать дополнительную мета-информацию (подписи, разделители проекций и т.д.). Для знакомства с примерами подобных изображений рассмотрите данные проекта Similis и онлайн-коллекций Британского музея).

В эссе вам необходимо предложить подход к автоматическому определению физических размеров объекта по фотографии и описать возможные этапы и особенности подобной работы. Вы можете рассмотреть как простые эвристики, так и классические методы компьютерного зрения, а также нейросетевые подходы. Обратите внимание, что линейка может быть расположена под углом, масштаб может быть виден полностью или частично, а объект может иметь сложную форму. Какие еще особенности и ограничения данных необходимо учитывать для решения задачи?

Опишите несколько возможных решений по детекции размеров для ситуаций, когда линейка полностью попала в кадр, используются разные типы линеек (в том числе физических), линейка попала в кадр только частично или закрыта объектом, масштаб отличается между изображениями. Уточните, всегда ли можно восстановить масштаб в случае частичного попадания линейки в кадр и как оценивать надежность результата в таком случае?

Предположите, будет ли возникать погрешность при автоматическом определении размера и как это определить? Какие границы применимости существуют у такого решения? Оцените устойчивость предложенного решения к возможным обновлениям данных (новым типам объектов, линеек, масштабов). Какие важные результаты поможет получить создание решения по автоматизации определения размеров археологических находок?


КОНТАКТЫ ПРИЕМНОЙ КОМИССИИ
Адрес: ул. Шпалерная, дом 2/4, литера А

E-mail: admissions.pandan@eu.spb.ru, pandan.eu@yandex.ru.
Присоединяйтесь к нам социальных сетях: