#ПАНДАН_на_завтрак_26
Шесть интерактивных заданий для поступления на совместные программы Европейского университета и Яндекса: магистратуру «Прикладной анализ данных и искусственный интеллект» и программу ДПО по анализу данных.
Выберите два задания из шести для поступления в магистратуру и одно для поступления на программу ДПО и по каждому напишите эссе на русском языке в объеме от 5 000 до 10 000 знаков (включая знаки препинания, цифры и пробелы)
Первое задание
от мастерской Анализа Текстовых Данных (ТекстАН) Летней Школы

Проект Летняя Школа каждый год собирает под своим крылом очень разные мастерские. В одной участники пишут код и работают с данными (как, например, наша), в другой — читают тексты и спорят об интерпретациях, в третьей — танцуют, поют и строят архитектурные макеты. На первый взгляд все они находятся внутри одного образовательного проекта. Но если внимательно прочитать их описания, становится видно, что каждая мастерская по-своему отвечает на вопросы: чему здесь учатся, каким должен быть участник, что считается хорошим результатом, как устроена работа и зачем вообще приходить именно сюда.

В этом задании мы предлагаем посмотреть на проекты и организации как на набор текстов. Описания мастерских, вступительные задания, программы занятий и публичные материалы не просто сообщают факты. Они создают образ мастерской, формируют ожидания, объясняют ценности и обращаются к будущему участнику определенным языком. Одни тексты подчеркивают исследовательскую свободу, другие — практический результат, третьи — командную работу, четвертые — сложность и профессиональность, пятые — атмосферу совместного поиска.
Выберите несколько мастерских Летней Школы — например, мастерские одного года или мастерские разных лет — и предложите способ сравнить их с помощью методов анализа текстовых данных.

В эссе попробуйте ответить на вопрос: как по текстовым описаниям можно понять, чем организации или направления внутри организаций отличаются друг от друга? Какие признаки этих различий можно извлечь автоматически, а какие требуют внимательного чтения и ручной разметки? Как можно это отобразить? Используя карту, определяя категории по текстовым признакам или каким-то иным образом?

Опишите, какие данные вы бы использовали. Это могут быть описания мастерских на сайте, вступительные задания, программы, новости, отзывы участников или другие открытые материалы.

Объясните, как вы превратили бы эти тексты в корпус для анализа: что стало бы единицей наблюдения, какие тексты вы бы включили, что пришлось бы исключить, какие ограничения есть у таких данных.

Предположите как такой подход можно перенести за пределы Летней Школы. Ведь мастерские — это только один пример более общей задачи: сравнивать объекты по тому, как они описаны в текстах. Но как эту логику можно перенести на иные ситуации?



Второе задание
от команды центра «Прожито»

Студенты ПАНДАНа в рамках итогового проекта начали разрабатывать биографическую базу данных и методы извлечения биографических данных об авторах документов архива «Прожито» из различных источников. Одно из практических применений этой базы — анализ сетевых связей авторов документов из семейных архивов. Поэтому помимо извлечения биографических данных о персонах, важно устанавливать связи между персонами.

Родственные связи (родители, родственники, дети, партнеры), пожалуй, самый очевидный вид таких связей между персонами, и они полезны для генеалогов. Но в текстах дневников и воспоминаний авторы часто упоминают людей как из круга своего общения, так и лиц, с кем они лично не знакомы.

В эссе мы предлагаем поразмышлять о том, какие связи между персонами можно выделить из текстов личных документов? О чем могут рассказать эти связи? Есть ли примеры других проектов, в которых реализована близкая задумка, и что в них заслуживает внимания? Какие формальные критерии в тексте дневника позволяют нам утверждать, что между персонами существует связь? Как отличить «случайную встречу» от «устойчивой связи»? Необходимо ли в биографической базе данных учитывать лиц, с которыми автор документа не был лично знаком, но которые важны для него, и если да, то для какого рода исследований? Как можно визуализировать найденные связи между персонами?

Поскольку для извлечения данных из текстов мы используем большие языковые модели (LLM), также оцените перспективы их использования для определения отмеченных вами связей между персонами. Для этого возьмите любые дневниковые записи из корпуса «Прожито» (например, Юрия Бартенева, Евлалии Казанович  и Анны Головко) и с помощью LLM (например, ChatGPT, Alice AI, HuggingChat или любой другой) оцените качество установления связей между автором и упоминаемой персоной. С какими проблемами и ограничениями можно столкнуться при автоматическом выявлении связей?

Мы ожидаем, что написанное ваши эссе может содержать примеры промтов и ответов LLM, однако просим вынести их в приложения. Основой эссе должны стать ваши рассуждения и описание проведенных экспериментов, текст также должен быть подкреплен источниками и дополнительными примерами.

Третье задание
от команды проекта «Карта этнографических коллекций»

Экспонаты, попадая в музей, проходят долгий путь: от места сбора в этнографической экспедиции, через полевые заметки собирателя, до научной атрибуции в фондах музея, где каждый предмет описывается по строгим стандартам (автор, время и место создания, материал, размеры, назначение, этническая принадлежность и т.д.). В последние годы эта информация из печатных каталогов музеев оцифровывается и становится структурированным массивом данных, пригодных для анализа. В этом задании мы предлагаем вам поработать с данными  нескольких этнографических коллекций Российского этнографического музея, собранных Виктором Николаевичем Васильевым на Дальнем Востоке.

В первой части задания обратитесь к карте и рассмотрите локации как самостоятельный источник данных. Перед вами 40 геоточек, из которых были привезены предметы. Цветом маркера обозначена этническая принадлежность жителей этих локаций, а размером — число собранных в них предметов. Какие качественные (например, пространственные) или количественные закономерности вы видите? Какие возможные объяснения этим наблюдениям можно предложить, опираясь на исторический, социологический и антропологический контекст?

Во второй части задания перейдите к данным о музейных предметах. Как с этой совокупностью данных может работать аналитик? Какие гипотезы можно выдвинуть, опираясь на уже подмеченные вами пространственные закономерности, а также на особенности региона в аспекте социогуманитарного знания? Можно ли сгруппировать или классифицировать предметы и какие признаки для этого окажутся наиболее информативными? Какие преобразования, отбор или структурирование данных могут понадобиться перед анализом?

В заключение мы предлагаем выйти за пределы конкретного кейса. Представьте себя аналитиком, который занимается геокодированием. Как вы бы подошли к поиску координат исторических локаций? Какие источники и методы проверки могли бы обосновать и повысить надежность географической привязки? Как можно валидировать такие данные?

Порассуждайте, как подобный подход — сопоставление пространственных данных и характеристик объектов — можно перенести на коллекции других собирателей и музеев? Если вы видите архитектурное решение для такой задачи, опишите его. Какие исследовательские возможности это открывает для анализа социальных процессов? С какими ограничениями и трудностями можно столкнуться как на уровне данных, так и на уровне интерпретации?




Четвертое задание
от команды лаборатории «Искусство и искусственный интеллект»

Во время археологических раскопок и при включение находок в коллекцию или в архив исследователи проводят фотографическую фиксацию находки (in situ и в лаборатории), при этом в кадре присутствует масштабная линейка для определения истинного размера предмета. Вам могут встретиться самые разнообразные типы линеек: классическая чёрно-белая линейка с сантиметровыми и миллиметровыми делениями, цветная линейка (например, красно-белая), линейки с подписанными цифрами или буквенным кодом раскопа и не только. Для понимания природы данных изучите правила съемки подобных предметов и кратко опишите существуют ли различия в правилах съемки для разных типов предметов в разных странах? Какие общие конвенции существуют?

Изображения археологических находок, как правило, включают в себя объект измерения (в одной или нескольких проекциях), масштаб (линейку, шкалу, подпись масштаба), а также могут содержать дополнительную мета-информацию (подписи, разделители проекций и т.д.). Для знакомства с примерами подобных изображений рассмотрите данные проекта Similis и онлайн-коллекций Британского музея).

В эссе вам необходимо предложить подход к автоматическому определению физических размеров объекта по фотографии и описать возможные этапы и особенности подобной работы. Вы можете рассмотреть как простые эвристики, так и классические методы компьютерного зрения, а также нейросетевые подходы. Обратите внимание, что линейка может быть расположена под углом, масштаб может быть виден полностью или частично, а объект может иметь сложную форму. Какие еще особенности и ограничения данных необходимо учитывать для решения задачи?

Опишите несколько возможных решений по детекции размеров для ситуаций, когда линейка полностью попала в кадр, используются разные типы линеек (в том числе физических), линейка попала в кадр только частично или закрыта объектом, масштаб отличается между изображениями. Уточните, всегда ли можно восстановить масштаб в случае частичного попадания линейки в кадр и как оценивать надежность результата в таком случае?

Предположите, будет ли возникать погрешность при автоматическом определении размера и как это определить? Какие границы применимости существуют у такого решения? Оцените устойчивость предложенного решения к возможным обновлениям данных (новым типам объектов, линеек, масштабов). Какие важные результаты поможет получить создание решения по автоматизации определения размеров археологических находок?


Пятое задание
от команды «Центра институционального анализа науки и образования (ЦИАНО»

Каждое лето университеты России конкурируют друг с другом за талантливых и успешных абитуриентов. Личные выборы будущих студентов и усилия организаций высшего образования запускают множество социальных процессов, — например, массивную образовательную миграцию, — которые десятилетиями находятся в фокусе внимания исследователей.
В этом задании мы предлагаем взглянуть на образовательный выбор на уровне отдельных вузов. При поступлении в конкретную образовательную организацию абитуриент может принять участие в конкурсе на разные программы, и проранжировать их в соответствии со своими приоритетами. Взятые вместе, выборы отдельных абитуриентов можно представить в виде графа программ.

На рисунке мы показываем пример такой структуры предпочтений: для очных программ бакалавриата в Тюменском государственном институте культуры, осуществляемых на бюджетной основе. Каждый узел является образовательной программой, реализуемой в организации; наличие связи означает наличие существенного числа абитуриентов, которые подали документы для поступления на обе программы; направление — какую из программ абитуриенты ставят в своих предпочтениях выше («отправителей связей» выбирает более 60% общих абитуриентов; если связи взаимные, то ни одна из программ не получает 60% предпочтений). Так, «менеджмент социально-культурной деятельности» в этой организации предпочитают «руководству любительским театром», «театрализованным представлениям и праздникам» и «педагогике народно-сценического танца»). При этом в больших вузах отношения между программами, построенные по аналогичным принципам, могут формировать более сложную структуру. Вот еще два примера.

В рамках эссе мы предлагаем порассуждать о том, какие характеристики организаций могут влиять на возникающие структуры отношений между программами. Для лучшего понимания данных найдите несколько примеров того, как на сайтах российских вузов представлены списки поступающих (и см. отобранные нами случаи: МГУ им. Ломоносова, СПбГЭУ, ПСПбГМУ им. Павлова, ЕУСПб). Опишите, как вы искали эти примеры (по какому принципу вы отобрали эти вузы?) и структуру представленных данных. Может ли быть унифицирован алгоритм поиска списков для нескольких ВУЗов? Какие сведения об абитуриентах появляются у всех университетов, а какие лишь у некоторых? С какими проблемами столкнется команда, решившая собрать большой массив аналогичных данных?
Ознакомьтесь с данными Мониторинга Высшего Образования. В интерактивном виде данные представлены на дашборде, подготовленном сотрудницей ЦИАНО Дашей Геращенко (см. также выгрузку данных и документацию, подготовленные Катериной Губой (ЦИАНО) и Русланом Кучаковым (ИПП) для публикации в Вопросах образования). Опираясь на переменные, представленные в этой базе данных, предложите, как бы вы отвечали на следующие вопросы:

  • Есть много способов классифицировать вузы (государственные vs. негосударственные; по направлениям подготовки; по статусу: НИУ, федеральные, опорные…). В зависимости от того, какую группу вузов мы будем рассматривать, будут изменяться наши гипотезы об устройстве выбора программ абитуриентами. Предположим, нас интересуют университеты, в которых активно развивается научно-исследовательская работа. Как нам обнаружить такие вузы с помощью Мониторинга?
  • В одних вузах общие абитуриенты программ по экономике и социологии чаще предпочитают экономику, в других — социологию. Какие характеристики вузов из Мониторинга, на ваш взгляд, могут объяснять эти склонности?
  • Для каждого вуза сеть его образовательных программ, отражающая предпочтения абитуриентов, может выглядеть как А) набор слабо связанных узлов-программ (большинство программ — изолированные точки), Б) сеть с несколькими крупными кластерами, В) сеть, где все или почти все программы связаны в один кластер. Как вам кажется, какие характеристики вузов из Мониторинга могут хорошо предсказывать структуру сети?




Шестое задание
от команды ПАНДАНа

В 2000-е годы в мире началась эпоха открытых данных. Она стимулировала развитие исследовательской кооперации, интеграцию разных типов информации и во многом подготовила почву для нынешнего развития технологий искусственного интеллекта. Открытые данные предоставляют доступ к первичным, фактическим показателям — именно на них могут опираться большие языковые модели, чтобы снизить риск галлюцинаций и уменьшить зависимость от вторичных, часто неполных источников. 
Одним из значимых событий в развитии открытых данных в России стало открытие портала data.gov.ru в 2014 году. В 2025 году портал был перезапущен с обновленной архитектурой и расширенным набором данных. 

В этом задании мы предлагаем вам поработать на мета-уровне — попробовать осмыслить и сконструировать прототип датасета о датасетах. Как вы, наверное, знаете, открытые данные не всегда являются удобными или полезными. Они могут быть неполными, слишком агрегированными (то есть недостаточно детализированными на малом масштабе) или плохо документированными. Предположите, на какие свойства данных также необходимо обратить внимание для оценки их качества?  Как вы думаете, какие виды «неполезности» данных вы считаете самыми критичными для исследователя и почему?  

В рамках этого задания вам предстоит найти среди множества датасетов на портале те, которые представляют особую ценность для исследователей, и оценить потенциальную «полезность» каждого. Конечно же, эту задачу можно решить разными способами. Мы предлагаем взять за основу подход, напоминающий ручную регрессионную модель: выделить несколько параметров, оценить каждый датасет по этим параметрам и вывести итоговую оценку с помощью единой формулы — по аналогии с тем, как судьи оценивают прыжки с трамплина.  Подумайте: какие преимущества и недостатки есть у такой системы оценки в целом? 

Выберите несколько датасетов и изучите их описания на портале data.gov.ru. Какие переменные (параметры, столбцы) вы предложили бы включить в мета-датасет? Некоторые характеристики напрашиваются сами собой: количество строк и столбцов, размер файла, наличие документации. Эти показатели могут лечь в основу формулы для оценки качества датасета. Попробуйте предложить свою модель оценивания и применить её к нескольким датасетам. Какие параметры датасета невозможно оценить по описанию на портале без загрузки самих данных? Приведите пример.  Вы можете использовать автоматизацию, программирование, большие языковые модели (LLM), а также вольны предлагать любые подходы к оценке. Как вы будете действовать в ситуации, когда датасет получает высокие оценки по одним параметрам (например, огромный размер) и низкие по другим (нет документации)? 

Попробуйте предложить свою модель оценивания и применить её к нескольким датасетам. Вы можете использовать автоматизацию, программирование, большие языковые модели, а также вольны предлагать любые подходы к оценке. 

Подумайте о том, можно ли доверять мета-датасету, созданному с помощью LLM? Как проверить, что ваша формула не дискриминирует определённые типы данных (например, региональные vs федеральные)? Может ли ранжирование датасетов по «полезности» привести к тому, что менее популярные (но важные для узких исследований) датасеты будут игнорироваться? Как этого избежать? Кто должен определять, что такое «хороший» датасет? 

В завершение представьте, что ваш мета-датасет и предложенная формула были бы внедрены на портале с открытыми данными. Какие изменения в поведении пользователей портала вы бы ожидали?

КОНТАКТЫ ПРИЕМНОЙ КОМИССИИ
Адрес: ул. Шпалерная, дом 2/4, литера А

E-mail: admissions.pandan@eu.spb.ru, pandan.eu@yandex.ru.
Присоединяйтесь к нам социальных сетях: