#ПАНДАН_на_завтрак_23
Шесть интерактивных заданий для поступления на программу
«Прикладной анализ данных» (ПАНДАН)
Европейского университета совместно с Яндекс
Задания для поступления на ПАНДАН в 2024 году начнут публиковаться на этом сайте в мае еженедельно. Все шесть заданий будут опубликованы до начала приема документов 20 июня. Ниже представлены задания 2023 года.
Выберете два задания из шести и по каждому напишите эссе на русском языке в объеме от 5 000 до 10 000 знаков (включая знаки препинания, цифры и пробелы)
Первое задание
от команды прикладного центра «МАСТ» ЕУСПб

В 2003 году ЮНЕСКО приняла Хартию о сохранении цифрового наследия, подчеркнув, что цифровые данные, имеющие непреходящую ценность, следует сохранить для будущих поколений. В Хартии упоминается, что цифровое наследие включает в себя тексты, базы данных, неподвижные и движущиеся изображения, аудио, графику, программное обеспечение и веб-страницы, а также широкий и растущий спектр форматов. Сейчас, двадцать лет спустя, с увеличением объемов накопленных данных в интернете и за его пределами вопрос сохранения и изучения этого наследия особенно актуален.

Мы предлагаем вам познакомиться с таким форматом как сайты, созданные на сервисе бесплатного хостинга Яндекс.Народ (также известного как narod.ru). Эти сайты являются примером цифрового наследия. Созданные в 2000 – 2013 годах, они хранят характерные особенности дизайна и структуры, которые уже не используются при создании современных страниц на других сервисах и в социальных сетях. "Народные" сайты могут содержать такие уникальные артефакты как авторские художественные тексты, изображения, видео, музыку и многое другое, а также документировать некоторые социально-культурные особенности рунета начала нулевых.

В этом задании мы хотим предложить вам представить какое исследование можно было бы провести на таких данных, и с какими вызовами пришлось бы столкнуться. На платформе с 2000 года было создано несколько миллионов сайтов. Вот некоторые из них (1, 2, 3, 4, 5).

Вам необходимо выбрать определенную тематику страниц для исследования. Это могут быть личные дневники пользователей, сайты художников и писателей, фанатские страницы, посвященные музыкальным группам, обучающие сайты, страницы различных организаций – школ, музеев, клубов по интересам и так далее. Придумайте любую тему, которая отвечает вашим исследовательским интересам. Предложите способы, с помощью которых вы будете находить сайты выбранной вами тематики среди миллионов страниц, созданных на narod.ru.

Какие исследовательские вопросы можно было бы задать выбранным вами данным? Предложите гипотезы, которые эти данные могли бы подтвердить или опровергнуть. Ваше исследование может лежать в разных областях работы с цифровым наследием – вы можете подробнее рассмотреть вопрос сохранения данных, предложить антропологические вопросы к этим данным, проанализировать особенности текстов выбранного периода.

Результатом вашей работы должно стать эссе, содержащее предложения по поиску интересующих вас страниц, а также описание хода исследования на примере одного из поставленных вами вопросов. Если вам удастся собрать и проанализировать некоторые данные, вы также можете приложить сами данные и полученные результаты. Мы ожидаем, что в работе будут отражены критические подходы к изучению этого вида цифрового наследия.

Второе задание
от команды проекта «Компьютерное зрение в музее. Оцифровываем карты»
Один из возможных источников информации о прошлом – материалы, которыми люди делятся друг с другом в социальных сетях. Сообщества и группы ВКонтакте – это огромные архивы и коллекции тематических материалов, которые можно собирать и анализировать современными методами работы с большими данными.

Одной из таких групп является сообщество "Как тебя зовут". В нем более 500 000 участников и более 45 000 публикаций. На иллюстрациях показано, как может выглядеть база данных и собранные изображения.

Пользователи выкладывают фотографии и короткие комментарии к ним. Часто, указывается год, иногда – место съемки. В обсуждении под фотографиями разворачиваются крупные споры, пишутся целые эссе, у постоянных посетителей формируются свои традиции и привычки – сопоставление "было/стало", сравнение героев снимков с популярными актерами и тд.

Одновременно, у материалов группы есть свои ограничения – достаточно полно в ней представлены только 90е и начало 2000ых. Основная аудитория - люди 18-25 лет.

В своем эссе вы можете описать исследование с использованием различных методов, одним из которых может быть компьютерное зрение для анализа фотографий. С помощью компьютерного зрения возможно детектировать людей, животных или какие-либо объекты, сегментировать изображения на отдельные фрагменты по каким-либо признакам, а также использовать нейросети как для детекции, так и для генерации чего-либо.

При написании эссе вы можете опираться на следующие вопросы:
  • Какой датасет вы бы сформировали из данных в группе?
  • Какие количественные вопросы к нему могли бы быть заданы?
  • На какие качественные вопросы мы могли бы ответить, используя эти метрики?
  • Какие дополнительные вопросы для исследования или размышления возникают от сопоставления фотографий и текстов?
  • Какими материалами из других групп в социальных сетях вы бы дополнили это исследование / свой датасет?
Третье задание
от команды проекта «PhytoLex»
Изменение экосистемы – Земли одна из наиболее важных проблем, стоящих перед человечеством. Чтобы предсказать, что нас ожидает в будущем, необходимо изучить процессы, начавшиеся в далеком прошлом. Этим занимаются антропологи, экологи и климатологи: они хотят понять, какое воздействие оказывали люди на климат и экологию Земли в течение нескольких тысяч лет. Ученые изучают археологические артефакты, образцы льда и отложений со дна водоемов – всё то, что помогает получить сведения о видовом разнообразии растений и факторах, влияющих на исчезновение и появление новых видов.

С XVI века важнейшими «сводками по мировой флоре» становятся гербарии, а также описания растительности отдельных регионов. Например, если вы занимаетесь изменением флоры Санкт-Петербурга и Ленинградской области, начиная с XVIII века, то вам могут пригодиться печатные материалы (например, такие и такие) и гербарии, размещенные на сайте Гербария БИН РАН и Национального банка-депозитария живых систем.

В своем эссе проанализируйте исторический материал по флоре Санкт-Петербурга и Ленинградской области с точки зрения его доступности и удобства работы. Какие современные компьютерные технологии могут прийти на помощь?

Подумайте, какие еще ресурсы можно использовать, чтобы описать изменение региональной флоры с XVIII века до наших дней? Предположите, на какие еще исследовательские вопросы могли бы ответить эти данные.

В каком виде лучше представить результаты исследования?
Для кого может быть полезна эта информация?
Четвертое задание
от команды центра «Прожито»
Центр изучения эго-документов «Прожито» работает с широким кругом рукописных и печатных «эго-документов», занимается их расшифровкой, аннотацией, категоризацией, а также электронным хранением. На данный момент центр работает над цифровой площадкой для публикации документов из домашних архивов. От сотен кураторов домашних архивов к нам поступают очень разнородные документы: дневники, письма, фотографии, детские рисунки, конспекты, черновики писем, аудиозаписи в разных форматах и на разных носителях и многое другое.

Содержание подобных собраний варьируется, примеры можно посмотреть здесь и здесь. Вполне очевидно, что базовое описание документа должно включать в себя датировку, персоны, локации, жанр, расписанное по нескольким параметрам описание физических и содержательных особенностей документа. Однако, кроме того, каждый рукописный документ должен быть снабжен текстовым слоем с разметкой.

Мы предлагаем вам подумать над тем, какие параметры в описании документа, элементы разметки текста и содержания изображений нужны для проведения исследований данных из базы "идеального" цифрового архива и корпуса текстов. Исследователям из каких областей науки могут быть интересны подобные материалы? Для какой аудитории кроме академических исследований могут быть востребованы размеченные подобным образом личные архивы? С какими трудностями в области хранения, обработки и популяризации данных может столкнуться институция, которая занимается сохранением подобных архивов?
Пятое задание
от команды проекта
«Владение организациями в Великобритании»

С 2016 года Регистрационная палата Великобритании ведёт открытый Реестр бенефициарных владельцев. В этот Реестр компании передают информацию обо всех бенефициарных владельцах, которые напрямую контролируют или оказывают существенное влияние на управление фирмами и организациями, зарегистрированными в Великобритании и подпадающими под установленные требования.

В данных Реестра содержится, помимо прочего, следующая информация:
  • ID компании,
  • название компании,
  • является ли владелец частным лицом или организацией,
  • ID владельца (если владелец - организация),
  • способ владения (доля в компании, право принимать решения о деятельности или иной способ),
  • доля владения (25–50%, 50–75%, 75% и более)

Этой информации достаточно, чтобы представить данные о владении в виде корпоративной сети, связывающей компании отношениями владения как это сделано на иллюстрации.

Идентификация наиболее влиятельных владельцев бизнеса в масштабах целой страны может представлять интерес для научного сообщества (например, экономистов или социологов), государственного сектора, а также журналистов и общественных активистов. Количественное измерение влиятельности возможно с использованием сведений, предоставляемых самими компаниями. Один из наиболее простых возможных способов такого измерения – подсчет количества компаний, в которых напрямую или опосредованно представлен тот или иной конечный владелец.

Каковы недостатки такого подхода? Какие иные методы количественного определения влиятельности на основе открытых данных (необязательно лишь тех, что предложены нами) компаний вы бы предложили? В чем преимущества и ограничения предложенных вами методов?

В качестве дополнения, предлагаем вам также включить в свое эссе анализ следующего кейса. Всемирно известная компания Rolls-Royce Motor Cars Ltd , производитель элитных автомобилей и авиационных двигателей, формально является коммерческой организацией в форме акционерного общества. Как правило, влияние владельцев компании на принятие решений определяется размером принадлежащих/подконтрольных им акцией, долей в уставном капитале. В случае с рассматриваемой компанией это не так. Какие возможные причины подобного вы можете описать как вероятные?


Шестое задание
от команды Лаборатории проблем компьютерной безопасности СПб ФИЦ РАН


Мы живем в мире, где сложность изменения цифровых фотографий неумолимо снижается и все чаще достигается за счет применения методов искусственного интеллекта. При этом даже экспертам становится все сложнее отличить измененные фотографии от оригиналов, а многочисленные исследования показывают, что уровень доверия к ним от простых пользователей даже выше, чем к оригинальным изображениям.

Отметим, что в основном изменение фотографий происходит в безобидных, развлекательных или творческих целях, а также активно используется для создания сериалов и рекламным роликов. Тем не менее, данные технологии используются и для сомнительных целей – шантажа, репутационного ущерба, подделки доказательств в суде, и т.д.

Мы предлагаем вам подумать над тем, какие инструменты могли бы помочь нам отличить измененные цифровые фотографии от оригинальных. При этом сужаем весь спектр возможных задач в этой области до задачи обнаружения добавления и/или удаления предметов с цифровых фотографий. Примеры наборов данных, содержащих изображения до и после преобразований могут быть найдены по ссылкам 1, 2, 3 и 4.

При написании эссе вы можете опираться на следующие вопросы:
  • Какие признаки цифровых изображений позволяют обнаружить добавление и/или удаление объектов на фотографиях?
  • Какие из этих признаков перестанут быть актуальны по мере развития методов искусственного интеллекта, а какие нет? Почему?
  • Как выиграть в гонке, когда методы изменения изображений могут обучаться у методов обнаружения и наоборот?
КОНТАКТЫ ПРИЕМНОЙ КОМИССИИ
Адрес: Гагаринская ул., д.6/1, литер, А (вход со Шпалерной, дом 1); кабинет 308
Время работы приемной комиссии: пн.-пт. с 11:00 до 17:00
Телефон: +7 812 539−25−81 (после звонка набрать добавочный #308)
E-mail: admissions.pandan@eu.spb.ru, pandan.eu@yandex.ru.