#ПАНДАН_на_завтрак_24
Шесть интерактивных заданий для поступления на программу
«Прикладной анализ данных» (ПАНДАН)
Европейского университета совместно с Яндекс
Выберите два задания из шести и по каждому напишите эссе на русском языке в объеме от 5 000 до 10 000 знаков (включая знаки препинания, цифры и пробелы)
Первое задание
от команды кружка NLP P.S.

В цифровизированных обществах распространение информации происходит через интернет-платформы. По данным отчета DataReportal, на начало 2024 года 90% населения России (130,4 млн. человек), являются пользователями интернета, а пользователями социальных сетей от общего числа населения – 73,5% (106,0 млн. человек).

Самыми популярными интернет -платформами в России на начало 2024 года стали: WhatsApp, Telegram, VK, TikTok, Одноклассники, Viber, Instagram, Pinterest, Skype и Discord.

DataReportal каждый год делает отчет об использовании интернета по всему миру. Мы предлагаем вам познакомиться с примером представления интернет статистики. В чем заключается проблема презентации таких данных? Существует ли она? Что бы вы добавили в этот отчет?

Опишите, как бы вы собирали данные для подобного исследования.

Как бы вы вписали в процесс сбора и анализа методы обработки естественного языка (Natural Language Processing)?

Выберите два вопроса из списка ниже и ответьте на них:
  • Какие средства и форматы вы бы могли использовать для их сбора?
  • С какими сложностями вам бы пришлось столкнуться при сборе и обработке этих данных?
  • Вы бы собирали данные самостоятельно или комбинировали их с готовыми наборами данных? Если комбинировали, то что это были бы за данные? Зачем использовать именно их?


Источник: https://infomesh.org/webdictionary
Второе задание
от команды программы ПАНДАН по мотивам воркшопа «Листопад датасетов»
Поисковый отряд «ЛизаАлерт» уже почти 14 лет проводит широкомасштабные операции по поиску пропавших без вести людей по всей России с привлечением сотен опытных добровольцев, средств массовой информации и интернет-сообществ, кинологов, конников, операторов БПЛА, картографов, связистов и просто неравнодушных людей без специальных и поисковых навыков.

Только за март 2024 года в отряд поступило 3332 заявки на поиск пропавших людей. Из них уже найдены живыми 2251.

Одним из средств координации добровольцев является форум поискового отряда, на котором активисты размещают информацию обо всех пропавших без вести, в поисках которых отряд принимает участие, и их статусе (например, "пропал", "найден", "жив").

Количественное и качественное исследование статистики работы отряда может помочь выявить скрытые закономерности и связи, которые позволят повысить эффективность поисковых операции и более прицельно формировать рекомендации по предотвращению пропаж.

  • Какие данные вы бы предложили собрать с форума отряда (и из любых других источников) для подобного исследования?
  • Какие количественные характеристики следовало бы рассчитать на полученной выборке?
  • Какие средства визуализации использовать?
  • Какие исследовательские вопросы, вы считаете, нужно задать? Сформулируйте гипотезы, которые собранные данные могли бы подтвердить или опровергнуть.
  • В каком виде лучше представить результаты такого исследования
  • Какие современные технологии из области искусственного интеллекта вы могли бы предложить для повышения эффективности работы отряда по результатам проведенного исследования?


Третье задание
от команды прикладного центра Прожито

В Центр изучения эго-документов «Прожито» приносят разные документы из семейных архивов — в основном, это дневники, воспоминания и письма. На каждого автора архивисты Центра заводят карточку персоны с базовыми данными: имя, даты жизни, пол. Но наиболее проблематичным является поле с биографией, потому что владельцы архивов часто не снабжают информацией об авторах или она очень скудная. Сейчас архивистам приходится тратить много времени на чтение этих документов, чтобы составить небольшую биографическую справку об их авторах.

В эссе мы предлагаем вам порассуждать, возможно ли автоматизировать извлечение биографических данных из эго-документов? Известны ли вам какие-либо проекты по извлечению структурированной информации из текстов? Могут ли они быть пригодными для эго-документов?

На примерах трёх дневников (раз, два и три) предложите, какие биографические сведения об авторах можно извлечь из них? Какие маркеры помогут их определить? Возможно ли собрать аналогичные биографические данные о лицах, упоминаемых в этих дневниках? Какие могут быть ограничения? Как из разрозненных сведений о персонах можно составить цельную биографическую справку?




Четвертое задание
от команды прикладного центра МАСТ
Технологическое искусство в России – это сфера, история которой просматривается сквозь призму прошедших событий. В связи с отсутствием обучающей литературы по истории технологического искусства в нашей стране, база данных МИР является тем информационным ресурсом, благодаря которому осуществляется возможность сохранения, популяризации и исследования техно-художественных и художественно-научных экспериментов.

Предлагаем вам изучить сайт открытой базы данных междисциплинарного искусства в России, перейдя по ссылке выше. Кроме этого, в прилагаемом Excel-документе вы сможете познакомиться с тем, как хранятся описываемые на сайте сущности в табличном виде. Чтобы лучше сориентироваться в предлагаемой структуре данных, перед началом написания эссе или же в нём самом ответьте на несколько вопросов, пользуясь предложенными материалами:

  • обращаясь к выборке (из всей базы данных предложен срез из 16 событий со связанными с ними сущностями), сравните количество участников в родительском и дочернем событиях, а также группы, участвующие в этих событиях, если таковые имеются;
  • выпишите названия произведений, которые встречаются в этих двух событиях. По каким ключевым словам можно будет найти эти произведения? По каким ключевым словам можно найти событие, в котором больше всего, и событие, в котором меньше всего (не ноль) произведений? (*на сайте не реализована функция поиска произведений, только событий)
  • выпишите авторов произведений, которые были 'музыкантами /исполнителями' в составе группы концерта, проходившего в Петрозаводске.
Познакомившись с данными, проанализируйте и опишите в эссе, для каких исследовательских вопросов могут быть использованы материалы базы в том виде, который есть сейчас? Какие статистические данные было бы важно видеть в первую очередь на сайте исследователю или человеку, заинтересованному в данной сфере?

Опишите, что было бы интересно узнать лично вам касательно данной базы? Есть ли сейчас возможность реализации ваших запросов через нынешнюю БД, через нынешний интерфейс? Чего не хватает для реализации интересующих запросов? Проанализируйте и распишите, какую аналитику вы выстроили бы, работая с базой по желаемым запросам к ней.
Пятое задание
от команды проекта Компьютерное зрение в Гараже
Второй год на ПАНДАНе студенты собирают конструкцию и пишут для нее код, которые позволили бы сканировать крупноформатные плоские объекты.

В первой итерации мы работали с картами в музее Козлова, в этом году с афишами в Архиве Музея современного искусства «Гараж» (концепцию архива можно найти по ссылке).

Кроме самой по себе разработки сканера мы задались вопросом — как сканирование крупноформатных плоских предметов устроено уже сейчас. И зачем вообще нам нужны такие цифровые материалы. Предлагаем вам тоже поразмышлять над этим вопросом и поискать информацию.
  • Для каких исследований или прикладных задач могут быть полезными крупноформатные мегапиксельные сканы? Мы считаем крупноформатным сканированием все размером больше А3.
  • Как оцифровка крупноформатных плоских объектов отличается в России и за ее пределами?
  • Чем сканирование плоских предметов отличается от их фотографирования? (особенно в плане полученной информации и дальнейшей работы с ней).
  • Какие крупноформатные плоские объекты музеи уже оцифровывают? Какие чаще всего? Карты и афиши мы уже назвали, а что вы найдете еще?
  • Какие крупноформатные плоские объекты практически не сканируют? Например, нам не удалось найти ковры.
  • Какие проблемы есть у уже полученных сканов? Заломы, перспектива — проанализируйте то, что удастся найти.

Для поиска ответов можно использовать Госкаталог, Сеть архивов российского искусства (RAAN) или другие ресурсы.
    Шестое задание
    от команды проекта Narod и цифровое наследие
    В прошедшем учебном году команда студентов ПАНДАНа занималась исследованием наследия сайтов, созданных на хостинге Narod.ru (Яндекс.Народ). Более десяти лет этот хостинг позволял пользователям рунета создавать бесплатные сайты любой тематики. С 2000 по 2013 год был создано несколько миллионов страниц, среди которых были личные дневники, галереи, сайты школ, фан-клубы, портфолио и многое другое. Эти данные представляют ценность для исследователей рунета как предмет цифрового наследия.

    Согласно Хартии о сохранении цифрового наследия, опубликованной ЮНЕСКО в 2003 году, цифровое наследие может включать в себя как тексты, базы данных и веб-страницы, так и неподвижные и движущиеся изображения и графику, а также широкий и растущий спектр форматов. Именно изучению изображения как объекта цифрового наследия и посвящено данное задание.

    На сайтах хостинга Narod.ru хранится множество изображений и метаданных к ним, записанных по стандарту EXIF. Изучите метаданные изображений, собранных с сайтов хостинга Narod.ru. О чем могут рассказать метаданные? Какие исследовательские вопросы можно к ним задать? Могут ли метаданные изображений помочь в определении даты создания и ключевых дат развития сайта? Предположите, могут ли данные быть искажены?

    Предположите, на какие еще вопросы могут ответить изображения сайтов “старого интернета”? В качестве примера, вы можете рассмотреть сайт, на котором в том числе представлены работы художника Сируэло Кабрала (Ciruelo Cabral), одни из самых популярных изображений драконов в интернете в начале 2000-х. Еще одним примером может стать сайт питомника кошек или сайт, посвященный редкой породе французских овчарок.

    Результатом вашей работы должно стать эссе, содержащее предложения по аналитике предложенных нами данных, а также описание хода исследования на примере одного из поставленных вами исследовательских вопросов. Вы также можете использовать любые интересующие вас страницы, созданные на хостинге Narod.ru. Если вам удастся собрать и проанализировать некоторые данные, вы также можете приложить сами данные и полученные результаты. Мы ожидаем, что в работе будут отражены критические подходы к изучению изображения в интернете как вида цифрового наследия.


    худ. Ciruelo Cabral “White guardian”
    источник: https://dragonet.narod.ru/
    КОНТАКТЫ ПРИЕМНОЙ КОМИССИИ
    Адрес: наб. Кутузова, д.22, каб. 28

    E-mail: admissions.pandan@eu.spb.ru, pandan.eu@yandex.ru.
    Присоединяйтесь к нам социальных сетях: