#ПАНДАН_на_завтрак_25
Шесть интерактивных заданий для поступления на программу магистратуры «Прикладной анализ данных и искусственный интеллект» и программу ДПО Европейского университета и Яндекса
Выберите два задания из шести для поступления в магистратуру и одно для поступления на программу ДПО и по каждому напишите эссе на русском языке в объеме от 5 000 до 10 000 знаков (включая знаки препинания, цифры и пробелы)
Первое задание
от команды центра «Прожито»

Зачем люди ведут личные дневники? По мнению большинства, это помогает выразить мысли и чувства, понять себя, сохранить воспоминания и справиться с переживаниями. Такие представления о дневнике крепко укоренились в культуре, и проверить истинность этого убеждения без анализа большого количества дневниковых текстов долгое время не представлялось возможным из-за отсутствия нужного объема данных. Сегодня такие исследования можно провести на данных корпуса дневников «Прожито», в котором хранится 660 тысяч дневниковых записей от 2900 авторов.

В эссе мы не предлагаем размышлять о мотивах ведения дневников, а просим подумать о возможностях их выявления с помощью современных инструментов обработки естественного языка.  Для этого возьмите любые дневниковые записи из корпуса «Прожито»  (например, такие, такие или такие) и попробуйте провести ряд экспериментов по выявлению мотивов авторов с помощью больших языковых моделей (например, ChatGPT, DeepSeek, Hugging Face или любые другие). Каковы преимущества и недостатки использования больших языковых моделей для извлечения информации, почему автор ведёт дневник? Как вы выбирали языковую модель? Как можно проверить результаты работы больших языковых моделей? Какие еще инструменты кроме больших языковых моделей можно использовать для выполнения поставленной задачи?

Также подумайте о методах дальнейшего анализа полученных вами мотивов ведения дневника. Ответы больших языковых моделей не всегда бывают одинаковыми, поэтому предположите, как полученную от моделей информацию можно разделить на группы? Какие признаки, связанные с авторами, могут влиять на мотивы ведения дневниковых записей? Какие возможны ограничения при анализе со стороны имеющихся данных?

Мы ожидаем, что написанное вами эссе может содержать примеры промтов и ответов LLM, однако просим вынести их в приложения. Основой эссе должны стать ваши рассуждения и описание проведенных экспериментов, текст также должен быть подкреплен источниками и дополнительными примерами.

из цифрового архива "Прожито"

Второе задание
от команды проекта "Narod и цифровое наследие"

Уже второй год на ПАНДАНе развивается проект по изучению сайтов, созданных в 2000-2013 годах на хостинге Narod.ru (Яндекс Народ). Эти сайты - артефакты цифрового наследия, которые нуждаются в сохранении, так как многое могут рассказать о технологиях, людях и сложившихся тогда практиках.

В рамках этого задания мы предлагаем вам представить себя в роли исследователей, которые на материалах "народных" сайтов хотят узнать, как изменились практики образовательного альтруизма и peer-to-peer обучения в интернете. В эту область могут включаться инструкции, написанные пользователями для пользователей, уроки и гайдлайны, форумы с обсуждениями как сделать, пройти или, например, починить что-то, а также сообщества по обучению и изготовлению разных цифровых артефактов - аватарок, баннеров, гифок, игр и многое другое. В качестве примера, вы можете рассмотреть эту подборку сайтов. Какие еще форматы и источники было бы полезно изучить в рамках подобного исследования? Можно ли сохранить исследуемые нами практики с современными аналогами? Какой смысл был для людей в том, чтобы создавать такие сайты и пользоваться ими?

Предположите, как из более чем миллиона сайтов можно отыскать те, которые соответствуют тематике исследования? Какие инструменты вам могли бы пригодиться? Какие преимущества и ограничения существуют у этих инструментов? Как бы вы валидировали полученные таким образом результаты? Что еще можно было бы узнать из этих данных, проведя количественное исследования и какими качественными методами вы могли бы обогатить его?

Результатом вашей работы должно стать эссе, содержащее предложения по сбору данных по предложенной нами тематике, ответы на вопросы, описанные выше, а также описание хода исследования на примере одного из поставленных вами исследовательских вопросов. Вы также можете использовать любые интересующие вас страницы, созданные на хостинге Narod.ru. Если вам удастся собрать и проанализировать некоторые данные, вы также можете приложить сами данные и полученные результаты. Мы ожидаем, что в работе будут отражены критические подходы к изучению сайтов как вида цифрового наследия.
Третье задание
от команды «Если быть точным»

«Если быть точным» – это платформа с открытыми данными и исследованиями по социальным проблемам в регионах России. Команда проекта делает данные о социальных проблемах доступными и помогает понять, что они значат: публикует исследования, собирает, очищает и выкладывает датасеты, проводит образовательные мероприятия.

Когда судьи принимают решение, считать ли человека виновным и какое наказание ему назначить, они опираются на множество факторов. Часть из них прописаны в законе — например, наличие отягчающих и смягчающих обстоятельств, тяжесть деяния, рецидив.
Но про некоторые факторы в законе ничего не сказано. Например, этническая принадлежность подсудимого не должна влиять на назначение наказания. Однако целый пласт исследований показывает, что чернокожие американцы при прочих равных получают большие сроки, чем остальные.

Такие факторы называют экстралегальными, и хотя они не должны учитываться при вынесении решения, исследования по всему миру показывают, что неформально судьи их учитывают.

В рамках этого задания мы предлагаем вам поработать с сэмплом из 100 реальных судебных приговоров по делам об убийствах (статья 105 УК РФ) (формат .xlsx – таблица с делами и не полными текстами решений, формат .csv – полные тексты решений). Они выбраны случайным образом из всех приговоров по статье.

Как вам кажется, какие экстралегальные факторы можно изучить, проанализировав тексты приговоров, — а какие не получится? Какие характеристики обвиняемого, жертвы, судьи, суда или обстоятельств дела можно было бы попытаться извлечь или реконструировать на основе текста приговора и его метаданных? Какие методы вы бы применили? Какие гипотезы попытались бы проверить? Какие ограничения могут быть у такого рода исследования?


Иллюстрация: нейросеть Midjourney

Четвертое задание
от команды Центра социальных исследований Севера (ЦЕСИС)

Центр социальных исследований Севера Европейского университета объединяет исследователей с социально-антропологическим бэкграундом и интересом к истории и современности населения российского Севера и Сибири. Деятельность сотрудников Центра включает исследовательскую работу с фокусом на полевые исследования, а также академическое преподавание и популяризацию научных знаний об этом регионе.

Важным инструментом в этом деле выступает графическое представление данных, в том числе средствами ГИС. Однако визуализация географической информации часто служит не только тому, чтобы проиллюстрировать уже известное – благодаря нанесению на карту могут стать заметны неочевидные тренды. Перед вами карта появления городов в Сибири и на Севереисточник данных) начиная со знаменитой точки отсчета в освоении русскими этих территорий - похода Ермака в Сибирь 1581-1585 годах. Города как образ жизни и как административный статус начали появляться за Уралом именно тогда.

Попробуйте, опираясь на эту карту, сделать выводы о волнах освоения Сибири и Севера. Также опишите в эссе какие источники и какие количественные методы могут помочь ответить на следующие вопросы:

  • Какие историко-географические кластеры точек вы видите?
  • Какие выводы вы можете сделать из данных о нынешнем размере городов в связи с их появлением в тот или иной период?
  • О каких социальных, экономических и инфраструктурных процессах свидетельствуют обнаруженные вами закономерности?
  • Посмотрите, пожалуйста, внимательно на карту Севера европейской части России, которая, как известно, была освоена и заселена раньше XVI века. Как Вы думаете почему она на карте выглядит именно так?
  • Какие данные, по вашему мнению, еще можно было бы привлечь для более детальных выводов о паттернах расселения?
  • Какие ограничения, натяжки и неточности видите в данных и как они связаны с происхождением данных?
Пятое задание
от команды компании JustAI

Компания Just AI, в которой, кстати, работают наши выпускники, разрабатывает инструменты для создания голосовых интерфейсов и чат-ботов, которые применяются в различных сферах: колл-центры, умные устройства, мобильные приложения и другие сервисы. Одним из продуктов компании является конструктор ботов Aimylogic. С его помощью любой пользователь может создать чат-бота и запустить его в работу в нужном канале (например, Telegram, ВКонтакте и др.) бесплатно или за небольшую плату, в зависимости от количества пользователей бота.

Однако такой открытый доступ может привести к недобросовестному использованию конструктора для нелегальной деятельности: продажи запрещённых товаров и услуг, распространения запрещённой информации и т.п. Обнаружение подозрительных ботов и их блокировка — сложная задача, требующая комплексного подхода.

Вам предлагается изучить данные по ссылке, которые компания хранит о пользователях и их ботах, и написать эссе, которое будет содержать ответы на вопросы.

  • Какие из имеющихся данных можно использовать для выявления нелегальной активности?
  • Какие дополнительные данные из приложения стоило бы добавить для более эффективного отслеживания подозрительной активности?
  • Какие методы обнаружения нелегальной активности можно применить? Рассмотрите ручные и автоматические методы, включая использование больших языковых моделей (LLM). Какие преимущества и недостатки у каждого из них? Какой метод потенциально самый эффективный и почему?
  • Как минимизировать риск ошибочных блокировок аккаунтов?
  • Какие этические вопросы возникают при автоматической модерации и блокировке пользователей? Как избежать дискриминации, предвзятости или несправедливых решений?
  • Какие существуют аналоги борьбы с нелегальной активностью в других сферах (например, в социальных сетях, на маркетплейсах, в банковской сфере)? Как эти подходы можно адаптировать для чат-ботов?



Шестое задание
от команды Центра технологий для общества Yandex Cloud и Библиотеки им. Н.А. Некрасова

Библиотеки являются важными хранилищами культурного наследия, собирая и сохраняя разнообразные данные: от каталогов книг и оцифрованных текстов до информации о выдаче книг и отзывах читателей. С развитием облачных технологий, включая технологии искусственного интеллекта (ИИ), эти данные открывают уникальные возможности для выстраивания новых продуктов на их базе и извлечения из них новых инсайтов, улучшения пользовательского опыта.

На примере Некрасовской библиотеки рассмотрите данные, которые эта библиотека уже сейчас публикует у себя на сайте или могла бы публиковать, и предложите, как их можно использовать в ИИ-проекте, направленном на улучшение работы библиотеки или построение новых сервисов на базе этих данных для профессионального комьюнити: историков, культурологов, социологов и тд.

Вам нужно ответить на следующие вопросы:
  • Какие данные доступны сейчас? Какие истории (инсайты) они могут рассказать?
  • Какие вопросы можно исследовать, применяя ИИ к этим данным?
  • Как ИИ может помочь в обработке и анализе этих данных?
  • Какие сложности могут возникнуть при работе с данными?
  • Кто сможет работать с этими данными? Будут ли это сервисы для читателей, библиотекарей или исследователей?
  • Какие перспективы масштабирования такого решения?
  • Как облачные технологии, такие как Yandex Cloud, могут быть использованы для хранения, обработки и анализа данных в вашем проекте?

Ваша работа должна быть представлена в виде эссе и включать:
  • Описание рассматриваемых данных.
  • Предложения по использованию данных в ИИ-проекте, включая описание, как облачные технологии могут поддержать этот проект.
  • Анализ того, как эти данные и ИИ-решение могут изменить опыт пользователей библиотеки (читателей, библиотекарей, исследователей).
  • Размышления о возможных проблемах с данными (например, их качество, доступность или актуальность) и других барьерах реализации предлагаемых проектов.
Если вы сможете собрать и проанализировать некоторые данные, приложите их и результаты анализа к эссе. Мы ожидаем, что ваше эссе покажет глубокое понимание данных как основы для цифровой трансформации библиотек и создания новых сервисов, направленных на решение актуальных вызовов, стоящих перед библиотеками.
КОНТАКТЫ ПРИЕМНОЙ КОМИССИИ
Адрес: ул. Шпалерная, дом 2/4, литера А

E-mail: admissions.pandan@eu.spb.ru, pandan.eu@yandex.ru.
Присоединяйтесь к нам социальных сетях: