Шестое заданиеот команды ПАНДАНаВ 2000-е годы в мире началась эпоха открытых данных. Она стимулировала развитие исследовательской кооперации, интеграцию разных типов информации и во многом подготовила почву для нынешнего развития технологий искусственного интеллекта. Открытые данные предоставляют доступ к первичным, фактическим показателям — именно на них могут опираться большие языковые модели, чтобы снизить риск галлюцинаций и уменьшить зависимость от вторичных, часто неполных источников.
Одним из значимых событий в развитии открытых данных в России стало
открытие портала
data.gov.ru в 2014 году. В 2025 году портал был
перезапущен с обновленной архитектурой и расширенным набором данных.
В этом задании мы предлагаем вам поработать на мета-уровне — попробовать осмыслить и сконструировать прототип датасета о датасетах. Как вы, наверное, знаете, открытые данные не всегда являются удобными или полезными. Они могут быть неполными, слишком агрегированными (то есть недостаточно детализированными на малом масштабе) или плохо документированными. Предположите, на какие свойства данных также необходимо обратить внимание для оценки их качества? Как вы думаете, какие виды «неполезности» данных вы считаете самыми критичными для исследователя и почему?
В рамках этого задания вам предстоит найти среди множества датасетов на портале те, которые представляют особую ценность для исследователей, и оценить потенциальную «полезность» каждого. Конечно же, эту задачу можно решить разными способами. Мы предлагаем взять за основу подход, напоминающий ручную регрессионную модель: выделить несколько параметров, оценить каждый датасет по этим параметрам и вывести итоговую оценку с помощью единой формулы — по аналогии с тем, как судьи оценивают прыжки с трамплина. Подумайте: какие преимущества и недостатки есть у такой системы оценки в целом?
Выберите несколько датасетов и изучите их описания на портале
data.gov.ru. Какие переменные (параметры, столбцы) вы предложили бы включить в мета-датасет? Некоторые характеристики напрашиваются сами собой: количество строк и столбцов, размер файла, наличие документации. Эти показатели могут лечь в основу формулы для оценки качества датасета. Попробуйте предложить свою модель оценивания и применить её к нескольким датасетам. Какие параметры датасета невозможно оценить по описанию на портале без загрузки самих данных? Приведите пример. Вы можете использовать автоматизацию, программирование, большие языковые модели (LLM), а также вольны предлагать любые подходы к оценке. Как вы будете действовать в ситуации, когда датасет получает высокие оценки по одним параметрам (например, огромный размер) и низкие по другим (нет документации)?
Попробуйте предложить свою модель оценивания и применить её к нескольким датасетам. Вы можете использовать автоматизацию, программирование, большие языковые модели, а также вольны предлагать любые подходы к оценке.
Подумайте о том, можно ли доверять мета-датасету, созданному с помощью LLM? Как проверить, что ваша формула не дискриминирует определённые типы данных (например, региональные vs федеральные)? Может ли ранжирование датасетов по «полезности» привести к тому, что менее популярные (но важные для узких исследований) датасеты будут игнорироваться? Как этого избежать? Кто должен определять, что такое «хороший» датасет?
В завершение представьте, что ваш мета-датасет и предложенная формула были бы внедрены на портале с открытыми данными. Какие изменения в поведении пользователей портала вы бы ожидали?