Европейский университет в санкт-петербурге
Девять кругов АДа:
как преподавать анализ данных выпускникам
нетехнических специальностей
Всероссийская конференция
17 июня 2021
Аналитик, который совмещает экспертное понимание своей сферы и технические навыки работы с данными, востребован в самых разных областях современной науки. Особенно редким такой специалист оказывается в социогуманитарных исследованиях: слишком велика исторически сложившаяся институциональная и дисциплинарная пропасть между «физиками» и «лириками».

Развитие современных высокоуровневых языков программирования делает инструменты анализа данных более доступными для людей без специального технического образования.
В 2020 году Европейский университет совместно с Яндекс запустил программу «Прикладной анализ данных» в формате дополнительного профессионального образования (ДПО), а в 2021 году к ДПО добавилась магистратура.


Мы приглашаем коллег из смежных образовательных программ к обсуждению вызовов, стратегий и методологических наработок преподавания анализа данных для выпускников нетехнических специальностей.

Программа конференции
11:00 – 11:30
Вероника Костенко, руководители программы «Прикладной анализ данных» (ПАНДАН) Европейского университета совместно с Яндекс, декан факультета социологии ЕУСПб
11:30 – 12:00
Илья Мусабиров, заместитель руководителя бакалаврской программы ВШЭ по социологии (2018-2020)
12:00–12:15
Кофе-брейк
12:15 – 12:35
Эльвира Гизатуллина, Ксения Зиндер, независимые исследователи, выпускницы программы ПАНДАН
13:15 – 14:30
Обед
14:30 – 16:00
Круглый стол «Преподавание: методика обучения выпускников нетехнических специальностей»
16:00 – 16:15
Кофе-брейк
16:15 – 18.00
Круглый стол «Проекты: анализ данных в социогуманитарных исследованиях»
Подведение итогов конференции
ПАНДАН. Как это было
В 2020 году Европейский университет совместно с Яндекс запустил программу «Прикладной анализ данных» (ПАНДАН), рассчитанную на людей с гуманитарным образованием. Первый набор проходил только в формате годичного дополнительного профессионального образования, в этом году набор также ведется в магистратуру. Несмотря на то, что подобные программы прикладного программирования для специалистов нетехнических областей открывались в прошлом и особенно популярны сейчас, по-прежнему дискуссионными остаются вопросы методологии. На примере трудностей, с которыми столкнулся ПАНДАН, мы хотели бы обсудить возможные решения в преподавании и проектной деятельности.
Мотивация, ожидание и место в картине мира

Восприятие курса (subjective task values: utility, interest, importance, costs) и связь с остальными курсами. Интервенции и управление ожиданиями

  • Ожидания и цели (быть лучше в своём мейджоре vs be employable)
  • Наше позиционирование: учим для науки, учим для практики (в чем эта практика, учим потому что надо)
Что входит в data. Computational thinking in SocSci/Humanities
  • Как гравитация SocSci искажает содержание:
 — model/parametric vs model-free, deep vs not
— модельное мышление vs accuracy-based
— interpretable ML как один из аффордансов
— high bias tasks (cf Fragile Families): мы не маркетинг, мы хуже 

  • Как гравитация даты должна бы (но не) искажать содержание SocSci
 — computation/simulation-based statistics vs hiding parametrics till you can’t do it anymore and then say 'It's complicated': Computer-age statistical inference, Think Bayes, Openstats Intro
— эффект компьютера (можно спорить с преподом, нельзя спорить с компилятором) и как его использовать -- практикум для теории, модельное мышление, автоматизированный фидбэк и интеллектуальные тьюторы
— модельное мышление >> data-skills. модельное ≠ параметическое
— классы, кластеры и архетипы vs регрессии. counterfactuals
— экзотика: интеракции и диады, сложные модели, feedback loops emergence & complexity
Уроки из learning science
  • whole tasks, part-task practice, supporting and procedural information. scaffolding
  • абстракции и приложения
 — повторяющиеся таски и airflow/targets
— множественные отчеты/рассылки
— от моделей к решениям. роль дешбордов и подсветки в экселе
— интерфейсы и приложения
  • spaced repetition!
  • feedback
 — manual и рубрики
— automated и хинты
— интеллектуальные тьюторы
— irt & bkt & bayesian networks of skills
  • edtech and where to invest
  • мотивация и саморегуляция
  • specifications grading и планирование
Девять кругов ада: каково изучать анализ данных выпускникам нетехнических специальностей?
Студенты с гуманитарным бэкграундом, изучающие анализ данных, сталкиваются с широким набором сложностей. Важно, что это не только другой стартовый багаж знаний, иные устоявшиеся подходы к организации исследований и производству выводов, но и эмоциональная сторона вопроса, связанная с внутренней борьбой со стереотипами про разницу «физиков» и «лириков».
Выпускники первого набора ПАНДАНа предлагают взглянуть на процесс обучения на программе в 2020—2021 гг. их глазами: что именно воспринималось как сложное для понимания, а что вызывало фрустрацию, какие методические подходы и стратегии работали хорошо, а какие не давали нужного результата, в какие моменты преподавателям и выпускникам нетехнических специальностей было тяжело найти общий язык. Мы поделимся своими мыслями о том, какие на первый взгляд неочевидные моменты могут облегчить вход в новую специфическую сферу деятельности.
В основе доклада лежат результаты анализа официального чата студентов и преподавателей, внутреннего студенческого чата, опроса среди новоиспеченных выпускников, бесед с сокурсниками, а также рефлексия собственных ощущений в процессе обучения.
Подготовка врача-исследователя: между ангелом свободного поиска и бесом статистической методологии
Последние годы ознаменовались невиданным доселе кризисом воспроизводимости научных результатов. Среди причин данного феномена, помимо прямой фальсификации результатов и умышленной «накрутки» статистической значимости, важную роль играют различные неосознанные нарушения в методологии проведения исследований. Проспективные клинические испытания (ПКИ) в известной степени защищены от этой угрозы за счет применения специальных методов устранения систематических ошибок (рандомизация, заслепление и пр.). Однако, в силу дороговизны и бюрократических издержек, ПКИ покрывают лишь небольшую часть лечебных практик, уступая в общем объеме публикаций ретроспективному анализу, проводимому самими врачами.
На возросшие потребности в обработке медицинских данных живо отреагировал рынок образовательных услуг. Желающим поднять квалификацию предлагается огромное количество различных вебинаров и интенсивов. Многие из них созданы в парадигме «сочувственного» отношения, констатации того, что освоить тонкости абстрактной статистики врачи не способны, а, значит, нужно учить простым схемам вида «если — то». Однако при таком подходе к обучению у слушателей часто происходит подмена понятий, имеющих вероятностную природу, их детерминистскими симулякрами. Например, 95% доверительный интервал воспринимается как стопроцентный, «p < 0,05» отождествляется с «эффект точно есть», «p > 0,05» — «эффекта точно нет», «AUC > 0,9» — «модель идеальна» и т. д. Далее эта подмена накладывается на понятное желание исследователя выяснить максимум об изучаемом объекте, проверить каждое его свойство и доложить сообществу самые интересные из полученных результатов. Так, совершенно естественным образом, скрытно от самих авторов, в мир научных публикаций проникают p-hacking, HARKing, «confirmation bias», «reporting bias» и прочие ошибки, приводящие к вышеупомянутому кризису.
В попытке соблюсти баланс между математической строгостью и доступностью восприятия в Институте биоинформатики был подготовлен курс, в основе которого заложены принципы экспериментального осмысления классических понятий биостатистики. С помощью метода Монте-Карло учащимся предлагается создать «виртуальный госпиталь», в котором на неограниченном наборе данных можно выяснить границы применимости статистических методов и последствия методологических ошибок. Умение проводить статистические эксперименты вместо догматического заучивания схем помогает осознать вероятностный смысл получаемых результатов и сформировать критическое восприятие к собственным исследовательским действиям.
КОНТАКТЫ
Адрес: Гагаринская ул., д.6/1, литер, А (вход со Шпалерной, дом 1); кабинет 308
Телефон: +7 812 539−25−81 (после звонка набрать добавочный #308)
E-mail: pandan.eu@yandex.ru