Первое задание
от команды кружка NLP P.S.
В цифровизированных обществах распространение информации происходит через интернет-платформы. По данным
отчета DataReportal, на начало 2024 года 90% населения России (130,4 млн. человек), являются пользователями интернета, а пользователями социальных сетей от общего числа населения – 73,5% (106,0 млн. человек).
Самыми популярными интернет -платформами в России на начало 2024 года стали: WhatsApp, Telegram, VK, TikTok, Одноклассники, Viber, Instagram, Pinterest, Skype и Discord.
DataReportal каждый год делает отчет об использовании интернета по всему миру. Мы предлагаем вам познакомиться с примером представления интернет статистики. В чем заключается проблема презентации таких данных? Существует ли она? Что бы вы добавили в этот отчет?
Опишите, как бы вы собирали данные для подобного исследования.
Как бы вы вписали в процесс сбора и анализа методы обработки естественного языка (Natural Language Processing)?
Выберите два вопроса из списка ниже и ответьте на них:
- Какие средства и форматы вы бы могли использовать для их сбора?
- С какими сложностями вам бы пришлось столкнуться при сборе и обработке этих данных?
- Вы бы собирали данные самостоятельно или комбинировали их с готовыми наборами данных? Если комбинировали, то что это были бы за данные? Зачем использовать именно их?