С каждым днем количество данных вокруг нас увеличивается. Появляются новые виды бизнеса, основанного на данных, а также новые инструменты сбора, обработки, анализа и презентации. Во всем этом нужно разбираться, поэтому возникло предложение сделать регулярный информационно-образовательный проект по теме (открытых) данных и смежным темам.
Предварительное рабочее название проекта - dataШкола. Предварительная повестка охватывает следующие направления:
- Обучение техникам работы с данными
- Информационное освещение по теме данных и смежным темам
- Создание информационных продуктов на основе данных
На первых порах предлагаю делать разовые тематические вылазки за данными в известном формате "Экспедиции за данными". Опять же, в первое время можно ограничиться виртуальным форматом и при необходимости устраивать очные встречи.
Мы уже так делали несколько раз, пускай и не называли это словом "экспедиция". Например:
1. Сессия "Что пьют на форуме Онлайнера?" была посвящена анализу вкусовых предпочтений пользователей ветки "Выпьем чашку кофе (чая, пива...)" на форуме этого известного белорусского сайта. В результате анализа выяснилось, что пользователи предпочитают чай, кофе и воду. Кроме того, в ходе экспедиции был обнаружен публичный недокументированный API форума с выдачей элементарных данных о пользователях в формате JSON - очень удобная штука.
2. Сессия "Народный кадастр" была посвящена сбору данных о возрасте домов в Минске из объявлений о продаже/ аренде квартир в столице. Результатом экспедиции стал набор данных о годах постройки 3 264 уникальных домов, самый старый из которых датирован 1900 годом (дом №4 по Автодоровскому переулку).
3. Сессия "Карты БПЦ и РПЦ" была посвящена созданию векторных карт административно-территориального устройства Белорусской Православной церкви и Белорусской Римско-Католической церкви. В результате работы были созданы два набора данных (БПЦ и РКЦ), которые могут быть использованы для создания произвольных карт.
4. Похожим образом был создан набор данных о принадлежности минских домов ЖЭСам, который используется в приложении "Безопасный город".
В каждом из этих случаев для успеха желательно владеть несколькими навыками. Как минимум, нужно уметь:
- сориентироваться в ситуации и понять, где и какие данные искать
- при необходимости, обратиться с запросом в нужную организацию
- собрать и преобразовать данные (оцифровка/ парсинг/ структурирование и т.д.)
- провести исследование данных (навыки статистического анализа)
- представить результат (инфографика/ интерактивное приложение/ другой информационный материал)
Как ни крути, а работа получается командная и междисциплинарная. Поэтому если удастся найти общий интерес к такому формату, то может получиться увлекательно.