Открытые данные – это общественно полезные данные в машиночитаемом виде. Общественная полезность и машиночитаемость являются необходимыми признаками открытых данных. Общественная полезность означает, что данные изначально предназначены для публикации (т.е. не являются персональными данными, государственными или коммерческими секретами) и распространяются без лицензионных органичений, таких как авторские, патентные права и др. Машиночитаемость существенно облегчает повторное использование данных, в т.ч. упрощает интеграцию различных баз данных.
Open Definition: Open data is data that can be freely used, re-used and redistributed by anyone – subject only, at most, to the requirement to attribute and share alike.
Машиночитаемые форматы – это форматы, позволяющие обрабатывать (сравнивать, анализировать) данные с помощью аналитического и визуализирующего программного обеспечения без дополнительных затрат времени на подготовку этих данных. Самыми распространенными машиночитабельными форматами являются CSV, JSON, XML, XLS. Данные, опубликованные в человекочитаемом формате (например, PDF), можно отнести к категории открытых, но очень условно, так как для использования этих данных в аналитическом софте их требуется вначале подготовить, на что уходит значительное количество времени. Отсутствие машиночитаемого формата делает данные непригодными к немедленному использованию. (По материалам infoculture)
Набор данных (датасет) – это один или несколько файлов со статистическими или другими данными, которые показывают важные процессы или описывают ситуацию - например, криминальные сводки по Беларуси по данным МВД за 10 лет, список и координаты загрязнений водоёмов за несколько лет и тп.
Идентификатор датасета – уникальный номер набора данных. По этому номеру можно всегда найти конкретный набор данных, даже если изменится название или адрес набора данных на сайте.
Метаданные (metadata, метаинформация набора данных) – это структурированная информация, описывающая характеристики наборов данных. Метаданные описывают, например, источник, дату публикации, формат данного датасета, его авторов и так далее.
Ресурсы – файлы, добавленные в датасет. В одном датасете может быть несколько файлов (например, несколько карт, или несколько Excel файлов)
API (интерфейс программирования приложений)** (англ. application programming interface) – набор готовых функций, предоставляемых платформой opendata.by для обмена данными и их использования во внешних программных продуктах. Используется программистами и журналистами для анализа данных и написаний приложений на базе информации, доступной на opendata.by.
CSV – файловый формат, в котором значения отделяются друг от друга запятыми. Является одним из наиболее распространенных машиночитабельных форматов. Универсален и распознается основными программами визуализации и анализа данных. Данные в формате .csv легко импортируются и корректно распознаются большинством онлайновых (работающих через браузер) и устанавливаемых на компьютер приложений для анализа и визуализации данных (например Timeline JS, DataWrapper). Файлы .csv имёют небольшой размер, в отличие от альтернативных форматов. Более подробно прочитать про .csv можно тут. Файлы в формате .csv легко импортировать в Excel для дальнейшего создания базовых визуализаций (больше информации тут).
JSON – файловый формат, который содержит информацию в формате "объект - значение объекта". Легко отчитывается визуально, без использования специальных программ. Является одним из самых распространенных форматов для хранения данных, распознается практически всеми программами для анализа и визуализации данных. Json - открытый формат, свободный для широкого использования.
XML (eXtended Markup Language, расширенный язык разметки) – формат разметки документов. Разрабатывался для того, чтобы оптимизировать и облегчить использование различных документов в Интернете или обработку документов различным программным обеспечением (в том числе и софтом для анализа и визуализации данных). Определяет внешний вид (дизайн), структуру документа, его ключевые слова и так далее. Совместим с большинством софта для визуализации данных. Широко используется для хранения данных на порталах открытых данных во многих странах.
Геодатасет (набор географических данных) – набор данных, содержащий цифровую информацию о, например, абрисах границ страны и границах ее административных единиц, карты городов, частей городов, местонахождение различных типов объектов (например, координаты центров раздельного сбора отходов в Берлине или координаты и специализация больниц в Минске). При импорте файла в данном формате в приложение для создания карт цифровая информация трансформируется в графическую (на экране сразу появляется карта со всеми объектами, которые были закодированы в файле). Типичный пример визуализации, построенной на основе геодатасета – безвизовая карта мира для беларусов.