Глоссарий основных терминов и определений по использованию больших данных в официальной статистике

Большие данные (big data):
Большие массивы данных, отличающиеся главным образом такими характеристиками, как объем (volume), разнообразие (variety), скорость обработки (velocity) и/или вариативность (variability), которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа.
ГОСТ Р ИСО/МЭК 20546-2021 «Информационные технологии. Большие данные. Обзор и словарь» (ISO/IEC 20546:2019, IDT),
Национальный стандарт СТБ ИСО/МЭК 20546-2020 Республики Беларусь.
Вариативность данных (data variability): Изменения в скорости передачи, формате или структуре, семантике или качестве массива данных. Вариативность данных означает изменения в скорости передачи данных, их формате/структуре, семантике и/или качестве, которые влияют на поддерживаемое приложение, аналитику или проблему. Влияние вариативности может заключаться в необходимости проведения реорганизации архитектур, интерфейсов, методов обработки/алгоритмов, интеграции/слияния, хранения, применимости или использования данных. В дополнение следует отметить, что вариативность объемов данных подразумевает необходимость увеличения или уменьшения виртуализированных ресурсов для эффективного управления дополнительной нагрузкой на обработку».
ГОСТ Р ИСО/МЭК 20546-2021 «Информационные технологии. Большие данные. Обзор и словарь» (ISO/IEC 20546:2019, IDT),
Национальный стандарт СТБ ИСО/МЭК 20546-2020 Республики Беларусь.
Разнообразие данных (data variety):
Диапазон форматов, логических моделей, временных шкал и семантики массива данных. Свойство разнообразия данных отражает необходимость анализа данных разных типов из различных предметных областей. Как правило, проблема разнообразия данных решалась посредством их преобразования или проведения предварительного анализа с целью выявления свойств, позволяющих объединить их с другими данными. Более широкий диапазон форматов данных, логических моделей, временных шкал и семантики, которые предпочтительно использовать при аналитике, усложняет интеграцию разнообразных данных. В качестве средства, способствующего интеграции, все чаще используются метаданные. Одним из результатов влияния разнообразия на большие данные является необходимость представления семантики данных в машиночитаемом виде.
ГОСТ Р ИСО/МЭК 20546-2021 «Информационные технологии. Большие данные. Обзор и словарь» (ISO/IEC 20546:2019, IDT),
Национальный стандарт СТБ ИСО/МЭК 20546-2020 Республики Беларусь.
Скорость обработки данных (data velocity):
Скорость потока, с которой данные создаются, передаются, сохраняются, анализируются или визуализируются. Скорость обработки данных - это скорость потока создания, хранения, анализа и визуализации данных. Скорость обработки больших данных означает необходимость обработки большого количества данных за короткий промежуток времени. В качестве примеров работы с данными с высокой скоростью обработки обычно приводят средства обработки потоковых данных.
ГОСТ Р ИСО/МЭК 20546-2021 «Информационные технологии. Большие данные. Обзор и словарь» (ISO/IEC 20546:2019, IDT),
Национальный стандарт СТБ ИСО/МЭК 20546-2020 Республики Беларусь.
Достоверность данных (data veracity):
Полнота и/или точность данных.
ГОСТ Р ИСО/МЭК 20546-2021 «Информационные технологии. Большие данные. Обзор и словарь» (ISO/IEC 20546:2019, IDT),
Национальный стандарт СТБ ИСО/МЭК 20546-2020 Республики Беларусь.
Изменчивость данных (data volatility):
Характеристика данных, относящаяся к скорости их изменения с течением времени.
ГОСТ Р ИСО/МЭК 20546-2021 «Информационные технологии. Большие данные. Обзор и словарь» (ISO/IEC 20546:2019, IDT),
Национальный стандарт СТБ ИСО/МЭК 20546-2020 Республики Беларусь.
Объем данных (data volume):
Количественная характеристика данных, влияющая на выбор ресурсов для вычислений и хранения, а также на управление данными в процессе обработки. Объем данных представляет собой определенное количество данных, доступных для анализа с целью извлечения полезной информации. Одним из основных факторов развития технологий обработки больших данных стал рост объемов данных, как следствие интернет-активности.
ГОСТ Р ИСО/МЭК 20546-2021 «Информационные технологии. Большие данные. Обзор и словарь» (ISO/IEC 20546:2019, IDT),
Национальный стандарт СТБ ИСО/МЭК 20546-2020 Республики Беларусь.
Данные, генерируемые людьми (Human-Sourced) (Типология больших данных ООН): Данные, являющиеся побочным продуктом человеческой деятельности в цифровой среде.
Classification of Types of Big Data. Statistics Division UNDESA. Meeting of Expert Group on International Statistical Classifications. New-York, 2015.
Данные, генерируемые процессами (Process-Mediated) (Типология больших данных ООН): Данные о транзакциях и событиях, генерируемые в различных административных и бизнес ИТ системах.
Classification of Types of Big Data. Statistics Division UNDESA. Meeting of Expert Group on International Statistical Classifications. New-York, 2015.
Данные, генерируемые устройствами (Device-Mediated) (Типология больших данных ООН):
Автоматически генерируемые данные от датчиков и устройств, работающих без прямого вмешательства человека.
Classification of Types of Big Data. Statistics Division UNDESA. Meeting of Expert Group on International Statistical Classifications. New-York, 2015.
Данные мобильных телефонов (Mobile Phone Data) (Типология больших данных Евростата):
Данные о звонках (CDR) и перемещениях (MPD) абонентов. Сферы применения: статистика населения, туризма, миграции, городское планирование, мониторинг ЦУР.
Данные сканирования (Scanner Data) (Типология больших данных Евростата):
Данные о продажах розничных сетей (сканирование штрих и QR кодов). Сферы применения: индексы потребительских цен (ИПЦ), анализ потребительского поведения, статистика розничной торговли.
Спутниковые снимки (Satellite Images) (Типология больших данных Евростата):
Данные дистанционного зондирования Земли (далее – ДЗЗ). Сферы применения: сельскохозяйственная статистика, природопользование, экологический мониторинг, мониторинг ЦУР и др.
Веб-данные (Web Data) (Типология больших данных Евростата):
Данные, собираемые с веб-сайтов. Сферы применения: cтатистика рынка труда (вакансии), статистика розничных цен Интернет-магазинов, транспортных компаний, цен на жилье и др.
Данные социальных сетей (Social Media Data) (Типология больших данных Евростата):
Данные различных социальных сервисов Интернет-платформ (текстовые сообщения, аудио, фото, видео материалы, геометки). Сферы применения: анализ потребительских настроений и намерений, потребительского спроса и др.
Данные датчиков (Internet of Things - IoT) (Типология больших данных Евростата):
Данные дорожных камер видеонаблюдения, GPS-треки общественного транспорта, данные АИС о передвижении морских судов, данные датчиков слежения за состоянием окружающей среды. Сферы применения: статистика транспорта, туризма, мобильности населения, экологии, мониторинг ЦУР, городское планирование и др.
Альтернативные источники данных (Alternative Data Sources - ADS):
Нетрадиционные источники данных, такие как записи мобильной связи, спутниковые снимки, сканерные данные и веб-скрейпинговый контент, используемые для дополнения или замены сбора данных на основе обследований.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Интерфейс прикладного программирования (Application Programming Interface - API):
Набор протоколов и инструментов, позволяющих различным программным приложениям взаимодействовать друг с другом.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Автоматизированный прием данных (Automated Data Ingestion):
Процесс автоматического сбора и импорта данных из различных источников в систему данных.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Облачные вычисления (Cloud Computing):
Предоставление вычислительных услуг через интернет, позволяющее получать доступ к хранилищам, базам данных и приложениям без локальной инфраструктуры.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Контейнеризация (Containerisation):
Легковесная форма виртуализации, которая упаковывает программное обеспечение и его зависимости в «контейнер» для обеспечения его согласованной работы в различных средах.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Архитектура данных (Data Architecture):
Проектная framework, которая определяет, как данные собираются, хранятся, интегрируются и используются в организации.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Управление данными (Data Governance):
Набор политик, процедур и стандартов, используемых для управления целостностью, безопасностью и качеством данных в организации.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Инициатива документирования данных (Data Documentation Initiative - DDI):
Международный стандарт метаданных для описания данных из социальных, поведенческих и экономических наук.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Инфраструктура данных (Data Infrastructure):
Совокупность аппаратного обеспечения, программного обеспечения и сервисов, обеспечивающих сбор, обработку, хранение и распространение данных. ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Озеро данных (Data Lake):
Централизованное хранилище, позволяющее хранить структурированные и неструктурированные данные в любом масштабе.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Жизненный цикл данных (Data Lifecycle):
Последовательность этапов, через которые проходят данные, от первоначального сбора до eventual архивирования или удаления.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Хранилище данных (Data Warehouse):
Централизованное хранилище, предназначенное для хранения больших объемов структурированных данных из нескольких источников, оптимизированное для запросов и анализа. В отличие от озер данных, хранилища данных обычно хранят курированные, очищенные и структурированные данные для отчетности и бизнес-аналитики.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Подключение к базе данных (Database Connection - DB-Conn):
Метод доступа и взаимодействия с базой данных, обычно через структурированные запросы и протоколы для чтения, записи или обновления данных. ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Дистанционное зондирование Земли/ДЗЗ (Earth Observation - EO):
Сбор данных о физических, химических и биологических системах Земли с помощью технологий дистанционного зондирования, включая спутники. ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Извлечение, преобразование, загрузка (Extract, Transform, Load - ETL):
Процесс интеграции данных, включающий извлечение данных из источников, преобразование в пригодные для использования форматы и загрузку в базу данных.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Протокол передачи файлов (File Transfer Protocol - FTP):
Стандартный сетевой протокол, используемый для передачи файлов с одного хоста на другой по TCP-сети, такой как интернет.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Общий регламент по защите данных ЕС (General Data Protection Regulation - GDPR):
Регламент Европейского союза о защите данных и конфиденциальности.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Jupyter Hub :
Многопользовательская платформа для интерактивных вычислительных сред, таких как Jupyter notebooks.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Kubernetes:
Платформа для управления контейнеризированными рабочими нагрузками и сервисами, обеспечивающая автоматическое развертывание, масштабирование и операции.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Машинное обучение (Machine Learning - ML):
Подраздел искусственного интеллекта, в котором алгоритмы изучают закономерности из данных и со временем улучшаются без явного программирования.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Управление основными данными (Master Data Management - MDM):
Набор инструментов, процессов и политик, используемых для обеспечения единообразия, точности, управления и подотчетности общих основных данных — таких как справочные данные о людях, местах или продуктах — по всей организации.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Оркестрация (Orchestration):
Координация автоматизированных задач и рабочих процессов между различными компонентами системы данных для обеспечения надежного и своевременного выполнения.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Контроль доступа на основе политик (Policy-Based Access Control - PBAC):
Модель безопасности, которая использует политики для определения доступа пользователей к ресурсам.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Воспроизводимый аналитический конвейер (RAP - Reproducible Analytical Pipeline):
Набор принципов и практик, направленных на стандартизацию, автоматизацию и документирование статистических процессов для обеспечения того, что результаты анализа могут быть точно воспроизведены в будущем, минимизируя ручной труд и потенциальные ошибки.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Растровые данные (Raster Data):
Данные на основе пикселей, используемые для представления изображений или пространственной информации.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Сканерные данные (Scanner Data):
Электронные записи транзакций из систем электронных точек продаж (EPOS), обычно используемые при составлении статистики цен, такой как ИПЦ. ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Sentinel-1:
Спутниковая миссия Европейского космического агентства, предоставляющая радиолокационные изображения для дистанционного зондирования Земли.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Обмен статистическими данными и метаданными (Statistical Data and Metadata eXchange - SDMX):
Международный стандарт, предназначенный для поддержки обмена и совместного использования статистических данных и метаданных между организациями.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".
Виртуальная машина (Virtual Machine - VM):
Эмуляция компьютерной системы, обеспечивающая функциональность физического компьютера.
ЭСКАТО SD/WP/18/July 2025 "Big Data for Official Statistics: Strategic Considerations and Recommendations on Data Infrastructure and Governance".