[3470] | базовая мера качества данных (data quality basic measure): Универсальная мера качества данных (4.21), используемая как основа для специализированных мер качества данных. | п.4.7 | |
[3471] | набор данных (dataset): Идентифицируемая совокупность данных. | п.4.8 | |
[1108] | пространственный объект, объект (feature): Абстракция явления реального мира. | п.4.11 | |
[3473] | качество (quality): Степень соответствия совокупности собственных характеристик заявленным требованиям. | п.4.21 | |
[3471] | Набором данных может быть также малая группа данных, которая, хотя и имеет некоторые ограничения в виде пространственной протяженности или типа объекта (4.15), физически расположена в пределах более крупного набора данных. Теоретически набором данных могут быть отдельный объект (4.11) или атрибут объекта (4.12), расположенные в пределах большого набора данных. Печатная копия топографической или морской карты может рассматриваться как набор данных | п.4.8 | |
[798] | атрибут пространственного объекта (feature attribute): Характеристика объекта (4.11).
Примечание - Атрибут объекта имеет имя, характеризуется определенным типом данных и имеет область допустимых значений. Атрибут экземпляра объекта (4.13) также имеет значение атрибута, принадлежащее области допустимых значений. | п.4.12 | |
[1305] | метаданные (metadata): Данные о данных. | п.4.19 | |
[3474] | Оценка качества данных может быть применена к комплекту наборов данных, набору данных или поднабору данных в наборе данных, обладающих общими характеристиками, так что их качество может быть оценено. | гл.6 | |
[3475] | Качество данных должно быть описано с помощью элементов качества данных. Элементы качества данных и их дескрипторы применяются для описания степени соответствия набора данных критериям, изложенным в спецификации информационного продукта или требованиях пользователя, и предоставляют количественную информацию о качестве. | гл.6 | |
[3476] | Если информация о качестве описывает данные, которые были созданы без детальной спецификации информационного продукта или с наличием спецификации, но при отсутствии в ней количественных мер и дескрипторов, то оценка элемента данных может быть осуществлена посредством неколичественного субъективного подхода в виде описательного результата для каждого элемента. | гл.6 | |
[3477] | Концептуальная модель качества пространственных данных | Рис.1 | |
[3478] | Для описания качества пространственных данных могут рассматриваться различные элементы качества и различные поднаборы данных, с целью описания которых используются единицы качества данных. | п.7.2 | |
[3496] | Единица качества данных - это совокупность области определения и элементов качества данных | п.7.2 | |
[3479] | Область определения единиц(ы) качества данных задает протяженность, пространственные, и/или временные, и/или общие характеристики, идентифицирующие данные, качество которых должно быть оценено.
Одна область определения качества данных должна быть предусмотрена для каждой единицы качества данных. Один отчет о качестве данных (метаданные или самостоятельный отчет по оценке качества) может включать несколько единиц качества данных, так как часто области для отдельных элементов качества данных различны. Эти различные области могут быть, например, пространственно разделены, перекрываться или даже совпадать.
Ниже приведены примеры того, что определяет область определения качества данных (см. также MD_Scope в ГОСТ Р 57656):
а) комплект наборов данных;
б) набор данных;
в) поднабор данных, определяемый одной или несколькими из следующих характеристик:
1) типы элементов (наборы типов объектов, атрибутов объектов, операций с объектами или отношений объектов);
2) конкретные элементы (наборы экземпляров объектов, значения атрибутов или экземпляры отношений объектов);
3) географическая протяженность;
4) временная протяженность (заданные временные рамки и точность временных рамок). | п.7.2 | |
[3480] | Элемент качества данных - это компонент, описывающий определенный аспект качества пространственных данных, организованный по различным категориям. | п.7.3.1 | |
[3481] | 7.3.2 Полнота (completeness)
Полнота определяется наличием и отсутствием объектов, их атрибутов и отношений. Она состоит из двух элементов качества данных:
- присутствие (commission): избыточность данных в наборе данных;
- отсутствие (omission): отсутствие данных в наборе данных.
7.3.3 Логическая согласованность (logical consistency)
Под логической согласованностью понимают степень соответствия логических правил структуры данных, атрибутов и отношений (структура данных может быть концептуальной, логической или физической). Если эти логические правила документально оформлены в другом источнике (например, в спецификации на информационный продукт), то необходимо ссылаться на этот источник (например, при оценке качества данных). Логическая согласованность состоит из четырех элементов качества данных:
- концептуальная согласованность (conceptual consistency): соответствие правилам концептуальной схемы;
- доменная согласованность (domain consistency): соответствие значений атрибутов области допустимых значений;
- согласованность по формату (format consistency): степень, с которой данные хранятся в соответствии с физической структурой набора данных;
- топологическая согласованность (topological consistency): корректность представления закодированных топологических характеристик набора данных.
7.3.4 Позиционная точность (positional accuracy)
Под позиционной точностью понимают точность положения объектов внутри пространственной системы координат. Она состоит из трех элементов качества:
- абсолютная или внешняя точность (absolute or external accuracy): степень соответствия заявленных значений координат значениям координат, принятым в качестве правильных или являющимся правильными;
- относительная или внутренняя точность (relative or internal accuracy): степень соответствия относительного положения объектов в наборе данных их соответствующим исходным положениям, принятым в качестве правильных или являющимся правильными;
- позиционная точность матричных данных (gridded data positional accuracy): соответствие значений пространственного позиционирования матричных данных значениям, принятым в качестве правильных или являющимся правильными.
7.3.5 Тематическая точность (thematic accuracy)
Под тематической точностью понимают точность количественных атрибутов и корректность неколичественных атрибутов, классификаций объектов и их отношений. Она состоит из трех элементов качества:
- правильность классификации (classification correctness): соответствие классов объектов или их атрибутов предметной области (например, реальной ситуации или эталонному набору данных);
- правильность неколичественных атрибутов (non-quantitative attribute correctness): определение, является ли неколичественный атрибут правильным или неправильным;
- точность количественных атрибутов (quantitative attribute accuracy): степень соответствия значения количественного атрибута значению, принятому в качестве правильного или являющемуся правильным.
7.3.6 Временное качество (temporal quality)
Под временным качеством понимают качество временных атрибутов и временных отношений объектов. Оно состоит из трех элементов качества:
- точность измерения времени (accuracy of a time measurement): степень соответствия заявленных временных измерений значениям, принятым в качестве правильных или являющимся правильными;
- согласованность по времени (temporal consistency): правильность временного порядка событий;
- временная достоверность (temporal validity): достоверность данных по отношению ко времени.
Примечание - В качестве измерения времени может выступать определенный момент времени или период.
Пример - 33 марта - пример неверных данных.
7.3.7 Элемент применимости (usability element)
Применимость основана на требованиях пользователя. Все элементы качества могут быть использованы для оценки применимости. Оценка применимости может основываться на конкретных требованиях пользователей, которые не могут быть описаны с использованием элементов качества, описанных выше. В этом случае должен использоваться элемент применимости с целью предоставления конкретной информации о качестве в отношении пригодности определенного набора данных для конкретного приложения или удовлетворения набору требований.
При использовании элемента применимости рекомендуется использовать все приемлемые дескрипторы элементов качества (см. 7.4) и определять меры качества в соответствии с разделом 8 или приложением D в целях предоставления детальной информации по оценке.
Пример - С помощью данного элемента производитель данных может продемонстрировать, насколько набор данных пригоден для различных указанных способов использования. Данный элемент может быть применен для подтверждения соответствия набора данных конкретной спецификации. | п.7.3 | |
[3486] | Оценка элемента качества данных осуществляется с помощью:
- меры (measure): тип оценки;
- метода оценки (evaluation method): процедура, используемая для оценки меры;
- результата (result): итог оценки. | п.7.4.1 | |
[3487] | Настоящий стандарт устанавливает, что для измерения качества набора данных используются различные методы. Одной меры качества данных может быть недостаточно для полной оценки качества данных, задаваемых областью определения качества данных, а также для предоставления мер качества для всевозможных вариантов использования набора данных. Комбинация мер качества данных может давать полезную информацию. Несколько мер качества данных могут быть описаны для данных, заданных одной областью определения качества данных. | п.7.4.2 | |
[3488] | Метод оценки качества данных описывает те процедуры и методы, которые применяются к пространственным данным для получения результата оценки качества данных (см. рисунок 7). Для различных элементов качества данных часто используются различные методы оценки.
Для каждой примененной меры качества должен быть включен метод оценки качества. Метод оценки качества данных используется для описания методологии, используемой для применения меры качества данных для данных, задаваемых некоторой областью их определения, или для описания документации, в которой такая методология описывается. | п.7.4.3 | |
[3489] | Для каждого элемента качества данных должно быть обеспечено не менее одной результирующей оценки качества. Это может быть количественный результат, результат соответствия, описательный результат или результат покрытия (см. также рисунок 8).
Примечание - Для одного элемента качества данных могут применяться различные типы результатов.
Для различных частей набора данных качество часто различается. Поэтому несколько оценок могут быть применены для одного элемента качества данных для более полного и более детального описания количественной информации о качестве. Чтобы избежать повторных описаний мер и процедур оценки для нескольких экземпляров элемента качества данных (DQ_Element), можно использовать несколько результатов с областью применения индивидуальных результатов. | п.7.4.4.1 | |
[3490] | Результат соответствия - это результат сравнения значения или набора значений, полученных в результате применения некоторой меры качества к данным, заданным областью определения качества, с учетом установленного приемлемого уровня соответствия качества.
Когда уровень соответствия качества определен, его сравнивают с полученным результатом с целью выявления того факта, что качество данных удовлетворяет заданному уровню качества.
Результат соответствия может быть установлен для каждой меры. Уровень соответствия качества определяется в соответствующей документации, такой как спецификация к информационному продукту или спецификация требований, определенных пользователем. При определении соответствия необходимо ссылаться на соответствующую нормативно-техническую документацию и указывать примененный уровень соответствия качества.
Для одной меры предусмотрено более одного результата соответствия качества данных, если процедура оценки противоречит уровню соответствия, установленного в различных источниках. | п.7.4.4.3 | |
[3491] | Для облегчения сравнения набора данных необходимо, чтобы результаты в отчетах по качеству данных представлялись в сравнительном виде, а также чтобы имелось общее представление об использованных мерах качества данных. Чтобы сделать оценки качества данных и отчеты о качестве данных (в виде метаданных или самостоятельного отчета по оценке качества) из различных источников сопоставимыми, должны использоваться по возможности стандартизированные меры качества данных, описанные в приложении D. | п.8.1 | |
[3498] | Вследствие природы качества и пространственных данных перечень стандартизированных мер качества данных не может быть полным. Возможны случаи, когда пользователь настоящего стандарта вынужден разрабатывать другие меры качества данных. По возможности эти меры должны быть определены с помощью базовых мер качества данных, описанных в приложении G, а сама мера - в соответствии со структурой, приведенной в разделе 8. | п.8.3 | |
[3499] | Каждая мера качества данных описывается следующими компонентами:
- идентификатор меры (8.6.1);
- название (8.6.2);
- краткое название (8.6.3);
- название элемента (8.6.4);
- базовая мера (8.6.5);
- определение (8.6.6);
- описание (8.6.7);
- параметр (8.6.8);
- тип значения (8.6.9);
- структура значения (8.6.10);
- ссылка на источник (8.6.11);
- пример (8.6.12). | п.8.5 | |
[3502] | Рисунок 12 - Процесс оценки качества данных | рис.12 | |
[3503] | 1
Указать единицу(ы) качества данных
Единица качества данных состоит из области определения и элемента (элементов) качества (см. 7.2). Следует использовать все элементы качества, релевантные данным, для которых будет описываться качество.
Примечание - Тестируемые элементы качества данных описаны в 7.3, в приложении I приведены рекомендации по использованию элементов качества
2
Указать меры качества данных
В случае применимости для каждого элемента качества данных следует определять меру. В приложении D приведен список мер качества данных
3
Указать процедуры оценки качества данных
Процедура оценки качества данных заключается в применении одного или более методов оценки
4
Определить итог оценки качества данных
Результатом является итог применения оценки | п.9.1.3 | |
[3504] | Процедура оценки качества данных включает один или более методов оценки качества данных. Методы оценки качества данных можно разделить на два основных класса: прямая (direct) оценка и косвенная (indirect) оценка. | п.9.2.1 | |
[3511] | Дополнительные результаты можно получить посредством обобщения или преобразования существующих результатов без проведения новой оценки качества данных.
Обобщение объединяет результаты качества из проведенных оценок качества данных, основанных на различных элементах качества данных или различных областях определения качества данных.
Дополнительные результаты также могут быть выведены из существующих результатов, например, когда результат соответствия получен путем сравнения количественного результата с уровнем соответствия. Это полезно, например, если результат выражен не уровнем соответствия. | п.9.3 | |
[3505] | Метод прямой оценки - это метод оценки качества набора данных, основанный на проверке элементов в наборе данных.
Методы прямой оценки могут быть классифицированы на внутренние и внешние. Внутренняя прямая (internal direct) оценка качества данных использует только те данные, которые содержатся в оцениваемом наборе данных. Внешняя прямая (external direct) оценка качества требует применения эталонных данных, внешних по отношению к тестируемому набору данных. | п.9.2.2 | |
[3506] | Как для внешних, так и для внутренних методов оценки может использоваться один из следующих методов проверки:
- полный контроль (full inspection);
- выборочный контроль (sampling).
При полном контроле тестируется каждый элемент в генеральной совокупности, определенной областью качества данных.
Примечание - Полный контроль больше всего подходит для небольших генеральных совокупностей или для тестов, которые могут быть выполнены в автоматическом режиме.
Выборочный контроль выполняется для проверки поднаборов пространственных данных, заданных областью качества данных. | п.9.2.2 | |
[3507] | Метод косвенной оценки - это метод оценки качества набора данных на основе внешних знаний или накопленного опыта работы с информационным продуктом и может быть субъективным.
Эти внешние знания могут включать (но не ограничиваться ими) неколичественную информацию по качеству, такую как использование, происхождение и назначение (см. ГОСТ Р 57668) или другую отчетную информацию о качестве набора данных или данных, использованных для набора данных. Качество данных может быть оценено, например, на основе знаний об источнике, инструментах и методах, использованных для сбора данных и оцененных по отношению к процедурам и спецификациям, разработанным для этого продукта. Косвенная оценка качества данных также может быть основана только на опыте. Если указывается, что выполнена косвенная оценка, то должно быть указано также, как эта оценка была осуществлена.
В некоторых случаях может быть затруднительно или даже невозможно описать косвенно оцененное качество данных в виде количественного результата. В таких случаях качество данных может быть описано в текстовой форме с использованием описательного результата (см. 7.4.4.4). | п.9.2.3 | |
[3510] | Элементы качества данных оценивают расхождение между набором данных и предметной областью (т.е. правильным набором данных, который соответствует спецификации продукта). Неколичественная информация о качестве предоставляет общую информацию, из которой можно получить связанные с качеством знания. | B.1 | |
[3513] | Набор данных может быть создан для конкретного приложения или для нескольких возможных приложений. Качество набора данных может быть определено только при наличии информации об оценке элементов качества данных и в некоторых случаях косвенно — на основе неколичественной качественной информации по использованию, происхождению и назначению. | B.1 | |
[3512] | Концепции оценки качества данных предоставляют важную основу для разработчиков, а также пользователей данных. Разработчик данных получает средства для проверки того, насколько набор данных отражает его предметную область согласно спецификации продукта. Пользователи данных могут оценить качество набора данных для удостоверения в том, что набор данных удовлетворяет требованиям пользовательского применения. | B.1 | |
[3514] | Заявленные результаты качества являются действительными в отношении спецификации информационного продукта или требований пользователей. Если они изменились, то оценка качества должна быть повторена в отношении измененной спецификации или требований. Следует проявлять осторожность при сравнении результатов качества там, где предметная область отличается. Типичным примером этого является преобразование модели в инфраструктурах пространственных данных или при генерализации. Например, при изменении геометрии типа объекта также изменяются результаты позиционной точности. | B.1 | |
[3512] | Концептуальные основы оценки качества данных | Рисунок B.1 | |
[3515] | Процедуры оценки качества могут применяться на различных этапах жизненного цикла продукта. Оценка качества может быть применена на следующих стадиях жизненного цикла продукта:
- разработка спецификации информационного продукта или требований пользователя: при разработке спецификации или определении требований пользователя процедуры оценки качества могут быть использованы для установления уровней соответствия качества, которым должен отвечать конечный продукт. Спецификация информационного продукта или требования пользователя могут включать уровни соответствия качества для данных и процедуры оценки качества, которые должны применяться в процессе производства и обновления;
- контроль качества при создании набора данных: На стадии производства разработчик может применять процедуры оценки качества, которые явно установлены или же не включены в спецификацию информационного продукта, как часть процесса по контролю качества. Описание процедур оценки качества, применяемых для контроля качества продукции, рекомендуется представлять как метаданные происхождения, включая, в частности, оценку качества применяемых процедур, установленные уровни качества соответствия и результаты;
- проверка на соответствие спецификации информационного продукта: по завершении производства продукта рекомендуется использовать процесс оценки качества для формирования и представления результатов качества данных. По этим результатам можно определить, насколько набор данных соответствует или не соответствует спецификации информационного продукта. Если набор данных проходит проверку (состоящую из серии процедур оценки качества), то его считают готовым к использованию. Результаты по операции проверки следует выдавать в соответствии с разделом 10. Пример описания оценки и выдачи информации о качестве данных см. в приложении E. Итогом проверки будет принятие либо непринятие набора данных. Если набор данных будет отклонен, то после исправления данных необходимо будет провести новую проверку, и так до тех пор, пока продукт не будет соответствовать спецификации информационного продукта;
- оценка соответствия набора данных требованиям пользователя: процедуры оценки качества могут быть использованы для удостоверения в том, что набор данных отвечает уровням соответствия качества, установленным требованиями пользователя. При анализе соответствия набора данных требованиям пользователя могут применяться как косвенные, так и прямые методы;
- контроль качества при обновлении набора данных: процедуры оценки качества применяются к операциям обновления набора данных как для используемых элементов обновления, так и для сравнения качества набора данных до и после обновления. | B.3 | |
[3517] | Цель описания качества пространственных данных состоит в облегчении сравнения и выбора набора данных, которые наилучшим образом удовлетворяют потребностям или требованиям приложений. Полные описания качества наборов данных будут способствовать распространению, обмену и использованию соответствующих наборов данных. Информация о качестве пространственных данных позволяет их разработчику оценить, насколько точно данный набор отвечает критериям, изложенным в спецификации продукта, и помогает пользователям данных оценить способность продукта удовлетворять требованиям его конкретного приложения. Для осуществления такой оценки используется ряд четко определенных процедур в последовательном порядке. | Введение | |