Цветков В.Я. Геоинформационные системы и технологии - файл n1.doc

приобрести
Цветков В.Я. Геоинформационные системы и технологии
скачать (3238.5 kb.)
Доступные файлы (1):
n1.doc3239kb.08.07.2012 20:10скачать

n1.doc

1   2   3   4   5   6   7   8   9   ...   14
Рис. 3.3. Построение модели на основе процедур агрегации

На рис. 3.1 приведена схема проектирования (структурирования ) данных с применением прямых и обратных процедур абстракции.

Для пояснения различия между обобщением и агрегацией приведе­ны модели одного и того же объекта "личность", но построенные на основе различных подходов (процедур): с применением метода обобщений (рис. 3.2) и метода агрегации (рис. 3.3).

Каждая структурно определенная модель позволяет создавать логическую запись. На рис. 3.4 и 3.5 соответственно приведены логические записи, построенные для моделей, спроектированных с использованием агрегации (см. рис. 3.3) и обобщения (см. рис. 3.2). Записи различаются не только по виду, но и контекстно, так как в одном случае (см. рис. 3.5) параметры (атрибуты) записи подчеркивают отношение полного объекта (записи) к другим группам объектов, а в другом (см. рис. 3.4) - являются атомарными объектами. Другими сло­вами, модель, построенная на основе обобщений, отражает свойства по отношению к другим классам моделей или объектов.

Модель, построенная на основе агрегации, может являться разло­жением сложного объекта на более простые вплоть до атомарных.


Личность

Ф.И.О.

Возраст

Адрес

Социальное

3.2. Классификационные задачи


положение

Стаж

Зарплата

Налоги




Специальность

Рис. 3.4. Логическая запись, построенная на основе агрегации

Личность

Социальное положение

Административная

принадлежность I Занимаемая должность Тарифный

разряд

Рис. 3.5. Логическая запись, построенная на основе обобщения

При создании информационной основы и анализе данных используют­ся методы классификационного анализа. Поскольку при сборе информа­ции для БД приходится иметь дело с результатами измерений, первые три типа задач классификации определим по этому показателю. Воспользуемся определением, данным Кендаллом [5].

К задачам классификации первого типа относятся те, в которых исходные измерения требуется разделить на устойчивые группы. Их называют задачами классификации без учителя, кластеризации, таксо­номии, типизации. Этот тип классификации основан преимущественно на опытных данных.

Задачи классификации второго типа характеризуются тем, что исходные данные уже сгруппированы и требуется оценить их информа­тивность (значимость) относительно совокупности известных этало­нов. Такого рода задачи встречаются при распознавании образов, де­шифрировании снимков и т.д.

Задачи классификации третьего типа - задачи разбиения. В них исходные измерения или их функции требуется разбить на устойчивые группы в зависимости от их величины.


48
49

Задачи классификации четвертого типа назовем процедурными. В них выполняются анализ и классификация процедур преобразова­ния, а не данных.

Задачи классификации пятого типа - структурно-аналитичес­кие. С их помощью производятся анализ и классификация аналитичес­ки-логических связей в системах, алгоритмах и программах. Основу такой классификации составляют методы структурного и системного анализа.

В ГИС задачи классификации первого типа возникают и решаются при разработке классификаторов, т.е. при организации информацион­ной основы, задачи второго типа - при сборе первичных данных и при использовании ГИС для экспертных решений или оценок. Задачи клас­сификации третьего типа возникают в приложениях ГИС для решения проблем в области экологии, землепользования, статистики и т.п. Зада­чи четвертого типа классификации требуют решения при организации и выборе основных технологических процессов ГИС, пятого типа - при организации информационной системы, представлении (формализации) и оптимизации ее технологических процессов. Строго говоря, класси­фикационные задачи пятого типа должны предшествовать классифика­ционным задачам четвертого и других типов.

3.3. Аспекты рассмотрения моделей данных

Модель, как правило, отражает наиболее общие свойства объекта или исследуемого процесса. Использование различных аспектов рассмот­рения и критериев оценки моделей данных позволяет на основе объек­тивного сравнительного анализа выбирать оптимальную модель для ре­шения возникающих проблем.

Семиотика. Модель как знаковая система должна содержать три основные характеристики: синтаксис, семантику и прагматику. Этот под­ход определяет содержание элементарной (атомарной) модели как эле­ментарной единицы данных, включающей в себя правила построения, имя объекта, свойства объекта, значения свойств. Разнообразие атомар­ных моделей создает условия для построения множества моделей данных.

Типизация. Одно из противоречий описания моделей заключается в стремлении отразить, с одной стороны, общие свойства класса объек­тов, с другой - индивидуальные признаки более узкого подкласса и ин

дивидуальные признаки конкретного объекта. Это обусловливает разде­ление моделей данных на два класса: сильно типизированные и слабо типизированные.

Сильно типизированные - это модели, в которых большинство данных удовлетворяет неким условиям и ограничениям и может быть отнесено к узкому подклассу (типу). Если исходные данные нельзя отнести к одному типу, то их можно с помощью искусственных приемов (введением дополнительных условий или ограничений) отне­сти к набору типов с помощью процедур типизации. Сильно типизиро­ванные модели эффективны при обработке однотипных потоков данных. Примером сильно типизированных данных в ГИС служат координат­ные (метрические) данные и все табличные данные.

Слабо типизированные - это модели, в которых данные разнородны по формату, структуре. Они, в общем, слабо связаны усло­виями относительно известных типов. Слабо типизированные модели обеспечивают интеграцию категорий данных. Предельная возможность использования таких моделей обеспечивается исчислением предикатов. Примером слабо типизированных моделей в ГИС могут быть описатель­ные характеристики (временные наборы данных).

Изменчивость. Можно выделить два класса моделей: статические и динамические.

К статическим относят модели, инвариантные относительно времени. Динамические модели не только допускают изменение параметров и структур во времени, но и служат для описания изменения процессов и моделей именно во времени. Примерами таких моделей в ГИС могут служить два вида электронных карт: электронные карты в режиме разделения времени (электронные атласы) - статическая мо­дель, электронные карты в реальном масштабе времени (навигацион­ные системы) - динамическая модель.

Следует подчеркнуть, что понятие изменчивости моделей данных в ГИС относительно, так как вся информация носит пространственно-временной характер и через какое -то время требует обновления. Поэто­му, применяя понятия статические и динамические модели, необходи­мо указывать период времени, который используется при анализе гео­информационных данных, или определять альтернативную модель при сравнении с исходной.

Любая модель данных должна в разной степени обладать двумя эти­ми свойствами. Динамика моделей определяет их возможный переход друг в друга. Она позволяет связывать модель со множеством правил порождения и множеством операций.

Агрегация (взаимосвязь). Отдельные части модели образуют ее структуру. Одним из основных способов структуризации данных явля­ется абстракция, используемая как для образования категорий данных, так и для построения одних категорий на основе других.

Представление моделей. Выделяют табличные и графовые формы
представления моделей. .

Табличная форма дает представление модели или ее характеристик в виде одной или совокупности взаимосвязанных таблиц. При этом данные в ячейках таблицы не могут заноситься произвольно, они подчиняются определенным правилам, в частности, по столбцам распо­лагают типизированные данные. Примером табличного представления модели кроме таблицы может служить логическая запись (см. рис 3.4, 3.5), которая представляет собой верхнюю строку таблицы.

Графовая форма основана на построении модели в виде графической схемы, называемой графом. Эта схема включает элементы графа, называемые вершинами (узлами) к ребрами (дугами). В отличие от произвольно нарисованной схемы графовая модель, как и табличная, строится по определенным правилам. В частности, каждое ребро может быть ориентировано, если определен путь от одной вершины к другой, и не ориентировано, что соответствует возможному пути от одной вер­шины к другой в обоих направлениях. Простейший пример ориентиро­ванного графа - вектор в трехмерном пространстве, а неориентирован­ного графа - кривая пути из одной точки в другую. Кроме вершин и ребер существуют другие элементы, значение которых не столь суще­ственно.

Некоторые специалисты в области моделирования данных заменя­ют термины вершина и ребро терминами узел и дуга. При анализе гра­фовых форм применительно к моделям данных в ГИС эти термины сле­дует считать взаимно заменяемыми.

Форма отображения объекта в модель. Этот аспект рассмотре­ния определяет дискретную и аналоговую модели. Примерами таких моделей в ГИС могут служить обычная (аналоговая) карта и цифро­вая карта.

Аналоговые модели в свою очередь разбиваются на две группы: прямой и косвенной аналогии. Модели прямой аналогии создаются на основе физического моделирования (аналоговые карты, модели судов, самолетов, гидротехнические сооружения и т. п.), модели косвенной аналогии - на основе математического моделирования (аналитического опи­сания), например, цифровая модель рельефа, построенная на основе ана­литического описания поверхности.

Дискретные модели строятся путем замены непрерывных функций набором дискретных значений аргументов и функций. Диск­ретность определяется шагом квантования. Для сохранения информа­тивности дискретной модели по отношению к объекту шаг квантования должен выбираться с учетом теоремы Шенона - Котельникова. Приме­ром дискретных моделей являются большинство цифровых моделей, на основе которых впоследствии осуществляется аналоговое представле­ние информации ГИС.

ЗА. Базовые модели данных, используемые в ГИС

Инфологическая модель

Инфологическая модель занимает особое положение по отношению к другим моделям. Она соответствует четвертому этапу построения слож­ной системы и дает формализованное описание проблемной области не­зависимо от структур данных. Инфологическая область моделирования данных охватывает естественные для человека концепции отображения реального мира.

Создание этой модели является первым шагом процесса формали­зации. В отличие от представления на естественном языке она в основ­ном исключает неоднозначность за счет использования средств формаль­ной логики.

Одно из главных понятий инфологической модели - объект. Это понятие связано с событиями: возникновение, исчезновение и измене­ние. Объекты могут быть атомарными или составными.

Атомарный объект- это объект определенного типа, дальнейшее разложение которого на более мелкие объекты внутри дан­ного типа невозможно.

Составные объекты включают в себя множества объектов, кортежи объектов. Применяя это определение, рекурсивно можно полу­чить произвольную структуру составных объектов.

Обычно объект имеет некоторое свойство или взаимосвязь (связь) с другими объектами. Свойство может быть не определено формально, а лишь охарактеризовано как некоторое утверждение по поводу множе­ства объектов.

Инфологическая модель позволяет выделить три категории фактов: истинные, значимые и ложные. С одной стороны, это обеспечивает мо­дели дополнительную гибкость, с другой - создает определенные слож­ности.

Различия между традиционными и инфологическими моделями данных аналогичны различию между мнением и истиной. Во многих моделях большинство сообщений относится к одной из двух катего­рий: истинные или ложные. Инфологическая модель предполагает воз­можность представления любого сообщения с какой-то долей веро­ятности, т.е. в виде аналога мнения. Анализ такого сообщения воз­можен при учете конкретного контекста. В правильном контексте сообщение истинно. Но и ошибочное утверждение может рассматри­ваться как мнение.

Цель инфологического моделирования - формализация объектов реального мира предметной области и методов обработки информации в соответствии с поставленными задачами обработки и требованиями представления данных естественными для человека способами сбора и представления информации.

Инфологические модели позволяют получать произвольные пред­ставления простых событий. На их основе могут быть сконструированы также типы моделей, подобные поддерживаемым сильно типизирован­ными моделями.

В таких моделях ссылки на объекты и сами объекты разделены, а сообщения интерпретируются с учетом контекста. Это позволяет реали­зовать множественность ссылок и обеспечить разнообразие интерпре­тации.

Инфологическая модель может включать в себя ряд компонентов (рис. 3.6). Принципиальной особенностью этой модели является возмож­ность отображения как формализуемых средствами формальной логики процессов и объектов, так и неформализуемых в дальнейшем про­цессов.

Основными компонентами мифологической модели являются:

некоторой произвольности форм описания в настоящее время не существует общепринятых способов ее построения. Используют аналитические методы, методы графического описания, системный подход.



Рис. З.6. Основные компоненты инфологической модели

Иерархическая модель

К наиболее простым структурно определенным относится иерар­хическая модель. В этой модели данных связи между ее частями явля­ются жесткими, а ее структурная диаграмма должна быть упорядочен­ным деревом.

Одно из важных понятий для этой модели - уровень. Для описания разных уровней применяют понятия: корень, ствол, ветви, листья и лес, что подчеркивает сходство структуры модели со структурой дерева.

Граф иерархической модели (ее схемное представление) включает два типа элементов: дуги и узлы (или записи).

Дуги соединяют разные узлы между собой. Дуги, соответствующие функциональным связям, должны быть всегда направлены от корня в листья дерева, т.е. они являются ориентированным графом. Такая струк­турная схема называется иерархическим деревом определения или де­ревом определения [17].

Дуга дерева определения, соответствующая функциональному типу связи, называется связью исходный-порожденный. Между двумя типа­ми записей в иерархической модели может быть не более одной такой связи. Дуга исходит из тит родительской (порождающей) записи и за­ходит в тип дочерней (порожденной) записи.

В простейшем случае иерархическая модель представляет собой опи­сание процесса или системы, состоящей из совокупности уровней, свя­занных одной дугой (рис. 3.7).

Мифологическое моделирование

Мифологическая модель

Даталогическое моделирование

Даталогическая модель (схема)

Физическое проектирование

Физическая модель

Рис. 3.7. Иерархическая модель проектирования ГИС

Рассматривая последовательность связей "исходный-порожденный", можно естественным образом идентифицировать типы родительской и порожденной записей.

Первую порождающую запись называют корневой (реже стволом), промежуточные записи - ветвями, записи самого нижнего уровня иерар­хической модели - листьями.

Понятия корневой, ствол, ветви, листья определяют тип записи в иерархической модели.

Иерархический путь, или маршрутизация, - это последовательность типов записей, начинающаяся с типа корневой записи, в которой типы записей выступают переменно в ролях исходного и порожденного.

Известная программистам последовательность "диск- корневой ка­талог-подкаталог - программа" - характерный пример иерархической модели.

Уровень типа записи относительно типа корневой записи определяется как длина пути от корневой записи, выраженная в числе дуг. Так, тип корне­вой записи "диск" находится на нулевом уровне, "корневой каталог" - на первом, "подкаталог" - на втором, имя файла - на третьем и т.д.

Расширение дерева определения иерархической модели может быть отражено в виде таблиц для записей, а расширение каждой связи "исходный-порожденный" - множеством соединений между таблицами.

Альтернативным способом представления расширения дерева оп­ределения является "лес", или совокупность отдельных деревьев, состо­ящих из одной корневой записи и всех ее зависимых записей. Такое де­рево называется деревам базы данных. Оно конструируется в соответ­ствии с деревом определения.

Иногда структуру иерархической модели называют Е-деревом (см. рис. 3.2,3.6).

Иерархическим моделям данных присущи два внутренних ограни­чения. Первое ограничение - все типы связей должны быть функцио­нальными, второе - структура связей должна быть древовидной. След­ствием этих ограничений является необходимость соответствующей структуризации данных. В силу функциональности связей запись может иметь не более одной исходной записи любого типа, т.е. связь должна иметь жесткий вид -1: n (один ко многим). Очевидный недостаток иерархических моделей - снижение времени доступа при большом чис­ле уровней, поэтому в ГИС не используют модели при большом числе уровней (более 10). В то же время иерархические модели довольно . устойчиво применяются для составления различного рода классифика­торов.

Квадратомическое дерево

Иерархическая структура данных, известная как квадратомическое де­рево, используется для накопления и хранения географической информа­ции. В этой структуре двухмерная геометрическая область рекурсивно под­разделяется на квадранты, что определило название данной модели.

56





Уровень О
На рис. 3.8 показан фрагмент двухмерной области QT, состоящей из 16 пикселей. Каждый пиксель обозначен цифрой. Вся область раз­бивается на четыре квадранта: А, В, С, D. Каждый из четырех квадрантов является узлом квадратомического дерева. Большой квадрант QT стано­вится узлом более высокого иерархического уровня квадратомического де­рева, а меньшие квадранты появляются на более низких уровнях.



Уровень 2 Уровень 1

Рис. 3.9. Квадратомическое дерево в виде Е-структуры


Рис. 3.8. Фрагмент растра, квантованный для построения квадратомического дерева

Технология построения квадратомического дерева основана на ре­курсивном разделении квадрата на квадранты и подквадранты до тех пор, пока все подквадранты не станут однородными по отношению к значению изображения (цвета) или пока не будет достигнут предопре­деленный заранее наименьший уровень разрешения.

Если регион состоит из 2n x 2n пикселей, то он полностью представ­лен на уровне n, а единичные пиксели находятся на нулевом уровне. Квад­рант уровня 1 (0<1
На рис. 3.9 показано квадратомическое дерево, построенное по дан­ным рис. 3.8. Как видно, эта структура являет собой классический пример Е-дерева. Преимущество такой структуры состоит в том, что регуляр­ное разделение обеспечивает накопление, восстановление и обработку дан­ных простым и эффективным способом. Простота проистекает из геомет­рической регулярности разбиения, а эффективность достигается за счет хранения только узлов с данными, которые представляют интерес.

Поскольку квадратомическое дерево известно как пространствен­но-рациональный способ представления сгруппированных однородных или сопряженных изображений, их преимущество над векторной реп­резентацией многих (но не всех) пространственных алгоритмов отно­сительно затрат машинного времени весьма существенно.

Первоначально большинство приложений моделей квадратомических деревьев было сделано для обработки изображений. Из этой облас­ти данная модель была перенесена в ГИС.

Модели, основанные на квадратомических деревьях, обеспечивают расчеты площадей, центроидные определения, распознавание образов, выявление связанных компонентов, определение соседства, преобразо­вание расстояний, разделение изображений, сглаживание данных и уси­ление краевых эффектов. Вследствие этого появилась возможность ис­пользовать квадратомические деревья для хранения географических дан­ных. Однако при этом требуется развитие процедур для превращения растровых данных в формат квадратомического дерева и усовершенство­вание техники линейного кодирования.

В первых работах по квадратомическим деревьям связи между квадрантом и подквадрантом давались в виде дерева со степенью вет­вления, равной четырем. В такой структуре связи между родитель­ским и дочерним уровнем определяются системой внешних указа­телей.

Все узловые точки дерева, за исключением корневой, имеют одного родителя. В то же время все они, за исключением листьев, связаны с четырьмя дочерними узловыми точками.

Преимущество представления, основанного на указателях, заключается в том, что оно выражает только значимую часть полного квадратомического дерева.

Последние исследования показали, что для больших квадратомических деревьев наиболее подходящей структурой является линейное квадродерево. В нем каждый листовой узел представлен линейным число­вым кодом, который базируется на упорядоченном списке узловых то­чек прародителей. Последующее преобразование дерева в код достига­ется использованием битового уровня или модулярной арифметики. Система линейных кодов обеспечивает эффективную связь между струк­турами пространственных данных и алгоритмами, применяемыми в вычислительной геометрии для решения проблем восстановления прямо­угольников и определения ближайшего "соседа".

Рядом исследователей была рассмотрена возможность использова­ния искусственного интеллекта для совершенствования очень больших географических информационных систем, основанных на квадратомических деревьях.

Иерархические модели, как и прочие, могут описывать системы, данные и схемы процессов обработки данных. Следует, однако, под­черкнуть, что правильно составленная иерархическая схема должна содержать в качестве записей (вершин) атрибуты или агрегаты атри­бутов либо типы сущностей. Атрибуты или агрегаты атрибутов соот­ветствуют множествам или расширенным множествам. Дуги могут использоваться для представления агрегации двух атрибутов в тип сущности или двух типов сущности в тип связи. На практике часто в запись вставляют не только сущности базы данных, но и связи. Такая схема описывается моделью "сущность-связь" и будет рассмотрена ниже.

Анализ иерархических моделей (связей между их частями) с "не­правильным" описанием необходимо проводить, выделяя типы сущ­ностей.

Реляционная модель

В современных информационных системах и базах данных наибо­лее широко представлены реляционные модели (РМ).

Реляционная модель данных, разработанная Коддом еще в 1969-1970 гг. на основе математической теории отношений, опирается на си­стему понятий, важнейшие из которых - таблица, отношение, строка, столбец, первичный ключ, внешний ключ, домен (domain). Доменом на­зывается совокупность значений, не повторяющихся в одном столбце. Такая модель положена в основу так называемых электронных таблиц-специализированных баз данных.

Сущности, атрибуты и связи хранятся в таблицах как данные опре­деленной структуры. Структура данных обусловливается используемы­ми моделями данных.

Таблица состоит из строк и столбцов и имеет имя, уникальное внут­ри базы данных. Таблица отражает тип объекта реального мира (сущ­ность), а каждая ее строка - конкретный объект.

Основным средством структурирования данных в реляционной мо­дели является отношение (relation). Понятия отношения в реляционной модели и математике близки, хотя и не совпадают. Можно определить отношение как декартово произведение доменов.

Поясним связь перечисленных выше понятий между собой.

Таблица имеет столбцы и записи (строки). Каждая запись имеет на­бор атрибутов. Записи каждого типа образуют таблицу или отношение. Каждая строка - это запись или кортеж. Каждый столбец - это атрибут. Диапазон допустимых значений (домен) определяется для каждого атрибута. Степень отношения - число атрибутов в таблице: один атри­бут - унарное отношение, два атрибута - бинарное отношение, n атри­бутов - n-арное отношение.

Ключ отношения - это подмножество атрибутов, имеющее следу­ющие свойства:

Первичный атрибут отношения - это атрибут, присутствующий по крайней мере в одном ключе, все другие атрибуты непервичные.

В реляционной модели данных схема отношения может быть исполь­зована для представления типа сущности.

Реляционная модель является табличной моделью, некоторые типы связей между отношениями могут представляться в схеме неявно. В этих моделях не предусматривается поддержание логической упорядоченно­сти, однако кортежи помещаются в физическую память в соответствии с некоторым порядком. Физическая упорядоченность используется для выборки.

Рассмотренная выше иерархическая модель данных может быть све­дена к реляционной с помощью "нормализации" - пошагового процес­са приведения к табличной форме с полным сохранением информации.

Рассмотрим пример реляционной модели. Таблица "Сотрудник" (рис. ЗЛО, а) содержит сведения о сотрудниках, работающих в организации, а ее строки являются наборами значений атрибутов. Каждый столбец таб­лицы - это совокупность значений конкретного атрибута объекта. На­пример, столбец "Специальность" содержит множество значений спе­циальностей, столбец "Стаж" - целые неотрицательные числа.

Код

Ф.И.О

Специальность

Стаж

Название отдела

137

Иванов И.И.

Физик

10

Экспериментальный

139

Иванов А. П.

Экономист

9

Технологический

143

Петров А. Г.

Математик

12

Теоретический

147

Рыбкин И.И.

Математик

11

Экспериментальный

149

Слонов К. И.

Физик

5

Экспериментальный

151

Семин П. П.

Экономист

10

Теоретический

155

Трунов К.А.

Физик

11

Технологический

156

Теркин П. И.

Физик

14

Экспериментальный



Название отдела

Код отдела

Численность

Технологический Теоретический Экспериментальный

007 011 008

8 12 20

Рис. 3.10. Реляционная модель: а - "Сотрудник"; б - "Отдел"

Значения в столбце "Специальность" выбираются из множества имен всех возможных специальностей данной организации. В нем принципи­ально невозможно появление значения, которого нет в соответствую­щем домене, например "15" или "с.н.с".

Каждый столбец имеет имя, которое обычно записывается в верх­ней части таблицы. Оно должно быть уникальным в таблице, однако различные таблицы могут иметь столбцы с одинаковыми именами. Лю­бая таблица должна иметь по крайней мере один столбец. Столбцы рас­положены в таблице в соответствии с порядком следования их имен при ее создании. В отличие от столбцов строки не имеют имен, порядок их следования в таблице не определен, а количество логически не ограни­чено.

Так как строки в таблице не упорядочены, невозможно выбрать стро­ку по ее позиции - среди них не существует "первой", "второй", "после­дней". Любая таблица имеет один или несколько столбцов, значения в которых однозначно идентифицируют каждую ее строку. Такой столбец (или комбинация столбцов) называется первичным ключам (primary key).

В таблице "Сотрудник" первичный ключ - это столбец "код". В на­шем примере каждый сотрудник имеет единственный номер (код), по которому из таблицы извлекается необходимая информация. Следова­тельно, в этой таблице первичный ключ - это столбец "код". В нем зна­чения не могут дублироваться - в таблице "Сотрудник" не должно быть строк, имеющих одно и то же значение в столбце "код".

Взаимосвязь таблиц- важнейший элемент реляционной модели дан­ных. Она поддерживается внешними ключами (foreign key).

Рассмотрим пример, в котором база данных хранит информацию о сотрудниках (таблица "Сотрудник") и отделах (таблица "Отдел") в неко­торой организации. Первичный ключ таблицы "Отдел" (рис. 3.10, б) -столбец "Название отдела". Столбец "Численность" не может выпол­нять роль первичного ключа, так как в одной организации могут суще­ствовать несколько отделов с одинаковой численностью.

Любой сотрудник работает в одном отделе, что должно быть отра­жено в базе данных. Таблица "Сотрудник" содержит столбец "Название отдела" и значения в этом столбце выбираются из столбца "Название отдела" таблицы "Отдел". Столбец "Название отдела" является внешним ключом в таблице "Сотрудник".

Для обработки данных, размещенных в таблицах, нужны дополни­тельные данные о данных, например описатели таблиц, столбцов и т.д. Их называют обычно метаданными. Метаданные также представлены в табличной форме и хранятся в словаре данных (data dictionary).

Помимо таблиц в ГИС могут храниться и другие объекты, такие, как экранные формы, отчеты (reports), представления (views) и даже при­кладные программы, работающие с информацией, размещенной в реля­ционной модели.

Данные информационной системы должны быть однозначными и непротиворечивыми. В таком случае говорят, что реляционная модель удовлетворяет условию целостности (integrity). При этом на реляцион­ную модель накладываются некоторые ограничения, которые называют ограничениями целостности (data integrity constraints).

Существует несколько типов ограничений целостности. Например, требуется, чтобы значения в столбце таблицы выбирались только из со­ответствующего домена. На практике учитывают и более сложные огра­ничения целостности, в частности, целостность по ссылкам (reference integrity). Ее суть заключается в том, что внешний ключ не может быть указателем на несуществующую строку в таблице.

Модель "сущность-связь"

Модель данных "сущность-связь" или ER-модель (Entity Relationship Model) дает представление о предметной области в виде объектов, на­зываемых сущностями, между которыми фиксируются связи.

Для каждой связи определено число связываемых ею объектов. На схеме сущности изображаются прямоугольниками, связи - ромбами. Число связываемых объектов указывается цифрой на линии соединения объекта и связи.

Появление моделей данных типа "сущность-связь" было обусловле­но практическими потребностями проектирования баз данных для ком­мерческих СУБД. Такие модели имеют много общего с иерархически­ми и сетевыми моделями данных.

Теоретической основой этого подхода является известная модель, введенная М. Ченом в 1976 г. и получившая широкое распространение в качестве средств концептуального проектирования баз данных.

В основе модели Чена лежит представление о том, что предметная область состоит из отдельных объектов, находящихся друг с другом в определенных связях. Объекты описываются различными параметрами или атрибутами; однотипные объекты описываются одним и тем же на­бором параметров и объединяются во множества или классы (сущнос­ти). Конкретные объекты, составляющие класс, называют экземпляра­ми соответствующей сущности. Между сущностями идентифицируют­ся взаимосвязи различного вида: один к одному, один ко многим и др.

На рис. 3.11 приведена схема проектирования геоинформационной системы, построенная на основе модели "сущность-связь". В силу сво­ей ориентации на процесс проектирования ER-модели могут рассмат­риваться как обобщение и развитие иерархических и сетевых моделей. Это, в частности, означает, что допускаются явная спецификация огра­ничений целостности и непосредственное представление связей типа "один к одному" (1:1), "один ко многим" (1: М) , "многие к одному" (М : 1) "многие ко многим" (М : N).



Рис. 3.11. Модель "сущность - связь" проекта ГИС: КТС - комплекс технических средств

При построении ER-моделей важно учитывать разновидность объек­тов. Прежде всего это простые и сложные объекты. Объект модели рас­сматривается как простой, если он имеет свойства атомарного объекта или модели.

Сложными называют объекты, которые могут быть представле­ны в виде совокупности более простых объектов. На схеме это соответ­ствует тому, что блок, отображающий такой объект, может быть заменен несколькими взаимосвязанными подблоками, определяющими другие объекты или наборы данных.

Такое разделение условно, так как в одних случаях объект может считаться простым, в других - сложным.

Сложные объекты подразделяют на составные, обобщенные и агре­гированные.

Составной объект структурирован на основе связей "целое-часть". Он строится аналогично классификации.

Обобщенный объект построен на основе обобщения, т.е. на основе связей "тип-тип", "род-вид" и т.д. Выделение родовых-видовых связей позволяет осуществлять классификацию, т.е. выделение классов и под­классов, с использованием признаков и свойств объектов.

Агрегированным объектом, строго говоря, следует считать объект, спроектированный (смоделированный ) на основе агрегации. Однако в разных приложениях допускают введение дополнительных условий. В частности, агрегированными обозначают объекты, участвующие в ка­ком-либо процессе. Это соответствует описанию динамических свойств, и такие агрегированные объекты называют "отглагольными существи­тельными", например, поставлять - "поставка", производить - "произ­водство" и т.п.

Большинство ограничений в ER-моделях относится к классу явных. Однако в них существует ограничение для случая, когда сущность мо­жет быть идентифицирована по связям, а не по значениям своих атрибу­тов. Такое ограничение называется зависимостью по идентификации и обозначается как ID-зависимость,

Сетевые модели

Сетевые модели дают представление о проблемной области в виде объектов, связанных бинарными отношениями "многие ко многим". В отличие от иерархических моделей в сетевой модели каждый объект мо­жет иметь несколько "подчиненных" и несколько "старших" объектов.
Сетевые модели используют табличные и значительно чаще графо­вые представления. Вершинам графа сопоставляют некоторые типы сущ­ности, представляемые таблицами, а дугам - типы связей.

Многие типы сетевых моделей данных используют для описания эко­номических и организационных систем.

Наиболее развитой сетевой моделью данных является модель, раз­работанная Рабочей группой по базам данных Ассоциации по языкам систем обработки данных КОДАСИЛ. Ее спецификации впоследствии неоднократно пересматривались.

Дискуссия по поводу сравнительных достоинств реляционной и се­тевой моделей данных окончательно не закончилась. Пока признано, что нет модели, наилучшей в любых условиях, и что различным задачам адекватны различные модели.

Прочие модели

Бинарная модель. Она дает представление о проблемной области в виде бинарных отношений, характеризуемых триадой: объект, атрибут, значение.

Как известно, в иерархической графовой модели вершины представ­ляют атрибуты или агрегаты атрибутов и соответствуют множествам или расширенным множествам. Дуги могут использоваться для представле­ния агрегации двух атрибутов в тип сущности или двух типов сущности в тип связи.

Вершина графа бинарной модели соответствует классификацион­ному обобщению данных в типы, называемые категориями.

Дуга бинарной модели соответствует бинарному отношению кате­горий. Используя исчисление предикатов, бинарное отношение можно определить как двухместный предикат. Алгебра этих множеств опреде­ляется двухместными, или бинарными, операциями.

Графовое представление бинарных моделей дает структуру так на­зываемого В-дерева в отличие от Е-дерева - иерархической структуры общего вида.

Семантические сети. Как модели данных они созданы для изуче­ния проблем искусственного интеллекта. Базовые структуры в этих мо­делях могут быть представлены графом, множество вершин и дуг кото­рого, как для бинарной, так и сетевой модели образует сеть.

Первоначально такую модель предполагали использовать для опи­сания памяти в психологических задачах, но по мере развития она стала одним из основных способов представления знаний.

В отличие от сетевых моделей данных, применяемых в экономичес­кой сфере, семантические сети предназначены для представления и си­стематизации знаний общего характера. Развитие моделей этого класса связано с проблемами понимания естественного языка, а не с проблема­ми теории типов и категорий данных.

Выбор базовых информационных моделей во многом определяется не только задачами и технологией, но и возможностью программно-тех­нологических средств. Обоснованный выбор моделей данных - залог оптимальной работы ГИС. Этот процесс является обязательным при си­стемном анализе и построении ГИС.

Рассматривая базовые модели данных в ГИС для применения их в управлении, следует подчеркнуть, что эти же самые модели используют в информационных системах, решающих экономические задачи и зада­чи управления.

Следовательно, на уровне базовых моделей ГИС, как и ОАСУ, при­менимы для решения разнообразых задач управления объектами, тер­риториальными комплексами и т.д.

Выводы

Для эффективной работы ГИС необходимы обоснованный выбор базовых моделей данных и создание интегрированной информационной основы.

Выбор моделей данных осуществляется при анализе области при­менения ГИС.

Организация моделей данных ГИС для управления позволяет решать задачи, которые прежде входили в сферу деятельности АСУ.

ГИС является системой более широкого применения по сравнению с АСУ. Она используется в областях, в которых АСУ не применялись, это военное дело, навигация, экологический мониторинг, разведка под­земных ископаемых, анализ сетей и др.



4

Особенности

организации

данных в ГИС

ГИС как системы обработки пространственно-временной информа­ции относятся к классу информационных систем. Они имеют общие, присущие всему классу, и индивидуальные, присущие только ГИС, свой­ства. К особенностям ГИС следует отнести наличие больших объемов хранимой в них информации. Кроме того, они отличаются специфично­стью организации и структурирования моделей данных.

ГИС характеризуются разнообразием графических данных со спе­цифическими их частями и связями. В частности, карта может быть рас­смотрена как двухмерная аналоговая модель, отображающая трехмер­ную поверхность.

Используя процедуры абстракции, определим более общую модель геоинформационных данных как абстракцию данных, которые содер­жатся на земной поверхности. Такой подход требует выделения основ­ных типов данных и их многочисленных связей.

В разд.3 в качестве основного критерия анализа взаимосвязи частей и построения базовых моделей данных использовалась структура. Этот же подход приемлем для построения моделей геоинформационных данных.

Напомним, что одной из основных моделей в первых ГИС был на­бор имен и характеристик в сочетании со множеством именованных данных, местонахождение которых задается координатами. Эта простая модель не содержала каких-либо семантических данных, помогающих пользователю при работе с базами данных. Дальнейшие исследования привели к необходимости развития и усложнения такой модели. Други­ми словами, возникла потребность создания общей модели данных ГИС и ее основных частей для оптимальной обработки в базах данных и эф­фективного описания объектов.

Данные реального мира, отображаемые в ГИС, можно рассматри­вать с учетом трех аспектов: пространственного, временного и темати­ческого.

Пространственный аспект связан с определением местоположе­ния, временной - с изменениями объекта или процесса с течением вре­мени, в частности от одного временного среза до другого. Примером временных данных служат результаты переписи населения. Тематичес­кий аспект обусловлен выделением одних признаков объекта и исклю­чением из рассмотрения других.

Все измеримые параметры моделей геоинформационных данных подпадают под одну из этих характеристик: место, время, предмет. Затруднительно исчерпывающим образом описать сразу все три эти ха­рактеристики. Поэтому при построении моделей данных на основе на­блюдений явлений реального мира один параметр считают "неизмен­ным", изменения другого "задаются" и при этом "измеряют" изменения третьего параметра.

Зафиксировав географическое положение и изменяя время, можно получить временные ряды данных. Зафиксировав время и изменяя гео­графическое положение, получаем данные по профилям.

В большинстве технологий ГИС для определения места используют один класс данных -координаты, для определения параметров времени и тематической направленности - другой класс данных -атрибуты.

Однако прежде чем рассмотреть два основных класса данных в ГИС, необходимо рассмотреть методы определения местоположения точек объектов на поверхности Земли.

4.1. Определение положения точек на поверхности Земли

Координатные данные, составляющие один из основных классов гео­информационных данных, используют для указания местоположения на земной поверхности.

Поверхность Земли имеет сложную форму. При обшей площади ее поверхности 510 млн. км2 71 % приходится на дно морей и океанов и 29 % - на сушу. Это дает основание считать, что земная поверхность состоит из двух резко отличающихся морфологических элементов - ма­териков и океанов.
С учетом того что поверхность вод Мирового океана занимает по­чти 3/4 поверхности Земли, за общую фигуру земли принимают тело, ограниченное поверхностью воды океанов. Такая поверхность называ­ется уровненной. Потенциал силы тяжести на ней имеет одно и то же значение. Другими словами, эта поверхность везде перпендикулярна от­весной линии, т.е. везде горизонтальна.

Можно построить семейство горизонтальных поверхностей. Повер­хность, которая совпадает с поверхностью Мирового океана в состоя­нии покоя и равновесия и продолжена под материками, образует фигу­ру, принятую в геодезии за общую фигуру Земли, называемую геоид.

С помощью методов дистанционного зондирования удалось уста­новить, что Земля имеет грушевидную форму. В качестве математичес­кой модели Земли применяют эллипсоид, который в геодезии принято называть референц-эллипсоидом. В СССР до 1946 г. использовался эл­липсоид, полученный Ф. Бесселем. В 1946 г. для обязательного исполь­зования был введен эллипсоид, вычисленный в ЦНИИГАиК в 1940 г. под руководством Ф.Н. Красовсмого при участии А.А. Изотова.

Для отображения положения точек поверхности на плоскости ис­пользуют различные математические модели поверхности и различные системы координат. На практике применяют два основных типа коорди­нат: плоские и сферические. Реже применяют криволинейные или по­лярные.

Выбор системы координат зависит от размеров исследуемых участ­ков поверхности, как следствие, от влияния кривизны Земли. При изоб­ражении небольших участков Земли часть уровненной поверхности мож­но принять за плоскость. Такими участками будут участки до 20 км дли­ной и площадью до 400 км2.

В этих случаях применимы плоские координаты. Плоские декартовы координаты определяются заданием двух осей. При этом обыч­но координата X указывает на восток, Y - на север. Задают масштабные отрезки. Упорядоченная пара (X, Y) определит положение точки в за­данной системе.

Плоские полярные координаты используют расстояние от начала координат (r) и угол ( Ф) от фиксированного направления. Направление обычно фиксируется на север, а угол отсчитывается по часовой стрелке от него. Полярные координаты удобны при проведении измерений от какой-либо заданной точки, например когда используются данные та­ких источников, как радарные съемки.

При необходимости учета кривизны Земли применяют простран­ственные системы координат.

Для определения географической системы координат (разновидно­сти сферической системы) введем следующие понятия:

Положение точки определяется широтой (Ф) и долготой (Я.).

Широта - это угол между точкой и экватором вдоль меридиана1. Она изменяется от -90 ° (южный полюс) до +90 ° (северный полюс).

Долгота - это угол в плоскости экватора между меридианом точки и главным (нулевым) меридианом, проходящим через Гринвич (Англия). Она изменяется от -180 ° (западная долгота) до +180 ° (восточная дол­гота).

Основными понятиями этой системы координат являются:

меридиан - линия постоянной долготы;

параллель - линия постоянной широты;

большой круг - воображаемый круг на земной поверхности, обра­зованный плоскостью, проходящей через центр земного шара;

малый круг - воображаемый круг на земной поверхности, образо­ванный плоскостью, не проходящей через центр земного шара.

Рассмотренные системы координат носят в большей степени теоре­тический характер. На практике используют более широкий набор сис­тем координат[2]: геоцентрические, топоцентрические, полярные гео­дезические, эллиптические и др.

4.2. Координатные данные

Геометрически информация, содержащаяся на карте, может быть определена как совокупность наборов точек, линий, контуров и площа­дей, имеющих метрические значения, отражающие трехмерную реаль­ность. Эта информация образует класс координатных данных ГИС,

1 Такое определение широты не годится для эллипсоида.

являющийся обязательной характеристикой геообъектов. Будучи частью (классом) общей модели данных в ГИС, координатные данные опреде­ляют класс координатных моделей.

Основные типы координатных моделей

Класс координатных моделей можно разбить на типы. При этом сле­дует учесть, что попытка включить в описание широкий набор групп приводит к усложнению базы данных и процессов обработки. В ГИС используют меньшее число атомарных моделей по сравнению с САПР.

В ГИС, как и в САПР, применяют набор базовых геометрических типов моделей, из которых создают все остальные, более сложные. С учетом предметной области карт ограничиваются лишь описанием та­ких типов (структур географических данных), которые относятся к пред­ставлению топографии и к тематическому упорядочению.

В ГИС включают следующие основные типы координатных данных (рис. 4.1):

В некоторых системах в описание основных типов моделей включа­ют понятие пространственная сеть, которая является развитием типа данных район. Контуры и линии часто объединяют общим термином -"линейные объекты". Таким образом, в разных ГИС число основных типов координатных моделей меняется от трех до пяти. Проводя сравне­ние с технологиями САПР, отметим, что основные типы координатных данных являются аналогами атомарных моделей в САПР, которые назы­вают примитивами.

Приведенные выше понятия носят концептуальный характер. На практике для построения реальных объектов используют большее чис­ло составных координатных моделей. В разных ГИС они незначительно отличаются, поэтому рассмотрим в качестве примера набор данных в системе ГеоДраф:

Линия незамкнутая








Точка
Контур

(замкнутая

линия)



Полигон (ареал)

Рис. 4.1. Основные типы координатных данных


• пользовательский идентификатор (внутренний ключ) простран­
ственного объекта - целое число, служащее для связи объектов цифро­
вой карты с базой (таблицами) тематических данных. Назначается и из­
меняется только пользователем.

На рис. 4.2 показаны основные из рассмотренных элементы вектор­ных данных ГИС.


Висячая дуга

Замкнутая дуга




Висячий узел

Псевдоузел

Нормальный узел

Рис. 4.2. Основные элементы векторных данных ГИС

Точечные объекты. Простейший тип пространственного объекта задают точечные данные, к которым относятся не только точки, но и все точечные условные знаки. Выбор объектов, представляемых в виде то­чек, зависит от масштаба карты или исследования. Например, на круп­номасштабной карте точками показываются отдельные строения, а на мелкомасштабной карте - города.

Особенность точечных объектов состоит в том, что они хранятся и в виде графических файлов, как другие пространственные объекты, и в виде таблиц, как атрибуты. Последнее обусловлено тем, что координаты каждой точки описывают как два дополнительных атрибута. В силу это­го информацию о наборе точек можно представить в виде развернутой таблицы или таблицы, содержащей помимо координат наборы атрибу­тов (идентификационные номера, тематические характеристики и т.д.). В таких таблицах каждая строка соответствует точке - в ней собрана вся информация о данной точке. Каждый столбец - это признак, содержащий типизированные данные: координаты или атрибуты. Каждая точка незави­сима от всех остальных точек, представленных отдельными строками.

Линейные объекты. Они широко применяются для описания се­тей, для которых в отличие от точечных объектов характерно присут­ствие топологических признаков.

Любая сеть состоит из узлов (вершин) - соединений, концов обо­собленных линий и звеньев (дуг) - цепей в модели базы данных.

Для каждого узла существует специальная характеристика, называ­емая валентностью, определяемая количеством звеньев в нем. Концы обособленных линий одновалентны. Для уличных сетей (пересечения типа "крест") наиболее характерны четырехвалентные узлы. В гидроло­гии чаще всего встречаются трехвалентные узлы.

В древовидной сети (Е-дерево) каждая пара узлов имеет лишь одно соединение, не допускаются петли и замкнутые контуры, большая часть речных сетей имеет древовидную структуру.

Линейные объекты, как и точечные, имеют свои атрибуты, причем разные для дуг (звеньев) и узлов. Атрибутами для дуг являются:

Некоторые атрибуты (например, названия пересекающихся улиц) служат для связи одного типа объектов с другими (узлы со звеньями), другие характеризуют только участки звеньев сети.

Во многих ГИС для включения дополнительных атрибутов в сеть необходимо разбиение существующих звеньев и создание новых узлов. Например, звено улицы, часть которой ремонтируется, разрывается на месте начального и конечного участка ремонта, его атрибуты присваи­ваются новому (двухвалентному) узлу. Другой пример: для отрезка до­роги, проходящей через мост, создаются новое звено и два новых узла. Такой подход может привести к появлению недопустимо большого чис­ла звеньев и двухвалентных узлов, поэтому он имеет ограничение, оп­ределяемое ресурсами конкретной ГИС.

Сети часто используют как системы линейной адресации. В этих случаях точки размещают в сети по данным о номере звена и о расстоя­нии от его начала. Это более удобно, чем использовать X, Y координаты точки из таблицы, поскольку такие данные непосредственно указывают положение точки в сети.

Данный подход определяет метод присвоения атрибутов отдельным участкам звеньев. При этом линейные объекты (здания, тоннели) хра­нятся в отдельных таблицах, а с сетью они увязаны путем указания но­мера звена и расстояния от его начала.

Для точечных объектов необходимо указать одно значение коорди­нат, для линейных - два (для начальной и конечной точек). Это позволя­ет при необходимости рассчитать X, Y координаты этих объектов и ис­ключает необходимость дробить звенья и вводить двухвалентные узлы.

Ареалы. В настоящее время в ГИС может быть представлено не­сколько типов ареалов: зоны в приложении к окружающей среде или природным ресурсам, социально-экономические зоны, данные об уго­дьях и др.

Для ареальных объектов границы могут определяться свойством или явлением, а также независимо от явления (затем перечисляются значе­ния атрибутов). Кроме того, границы могут устанавливаться искусст­венно, например для микрорайонов.

Взаимосвязи между координатными моделями

В общем случае пространственные данные могут иметь большое число разнообразных связей. Эти связи играют важную роль для про­странственного анализа данных. Например, связь типа "содержится в" позволяет соотносить объекты с их окружением, связь "пересекает" меж­ду двумя линиями важна для анализа маршрутов в сетях.

Взаимосвязи могут существовать между объектами одного типа или разных типов.

Исходя из критерия построения моделей можно выделить три ос­новных типа взаимосвязей между координатными объектами.

Первый тип - взаимосвязи для построения сложных объектов из простых элементов, например, взаимосвязи между дугой и упорядочен­ным набором определяющих ее вершин, взаимосвязи между полигоном и упорядоченным набором определяющих его линий. При этом исполь­зуют процедуры агрегации и обобщения (см. разд. 3).

Второй тип - взаимосвязи, которые можно вычислить по коорди­натам объектов. Например, координаты точки пересечения двух линий определяют взаимосвязь типа "скрещивается" и наличие четырехвален­тного узла. Табличные координаты отдельной точки и данные о грани­цах полигонов позволяют найти полигон, включающий данную точку. Этим определяется взаимосвязь типа "содержится в". Используя данные о границах полигонов, можно выяснить, перекрываются ли полигоны, и тем самым установить взаимосвязь типа "перекрывает". Другими словами, вто­рой тип связи содержится в атрибутивных данных в неявном виде.

Третий тип - "интеллектуальный". Эти взаимосвязи нельзя вы­числить по координатам, они должны получать специальное описание и семантику при вводе данных. Например, можно вычислить пересечение двух линий, но, если этими линиями являются автодороги, нельзя ска­зать, пересекаются они или в этом месте находится развязка автодорог. Следовательно, для решения дополнительных задач необходима инфор­мация о связях. Учет связей происходит при кодировании данных, т.е. в подсистемах семантического моделирования.

4.3. Номенклатура и разграфка топографических карт

Поскольку основой интеграции данных в ГИС является географи­ческая информация, необходимо рассмотреть понятия разграфка и но­менклатура топографических карт.

Разграфкой называется разделение топографических карт на листы.

Номенклатура - это система обозначений отдельных листов топо­графических карт.

Общегеографические карты делятся на три вида:

Обзорно-топографические карты составляются по картам более крупных масштабов.

Топографические карты составляются по результатам съемок территорий и отличаются детальностью изображения местности. Это мно-голистные карты, т.е. на каждом листе отображается часть территории, а в совокупности на всех листах содержится полное отображение. Стро­го говоря, криволинейная часть поверхности отображаемой на листе карты соответствует некоей криволинейной трапеции. Поэтому для обо­значения определенных листов карты используют термин трапеция.



1   2   3   4   5   6   7   8   9   ...   14


Учебный материал
© nashaucheba.ru
При копировании укажите ссылку.
обратиться к администрации