Инфологическая модель данных "сущность-связь". Инфологическая модель баз данных сущность-связь

Инфологическая модель (информационно-логическая модель) - ориентированная на человека и не зависимая от типа СУБД модель предметной области, определяющая совокупности информационных объектов, их атрибутов и отношений между объектами, динамику изменений предметной области, а также характер информационных потребностей пользователей. Инфологическая модель предметной области может быть описана моделью "сущность-связь" (моделью Чена), в основе которой лежит деление реального мира на отдельные различимые сущности, находящиеся в определенных связях друг с другом, причем обе категории - сущность и связь полагаются первичными, неопределенными понятиями.

Цель инфологического моделирования

обеспечение наиболее естественных для человека способов сбора и представления той информации, которую предполагается хранить в создаваемой базе данных. Поэтому инфологическую модель данных пытаются строить по аналогии с естественным языком (последний не может быть использован в чистом виде из-за сложности компьютерной обработки текстов и неоднозначности любого естественного языка). Основными конструктивными элементами инфологических моделей являются сущности, связи между ними и их свойства (атрибуты).

Основные понятия

Сущность – любой различимый объект (объект, который мы можем отличить от другого), информацию о котором необходимо хранить в базе данных. Сущностями могут быть люди, места, самолеты, рейсы, вкус, цвет и т.д. Необходимо различать такие понятия, как тип сущности и экземпляр сущности. Понятие тип сущности относится к набору однородных личностей, предметов, событий или идей, выступающих как целое. Экземпляр сущности относится к конкретной вещи в наборе. Например, типом сущности может быть ГОРОД, а экземпляром – Москва, Киев и т.д.
Атрибут – поименованная характеристика сущности. Его наименование должно быть уникальным для конкретного типа сущности, но может быть одинаковым для различного типа сущностей (например, ЦВЕТ может быть определен для многих сущностей: СОБАКА, АВТОМОБИЛЬ, ДЫМ и т.д.). Атрибуты используются для определения того, какая информация должна быть собрана о сущности. Примерами атрибутов для сущности АВТОМОБИЛЬ являются ТИП, МАРКА, НОМЕРНОЙ ЗНАК, ЦВЕТ и т.д. Здесь также существует различие между типом и экземпляром. Тип атрибута ЦВЕТ имеет много экземпляров или значений: Красный, Синий, Банановый, Белая ночь и т.д., однако каждому экземпляру сущности присваивается только одно значение атрибута.

Абсолютное различие между типами сущностей и атрибутами отсутствует. Атрибут является таковым только в связи с типом сущности. В другом контексте атрибут может выступать как самостоятельная сущность. Например, для автомобильного завода цвет – это только атрибут продукта производства, а для лакокрасочной фабрики цвет – тип сущности.

Ключ – минимальный набор атрибутов, по значениям которых можно однозначно найти требуемый экземпляр сущности. Минимальность означает, что исключение из набора любого атрибута не позволяет идентифицировать сущность по оставшимся. Для сущности Расписание ключом является атрибут Номер_рейса или набор: Пункт_отправления, Время_вылета и Пункт_назначения (при условии, что из пункта в пункт вылетает в каждый момент времени один самолет).

Связь – ассоциирование двух или более сущностей. Если бы назначением базы данных было только хранение отдельных, не связанных между собой данных, то ее структура могла бы быть очень простой. Однако одно из основных требований к организации базы данных – это обеспечение возможности отыскания одних сущностей по значениям других, для чего необходимо установить между ними определенные связи. А так как в реальных базах данных нередко содержатся сотни или даже тысячи сущностей, то теоретически между ними может быть установлено более миллиона связей. Наличие такого множества связей и определяет сложность инфологических моделей.

Требования, предъявляемые к инфологической модели

Адекватное, отображение предметной области
Недопущение неоднозначной трактовки модели
Четкое определение моделируемой предметной области (конечность модели)
Легкая расширяемость, обеспечивающая ввод новых данных без изменения ранее определенных, то же относят и к удалению данных
Возможность композиции и декомпозиции модели в связи с большой размерностью реальных инфологических моделей
Легкое восприятие различными категориями пользователей; желательно, чтобы инфологическую модель строил (или хотя бы участвовал в ее создании) специалист, работающий в данной предметной области, а не только проектировщик систем машинной обработки данных
Применимость языка спецификаций модели как при ручном, так и при автоматизированном проектировании информационных систем

Компоненты инфологической модели

Описание объектов и связей между ними, называемой ER-моделью (расшифровывается как модель "Сущность-связь")
Описание информационных потребностей пользователей
Алгоритмические связи атрибутов
Лингвистические отношения, обусловленные особенностями обображения предметной области в языковой среде
Ограничения целостности

Построение модели "Объект - свойтво - отношение"

Классы объектов

В предметной области в процессе ее обследования и анализа выделяют классы объектов . Классом объектов называют совокупность объектов, обладающих одинаковым набором свойств. Например, если в качестве предметной области рассмотреть вуз, то в ней можно выделить следующие классы объектов: учащиеся, преподаватели, аудитории и т. д. Объекты могут быть реальными, как названные выше, а могут быть и абстрактными, как, например, предметы, которые изучают студенты.

При отражении в информационной системе каждый объект представляется своим идентификатором, который отличает один объект класса от другого, а каждый класс объектов представляется именем этого класса. Так, для объектов класса «ИЗУЧАЕМЫЕ ПРЕДМЕТЫ» идентификатором каждого объекта будет «НАЗВАНИЕ ПРЕДМЕТА». Идентификатор должен быть уникальным.

Каждый объект обладает определенным набором свойств. Для объектов одного класса набор этих свойств одинаков, а их значения, естественно, могут различаться. Например, для объектов класса «СТУДЕНТ» таким набором свойств, описывающим объекты класса, может быть «ГОД РОЖДЕНИЯ», «ПОЛ» и др.

При описании предметной области надо изобразить каждый из существующих классов объектов и набор свойств, фиксируемый для объектов данного класса.

Будем использовать для отображения объектов и их свойств следующие обозначения.

Каждому классу объектов в инфологической модели присваивается уникальное имя. Именем класса объектов является грамматический оборот существительного (существительное, у которого могут быть прилагательные и предлоги). Если имя состоит из нескольких слов, то желательно, чтобы первым стояло существительное. Существительное должно употребляться в единствен ном, а не во множественном числе. Поэтому для рассмотренного выше класса объектов «ИЗУЧАЕМЫЕ ДИСЦИПЛИНЫ» лучше дать имя «ДИСЦИПЛИНА ИЗУЧАЕМАЯ». Если в предметной области традиционно используются разные имена для обозначения какого-либо класса объектов (т. е. имеет место синонимия), то все они должны быть зафиксированы при описании системы, затем одно из них выбирается за основное, и только оно должно в дальнейшем использоваться в ИЛМ. Помимо имени класса объектов в ИЛМ может использоваться его короткое кодовое обозначение.

При построении инфологической модели желательно дать словесную интерпретацию каждой сущности, особенно если возможно неоднозначное толкование понятия.

Связи между объектом и его свойствами

При описании предметной области надо отразить связи между объектом и характеризующими его свойствами. Это изображается просто в виде линии, соединяющей обозначение объекта и его свойств.

Связь между объектом и его свойством может быть различной. Объект может обладать только одним значением какого-то свойства. Например, каждый человек может иметь только одну дату рождения. Назовем такие свойства единичными . Для других свойств возможно существование одновременно нескольких значений у одного объекта. Пусть, например, при описании «СОТРУДНИКА» фиксируется в качестве его свойства «ИНОСТРАННЫЙ ЯЗЫК», которым он владеет. Так как сотрудник может знать несколько иностранных языков, то такое свойство будем называть множественным . При изображении связи между объектом и его свойствами для единичных свойств будем использовать одинарную стрелку, а для множественных свойств - двойную.

Кроме того, некоторые свойства являются постоянными, их значение не может измениться с течением времени. Назовем такие свойства статическими , а те свойства, значение которых может изменяться со временем, будем называть динамическими .

Другой характеристикой связи между объектом и его свойством является признак того, присутствует ли это свойство у всех объектов данного класса либо отсутствует у некоторыми объектов. Например, для отдельных служащих может иметь место свойство «УЧЕНАЯ СТЕПЕНЬ», а другие объекты этого класса могут не обладать, указанным свойством. Назовем такие свойства условными.

При изображении связи условного свойства с объектом будем использовать пунктирную линию, а для обозначения динамических и статических свойств будем использовать буквы D и S над соответствующей линией.

Иногда в инфологической модели бывает полезно ввести понятие «составное свойство». Примерами таких свойств могут быть «АДРЕС», состоящий из «ГОРОДА», «УЛИЦЫ», «ДОМА» и «КВАРТИРЫ», и «ДАТА РОЖДЕНИЯ», состоящая из «ЧИСЛА», «МЕСЯЦА» и «ГОДА». Используем в ИЛМ для обозначения составного свойства квадрат, из которого исходят линии, соединяющие его с обозначениями составляющих его элементов.

Связи между объектами

Кроме связи между объектом и его свойствами, в инфологической модели фиксируются связи между объектами разных классов. Различают связи типа:

«один к одному» (1:1): в каждый момент времени каждому представителю (экземпляру) сущности А соответствует 1 или 0 представителей сущности В:

Студент может не "заработать" стипендию, получить обычную или одну из повышенных стипендий.

«один ко многим» (1:М): одному представителю сущности А соответствуют 0, 1 или несколько представителей сущности В.

Квартира может пустовать, в ней может жить один или несколько жильцов.

«многие к одному» (М:1)

Иногда эти типы связей называются степенью связи. Кроме степени связи в инфологической модели для характеристики связи между разными сущностями надо указывать так называемый «класс принадлежности», который показывает, может ли отсутствовать связь объекта данного класса с каким-либо объектом другого класса. Класс принадлежности сущности должен быть либо обязательным, либо необязательным.

Объясним сказанное на конкретных примерах. Как указывалось выше, инфологическая модель строится не для отдельного объекта, а отображает классы объектов и связи между ними. Соответствующая диаграмма, отображающая это, называется диаграммой ER-типа (такое название обусловлено тем, что по-английски слово «сущность» пишется «Entity», а связь - «Relationship»). Однако иногда, кроме диаграмм ER-типа, используются диаграммы ER-экземпляров.

Предположим, что в инфологической модели отображается связь между двумя классами объектов: «ЛИЧНОСТЬ» и «ЯЗЫК ИНОСТРАННЫЙ». -

Предположим, что предметной областью является завод, некоторые сотрудники которого знают иностранный язык, но ни один из них не владеет более чем одним языком. Естественно, что имеется много языков, которыми не владеет ни один из сотрудников, а также что некоторые из сотрудников владеют одним и тем же иностранным языком.

Предположим далее, что предметной областью является институт, а объект «ЛИЧНОСТЬ» отображает абитуриентов, поступающих в этот институт. Каждый из абитуриентов обязательно должен владеть каким-либо иностранным языком, но никто ни владеет более чем одним языком.

Как в первом, так и во втором рассмотренном случае между сущностями наблюдается отношение М:1. На диаграмме это отображено со стороны объекта «ЛИЧНОСТЬ» двойной стрелецкой, а со стороны объекта «ЯЗЫК ИНОСТРАННЫЙ» - одинарной стрелкой на линии, изображающей связь между данными сущностями.

Разница в рассматриваемых ситуациях заключается в том, что в первом случае класс принадлежности является необязательным для обоих сущностей, а во втором - для сущности «ЛИЧНОСТЬ» класс принадлежности является обязательным. На диаграмме это отображено точкой в прямоугольнике, соответствующем объекту «ЛИЧНОСТЬ».

Пусть предметная область будет та же, что и в предыдущем случае, но имеют место ситуации, что некоторые абитуриенты знают несколько иностранных языков. В этом случае связь между объектами будет иметь тип М: М.

Предположим, что предметной областью является некоторый лингвистический институт, в котором каждый из сотрудников обязательно знает несколько иностранных языков, и по каждому из известных науке языков в этом институте имеется хотя бы один специалист, владеющий им.

В этом случае связь между объектам» будет М: М, и класс принадлежности обоих сущностей является обязательным" .

Простые и сложные объекты

Объект называется простым, если он рассматривается как неделимый. Сложный объект представляет собой объединение других объектов, простых или сложных, также отображаемых в информационной системе. Понятие «простой» и «сложный» объект является относительным. В одном рассмотрении объект может считаться простым, а в другом этот же объект может рассматриваться как сложный. Например, объект «стул» в подсистеме учета материальных ценностей будет рассматриваться как простой объект, а для предприятия, производящего стулья, это будет составной объект (включающий «ножки», «спинку», «сиденье» и пр.).

Выделяют несколько разновидностей сложных объектов: составные объекты, обобщенные объекты и агрегированные объекты.

Составной объект соответствует отображению отношения «целое- часть». Примерами составных объектов являются УЗЛЫ - ДЕТАЛИ, КЛАСС -УЧЕНИКИ и т. п.

Для отображения составных объектов в инфологической модели обычно не используются какие-либо специальные условные обозначения. Связь между составным и составляющими его объектами отображается так же, как это было описано выше. Причем характер связи тоже может быть разный: так, «ДЕТАЛИ» и «УЗЛЫ» связаны между собой отношением типа М: М, а «ГРУППА» и «СТУДЕНТЫ» - отношением 1: М.

Обобщенный объект отражает наличие связи «род - вид» между объектами предметной области. Например, объекты СТУДЕНТ, ШКОЛЬНИК, АСПИРАНТ, УЧАЩИЙСЯ ТЕХНИКУМА образуют обобщенный объект УЧАЩИЕСЯ. Объекты, составляющие обобщенный объект, называются его категориями.

Как «родовой» объект, так и «видовые» объекты могут обладать определенным набором свойств. Причем наблюдается так называемое наследование свойств, т. е. «видовой» объект обладает всеми теми свойствами, которыми обладает «родовой» объект, плюс свойствами, присущими только объектам этого вида.

Агрегированные объекты соответствуют обычно какому-либо процессу, в который оказываются «вовлеченными» другие объекты. Например, агрегированный объект «ПОСТАВКА» объединяет в себе объекты «ПОСТАВЩИК», который поставляет продукцию, «ПОТРЕБИТЕЛЬ», который получает эту продукцию, а также саму поставляемую «ПРОДУКЦИЮ». Своеобразным объектом является «ДАТА ПОСТАВКИ». Агрегированный объект может, так же как и простой объект, иметь характеризующие его свойства. В рассматриваемом примере таким свойством может быть размер поставки.

Сравнение методик построения ER-моделей

ER-модели очень широко используются в практике проектирования баз данных. Причем они используются как при ручном, так и при автоматизированном проектировании. Методики графического представления ER-моделей несколько различаются в разных системах автоматизации проектирования и в разных литературных источниках.

Далее мы рассмотрим особенности представления ER-моделей в трех наиболее известных системах автоматизации проектирования (CASE-системах): Prokit*WORKBENCH, Desing/IDEF и CASE ORACLE, а также в некоторых литературных источниках.

Можно выделить несколько категорий различий в изображении ER-моделей.

1. Несущественные различия, связанные с использованием разных условных обозначений для отображения одних и тех же сущностей. Так, для обозначения объекта могут использоваться прямоугольники, блоки с закругленными углами, овалы и т. д.

Следующая совокупность различий связана со способом изображения связей между объектами и заданием имен связей. Так, в некоторых методиках для изображения связи в разъеме линии, отображающей эту связь, предлагается изображать ромб и внутри него или рядом с ним писать название связи (модель Чена). Так как связи являются двусторонними, то наименование связи будет меняться в зависимости от того, с какой стороны ее рассматривать. Поэтому часто в ИЛМ предлагается указывать оба этих названия (например, в системах CASE ORACLE, Prokit). Причем для того, чтобы было понятно, к какому из направлений связи какое название относится, принимают определенные соглашения о том, как располагать эти названия на схемах. Например, сверху линии помещать названия, относящиеся к левой стороне связи, а под линией - к правой. Наличие такого большого числа обозначений и подписей загромождает модель. Кроме того, само присвоение названий часто представляет некоторую трудность, что увеличивает трудоемкость инфологического моделирования. Поэтому в тех случаях, когда это не приводит к двусмысленностям и неясностям, если это позволяет система, можно рекомендовать не использовать особые обозначения и имена для связей.

Разные условные обозначения используются и для изображения типа связи (1:1, 1: М, М:М). Некоторые системы автоматизации проектирования, например Prokit, предоставляют пользователю возможность выбрать из множества возможных обозначений те, которые ему больше нравятся или более привычны. В этой системе для обозначения вида связей между объектами могут использоваться следующие условные обозначения.

Для отображения обязательности вхождения объектов в связь («класс принадлежности/членства») также используются разные условные обозначения. Так, в CASE ORACLE класс членства передается следующим образом; с той стороны связи, с которой элемент может не обязательно входить в связь, используется Пунктирная линия, а там, где членство обязательное, - сплошная линия. С учетом класса членства возможны типы отношений, представленные на рисунке.

Используемые в CASE ORACLE обозначения более удобны, так как если объект участвует в большом количестве связей, то дополнительные прямоугольники с точками становится неудобно располагать на рисунке.

В Desing IDEF характер членства в связи изображается, как показано на рисунке.

2. Различия, также связанные со способом изображения тех или иных ситуаций, но более существенные, приводящие к различиям в самих моделях. Например, в системе 3RACLE обобщенный объект изображается путем «вложения» блоков, обозначающих «видовые» объекты, внутрь блока, изображающего «родовой» объект. На рисунке показано изображение объекта «ЛИЧНОСТЬ», рассмотренного выше, в условных обозначениях, используемых в CASE ORACLE.

Как следует из сравнения рисунков, изображение обобщенных объектов в сравниваемых методиках различается не только по форме представления. Так, если объект классифицируется по разным признакам, то при использовании первого из рассмотренных способов изображения обобщенных объектов наглядно видно, по какому признаку осуществляется классификация. Второй же способ изображения не обеспечивает этого. Другими словами, предложенный в начале главы способ изображения обобщенных объектов является семантически более содержательным, информативным.

На рисунке изображен тот же обобщенный объект ЛИЧНОСТЬ с использованием синтаксиса системы IDEF1X. По своей семантике этот способ изображения ближе к предложенному нами базовому способу изображения ИЛМ. Разница заключается в том, что для сущностей-категорий и «общих» сущностей в IDEF1X используются одинаковые обозначения-

3. Кроме различия в изображении тех или иных сущностей, в теории инфологического моделирования наблюдается расхождение в используемой терминологии. Например, в CASE ORACLE родовой объект называется супертип (syper-type), а видовой - подтип (sub-type). Таких различий в терминологии можно привести много, но это не является сейчас нашей целью.

4. Следующий круг различий связан с пространственным изображением тех или иных компонентов ИЛМ. Например, свойства объекта иногда не отображаются на той же схеме, что объекты и связи между ними, а их описания выполняются отдельно. Часто «писание свойств представляют в табличной или иной аналитической форме, а не в графическом виде.

ИЛМ даже для небольшой и несложной предметной области включает в себя описание значительного числа компонентов и связей между ними. При этом встает проблема наглядности общей схемы. Эта проблема по-разному решается при ручном и автоматизированном построении инфологической модели. В автоматизированных системах чаще всего строится единое изображение ER-модели и используется прием масштабирования, когда, уменьшая или увеличивая масштаб изображения, на экране можно посмотреть как всю схему, так и отдельный ее фрагмент.

Различные приемы используются и для того, чтобы уменьшить число пересечений линий на схеме. Так, в системе Prokit для этих целей допускается дублирование изображения объекта и размещение этого дубля рядом с тем объектом, с которым его надо связать. Для того чтобы показать, что это не новый объект, используется какое-либо условное обозначение, например, у соответствующих блоков отчеркивается уголок.

При ручном проектировании изобразить всю ER-модель в виде единой схемы обычно не представляется возможным. В этом случае можно порекомендовать следующий прием: изобразить и описать каждый объект самостоятельно, присвоить каждому объекту короткий код. Используя эти кодовые обозначения, для каждого объекта указать его связи с другими объектами.

5. Некоторые возможности, имеющиеся в одних системах или методиках, отсутствуют в других. В этих случаях возможны различные варианты: а) для изображения ситуации используются возможности, предоставляемые моделью, но это требует применения определенных приемов, часто несколько искусственных, для их представления; б) ситуация просто не отображается в модели.

Например, во многих системах инфологического моделирования предполагается, что свойства у объекта могут быть только единичными. В этом случае каждое множественное свойство следует представлять как самостоятельный объект и изображать связь между этим вновь введенным объектом и исходным объектом.

В IDEF свойства объекта могут быть только единичные и всегда определенные (не условные). Если свойство может отсутствовать у каких-либо объектов, то надо выделять отдельные сущности, например, ШТАТНЫЙ СЛУЖАЩИЙ с атрибутом ОКЛАД и ПОЧАСОВИК, не имеющий такого атрибута. Это приведет к необходимости выделения большого числа объектов и связей в ИЛМ, к снижению наглядности модели. Например, отдельные экземпляры объекта ЛИЧНОСТЬ могут иметь или не иметь ученое звание, ученую степень, год окончания вуза и многих других признаков. По каждому из этих признаков придется выделять подклассы.

Некоторые методики не вводят агрегированный объект как самостоятельную категорию. В этом случае агрегированный объект изображается как простой, при этом пользователь должен предварительно определить его идентификатор и свойства. Если модель допускает изображение только двоичных связей, то проектировщик должен преобразовать n-арную связь в совокупность бинарных.

Кроме указанных сложностей при определении идентификатор ра агрегированной сущности, могут возникнуть и проблемы при переходе от ИЛМ к даталогической модели.

Вариант, когда ситуация не может быть отражена в ИЛМ, может быть проиллюстрирован на следующем: если методика построения модели не предполагает фиксацию класса членства в связи, то эта информация будет просто потеряна.

В некоторых CASE-системах имеет место ситуация, когда какая-то конструкция допускается в системе как промежуточная. Например, в IDEF и CASE ORACLE отношение М: М допускается как неспецифическое отношение. Его наличие разрешается на ранних стадиях разработки проекта, а в дальнейшем оно должно быть заменено на специфическое отношение посредством введения третьей сущности. Это является недостатком системы, так как, во-первых, не все СУБД требуют такого преобразования (некоторые системы поддерживают отношение М:М в явном виде), и, во-вторых, если такое преобразование потребуется, его вполне система автоматизации проектирования могла бы выполнить автоматически на этапе даталогического проектирования. Даже если выполняется «ручное» проектирование, то указанное преобразование должно выполняться проектировщиком на стадии даталогического проектирования, а не при описании предметной области. Кроме того, при рассматриваемом преобразовании на стадии инфологического проектирования в IDEF вводится новая категория сущностей - сущности пересечения или ассоциативные сущности. Введение новых сущностей влечет за собой введение в ИЛМ и дополнительных связей. Все это, вместе взятое, усложняет и без того нелегкую задачу инфологического проектирования.

В предметной области могут быть сущности, идентификаторы которых являются зависимыми от идентификатора какого-то другого объекта. Например, если участки на предприятии нумеруются в пределах цеха, то идентификатор участка будет составным, включающим в себя код цеха и код участка. В инфологической модели можно ограничиться указанием этого составного идентификатора. Некоторые методики построения ER-моделей (например, методология IDEFIX, Prokit) предусматривают введение особых видов сущностей и особых видов отношений для отображения подобных ситуаций. Так, в IDEF сущность, для идентификации которой надо рассматривать ее отношение с другими сущностями; называется зависимой от идентификатора сущностью, и для ее изображения используется блок с закругленными углами. Для изображения же не зависимой от идентификации сущности используется прямоугольник. Для связи объектов, один из которых нужен для полной идентификации другого, вводится понятие идентифицирующего отношения. Для него также вводится свое условное обозначение. В IDEF для идентифицирующего отношения используется сплошная линия, а для неидентифицирующего пунктирная.

6. Как отмечалось выше при рассмотрении принципов инфологического моделирования, понятия «объект», «свойство», «отношение» являются относительными. Так, в предложенной нами базовой инфологической модели выделяются разные виды объектов: простые, составные, агрегированные, обобщенные. В некоторых системах, например в IDEF, такой классификации объектов нет, и вместо этого используются разновидности отношений.

И тот, и другой подход имеет право на существование. Принципиальной разницы, влекущей за собой какие-то существенные последствия, в сравниваемых подходах нет.

Модель была предложена Петером Пин-Шен Ченом в 1976 г. На использовании разновидностей ER-модели основано большинство современных подходов к проектированию баз данных (главным образом, реляционных). Моделирование предметной области базируется на использовании графических диаграмм, включающих небольшое число разнородных компонентов. В связи с наглядностью представления концептуальных схем баз данных ER-модели получили широкое распространение в CASEсистемах, поддерживающих автоматизированное проектирование реляционных баз данных. Базовыми понятиями ER-модели являются сущность, связь и атрибут.

Сущность - это реальный или воображаемый объект, информация о котором представляет интерес. В диаграммах ER-модели сущность представляется в виде прямоугольника, содержащего имя сущности. При этом имя сущности - это имя типа, а не конкретного объекта - экземпляра этого типа. Каждый экземпляр сущности должен быть отличим от любого другого экземпляра той же сущности.

Связь - это графически изображаемая ассоциация, устанавливаемая между двумя сущностями. Эта ассоциация всегда является бинарной и может существовать между двумя разными сущностями или между сущностью и ей же самой (рекурсивная связь). В любой связи выделяются два конца (в соответствии с парой связываемых сущностей), на каждом из которых указывается имя конца связи, степень конца связи (сколько экземпляров данной сущности связывается), обязательность связи (т. е. любой ли экземпляр данной сущности должен участвовать в данной связи).

Связь представляется в виде линии, связывающей две сущности или ведущей от сущности к ней же самой. При этом в месте "стыковки" связи с сущностью используются трехточечный вход в прямоугольник сущности, если для этой сущности в связи могут использоваться много экземпляров сущности, и одноточечный вход, если в связи может участвовать только один экземпляр сущности. Обязательный конец связи изображается сплошной линией, а необязательный - прерывистой линией.

Как и сущность, связь - это типовое понятие, все экземпляры обеих пар связываемых сущностей подчиняются правилам связывания.

На рис.12 приведен пример изображения сущностей и связи между ними.

Рис. 12. Пример связи между сущностями

Данная диаграмма может быть интерпретирована следующим образом: Каждый СТУДЕНТ учится только в одной ГРУППЕ; Любая ГРУППА состоит из одного или более СТУДЕНТОВ. На следующем рисунке (рис.13)

изображена сущность ЧЕЛОВЕК с рекурсивной связью, связывающей ее с ней же самой.

Рис.13. Пример рекурсивной связи

Лаконичной устной трактовкой изображенной диаграммы является следующая:

Каждый ЧЕЛОВЕК является сыном одного и только одного ЧЕЛОВЕКА; Каждый ЧЕЛОВЕК может являться отцом для одного или более ЛЮДЕЙ ("ЧЕЛОВЕК").

Атрибутом сущности является любая деталь, которая служит для уточнения, идентификации, классификации, числовой характеристики или выражения состояния сущности. Имена атрибутов заносятся в прямоугольник, изображающий сущность, под именем сущности и изображаются малыми буквами. Например (см рис.14) :

Рис.14. Изображение сущности с ее атрибутами

Уникальным идентификатором сущности является атрибут, комбинация атрибутов, комбинация связей или комбинация связей и атрибутов, уникально отличающая любой экземпляр сущности от других экземпляров сущности того же типа.

Как и в реляционных схемах баз данных, в ER-схемах вводится понятие нормальных форм, причем их смысл очень близко соответствует смыслу реляционных нормальных форм. Заметим, что формулировки нормальных форм ER-схем делают более понятным смысл нормализации реляционных схем. Мы рассмотрим только очень краткие и неформальные определения трех первых нормальных форм.

В первой нормальной форме ER-схемы устраняются повторяющиеся атрибуты или группы атрибутов, т. е. производится выявление неявных сущностей, "замаскированных" под атрибуты.

Во второй нормальной форме устраняются атрибуты, зависящие только от части уникального идентификатора. Эта часть уникального идентификатора определяет отдельную сущность.

В третьей нормальной форме устраняются атрибуты, зависящие от атрибутов, не входящих в уникальный идентификатор. Эти атрибуты являются основой отдельной сущности.Мы остановились только на самых важных понятиях ER-модели данных. К числу более сложных элементов модели относятся следующие:

Подтипы и супертипы сущностей. ER-модель позволяет задавать отношение IS-A между типами. При этом еслиТ 1 IS-A Т 2 (гдеТ 1 иT 2 - типы сущностей), тоТ 1 называется подтипомТ 2 аТ 2 - супертипомТ 1 . Т.о., существует возможность наследования типа сущности, исходя из одного или нескольких супертипов.

Связи "многие-со-многими". Иногда бывает необходимо связывать сущности таким образом, что с обоих концов связи могут присутствовать несколько экземпляров сущности (например, все члены кооператива сообща владеют имуществом кооператива). Для этого вводится разновидность связи "многие-со-многими".

Уточняемые степени связи. Иногда бывает полезно определить возможное количество экземпляров сущности, участвующих в данной связи (например, служащему разрешается участвовать не более чем в трех проектах одновременно). Для выражения этого семантического ограничения разрешается указывать на конце связи ее максимальную или обязательную степень.

Каскадные удаления экземпляров сущностей. Некоторые связи бывают настолько сильными (конечно, в случае связи "один-ко-многим"), что при удалении опорного экземпляра сущности (соответствующего концу связи "один") нужно удалить и все экземпляры сущности, соответствующие концу связи "многие". Соответствующее требование "каскадного удаления" можно сформулировать при определении сущности.

Домены. Как и в случае реляционной модели данных, бывает полезна возможность определения потенциально допустимого множества значений атрибута сущности (домена).

Эти и другие, более сложные элементы модели данных "СущностьСвязь", делают ее более мощной, но одновременно несколько усложняют ее использование. Конечно, при реальном использовании ER-диаграмм для проектирования баз данных необходимо ознакомиться со всеми возможностями.

Лекция 15. Концептуальные модели данных

В отличие от инфологической модели предметной области, описывающей по некоторым правилам сведения об объектах материального мира и связи между ними, которые следует иметь в БД, концептуальная модель описывает хранимые в ЭВМ данные и связи. В силу этого каждая модель данных неразрывно связана с языком описания данных конкретной СУБД.

По существу, модель данных - это совокупность трех составляющих: типов структур данных, операций над данными, ограничений целостности.

Другими словами, модель данных представляет собой некоторое интеллектуальное средство проектировщика, позволяющее реализовать интерпретацию сведений о предметной области в виде формализованных данных в соответствии с определенными требованиями, т. е. средство абстракции, которое дает возможность увидеть «лес» (информационное содержание данных), а не отдельные «деревья» (конкретные значения данных).

Типы структур данных

Среди широкого множества определений, обозначающих типы структур данных, наиболее распространена терминология CODASYL (Conference of DAta SYstems Language) - международной ассоциации по языкам систем обработки данных, созданной в 1959 г.

В соответствии с этой терминологией используют пять типовых структур (в порядке усложнения):

1. элемент данных;

2. агрегат данных;

3. запись;

4. набор;

5. база данных.

Дадим краткие определения этих структур.

Элемент данных - наименьшая поименованная единица данных, к которой СУБД может адресоваться непосредственно и с помощью которой выполняется построение всех остальных структур данных.

Агрегат данных - поименованная совокупность элементов данных, которую можно рассматривать как единое целое. Агрегат может быть простым или составным (если он включает в себя другие агрегаты).

Запись - поименованная совокупность элементов данных и (или) агрегатов. Таким образом, запись - это агрегат, не входящий в другие агрегаты. Запись может иметь сложную иерархическую структуру, поскольку допускает многократное применение агрегации.

Набор - поименованная совокупность записей, образующих двухуровневую иерархическую структуру. Каждый тип набора представляет собой связь между двумя типами записей. Набор определяется путем объявления одного типа записи «записью-владельцем», а других типов

записей - «записями-членами». При этом каждый экземпляр набора должен содержать один экземпляр «записи-владельца» и любое количество «записейчленов». Если запись представляет в модели данных сущность, то набор - связь между сущностями. Например, если рассматривать связь «учится» между сущностями «учебная группа» и «студент», то первая из сущностей объявляется «записью-владельцем» (она в экземпляре набора одна), а вторая

- «записью-членом» (их в экземпляре набора может быть несколько).

База данных - поименованная совокупность экземпляров записей различного типа, содержащая ссылки между записями, представленные экземплярами наборов.

Отметим, что структуры БД строятся на основании следующих основных композиционных правил:

1. БД может содержать любое количество типов записей и типов наборов;

2. между двумя типами записей может быть определено любое количество наборов;

3. тип записи может быть владельцем и одновременно членом нескольких типов наборов.

Следование данным правилам позволяет моделировать данные о сколь

угодно сложной предметной области с требуемым уровнем полноты и детализации.

Рассмотренные типы структур данных могут быть представлены в различной форме - графовой; табличной; в виде исходного текста языка описания данных конкретной СУБД.

Операции над данными

Операции, реализуемые СУБД, включают селекцию (поиск) данных и действия над ними. Селекция данных выполняется с помощью критерия, основанного на использовании или логической позиции данного (элемента, агрегата, записи) или значения данного, либо связей между данными. Селекция на основе логической позиции данного базируется на упорядоченности данных в памяти системы. При этом критерии поиска могут формулироваться следующим образом:

1. найти следующее данное (запись);

2. найти предыдущее данное;

3. найти п- е данное;

4. найти первое (последнее) данное.

Этот тип селекции называют селекцией посредством текущей селекции, в качестве которой используется индикатор текущего состояния, автоматически поддерживаемый СУБД и, как правило, указывающий на некоторый экземпляр записи БД.

Критерий селекции по значениям данных формируется из простых или булевых условий отбора. Примерами простых условий поиска являются:

1. ВОЕННО-УЧЕТНАЯ СПЕЦИАЛЬНОСТЬ = 200100;

2. ВОЗРАСТ > 20;

3. ДАТА < 19.04.2002 и т.п.

Булево условие отбора формируется путем объединения простых условий с применением логических операций, например:

1. (ДАТА_РОЖДЕНИЯ < 28.12.1963) И (СТАЖ > 10);

2. (УЧЕНОЕ_ЗВАНИЕ = ДОЦЕНТ) ИЛИ (УЧЕНОЕ ЗВАНИЕ = ПРОФЕССОР) и т.п.

Если модель данных, поддерживаемая некоторой СУБД, позволяет выполнить селекцию данных по связям, то можно найти данные, связанные с текущим значением какого-либо данного. Например, если в модели данных реализована двунаправленная связь «учится» между сущностями «студент» и «учебная группа», можно выявить учебные группы, в которых учатся юноши (если в составе описания студента входит атрибут «пол»).

Как правило, большинство современных СУБД позволяют осуществлять различные комбинации описанных выше видов селекции данных.

Ограничения целостности. Эти логические ограничения на данные используются для обеспечения непротиворечивости данных некоторым заранее заданным условиям при выполнении операций над ними. По сути ограничения целостности - это набор правил, используемых при создании конкретной модели данных на базе выбранной СУБД.

Различают внутренние и явные ограничения.

Ограничения, обусловленные возможностями конкретной СУБД, называют внутренними ограничениями целостности. Эти ограничения

касаются типов хранимых данных (например, «текстовый элемент данных может состоять не более чем из 256 символов» или «запись может содержать не более 100 полей») и допустимых типов связей (например, СУБД может поддерживать только так называемые функциональные связи, т.е. связи типа 1:1, 1: М или М: 1). Большинство существующих СУБД поддерживают прежде всего именно внутренние ограничения целостности, нарушения которых приводят к некорректности данных и достаточно легко контролируются.

Ограничения, обусловленные особенностями хранимых данных о конкретной ПО, называют явными ограничениями целостности. Эти ограничения также поддерживаются средствами выбранной СУБД, но они формируются обязательно с участием разработчика БД путем определения (программирования) специальных процедур, обеспечивающих непротиворечивость данных. Например, если элемент данных «зачетная книжка» в записи «студент» определен как ключ, он должен быть уникальным, т.е. в БД не должно быть двух записей с одинаковыми значениями ключа. Другой пример: пусть в той же записи предусмотрен элемент «военно-учетная специальность» и для него отведено шесть десятичных цифр. Тогда другие представления этого элемента данных в БД невозможны. С помощью явных ограничений целостности можно организовать как «простой» контроль вводимых данных (прежде всего на предмет принадлежности элементов данных фиксированному и заранее

заданному множеству значений: например, элемент «ученое звание» не должен принимать значение «почетный доцент», если речь идет о российских ученых), так и более сложные процедуры (например, введение значения «профессор» элемента данных «ученое звание» в запись о преподавателе, имеющем возраст 25 лет, должно требовать, по крайней мере, дополнительного подтверждения).

Элементарная единица данных может быть реализована множеством способов, что, в частности, привело к многообразию известных моделей данных. Модель данных определяет правила, в соответствии с которыми структурируются данные. Обычно операции над данными соотносятся с их структурой.

Разнообразие существующих моделей данных соответствует разнообразию областей применения и предпочтений пользователей.

В специальной литературе встречается описание довольно большого количества различных моделей данных. Хотя наибольшее распространение получили иерархическая, сетевая и, бесспорно, реляционная модели, вместе с ними следует упомянуть и некоторые другие.

Используя в качестве классификационного признака особенности логической организации данных, можно привести следующий перечень известных моделей:

1. иерархическая модель данных;

2. сетевая модель данных;

3. реляционная модель данных;

4. бинарная модель данных;

5. семантическая сеть.

базы данных является тем фундаментом, на котором строится вся система в целом, и вопрос о возможном кредитовании часто решается экспертами банка на основании именно грамотно сделанного инфологического проекта БД . Следовательно, инфологическая модель должна включать такое формализованное описание предметной области , которое легко будет "читаться" не только специалистами по базам данных. И это описание должно быть настолько емким, чтобы можно было оценить глубину и корректность проработки проекта БД , и конечно, как говорилось раньше, оно не должно быть привязано к конкретной СУБД . Выбор СУБД - это отдельная задача, для корректного ее решения необходимо иметь проект, который не привязан ни к какой конкретной СУБД .

Инфологическое проектирование прежде всего связано с попыткой представления семантики предметной области в модели БД . Реляционная модель данных в силу своей простоты и лаконичности не позволяет отобразить семантику, то есть смысл предметной области . Ранние теоретико- графовые модели в большей степени отображали семантику предметной области . Они в явном виде определяли иерархические связи между объектами предметной области .

Проблема представления семантики давно интересовала разработчиков, и в семидесятых годах было предложено несколько моделей данных, названных семантическими моделями . К ним можно отнести семантическую модель данных , предложенную Хаммером (Hammer ) и Мак-Леоном (McLeon ) в 1981 году, функциональную модель данных Шипмана (Shipman ), также созданную в 1981 году, модель " сущность-связь ", предложенную Ченом (Chen ) в 1976 году, и ряд других моделей. У всех моделей были свои положительные и отрицательные стороны, но испытание временем выдержала только последняя. И в настоящий момент именно модель Чена " сущность-связь ", или " Entity Relationship ", стала фактическим стандартом при инфологическом моделировании баз данных. Общепринятым стало сокращенное название ER-модель, большинство современных CASE-средств содержат инструментальные средства для описания данных в формализме этой модели. Кроме того, разработаны методы автоматического преобразования проекта БД из ER-модели в реляционную, при этом преобразование выполняется в даталогическую модель, соответствующую конкретной СУБД . Все CASE-системы имеют развитые средства документирования процесса разработки БД , автоматические генераторы отчетов позволяют подготовить отчет о текущем состоянии проекта БД с подробным описанием объектов БД и их отношений как в графическом виде, так и в виде готовых стандартных печатных отчетов, что существенно облегчает ведение проекта.

В настоящий момент не существует единой общепринятой системы обозначений для ER-модели и разные CASE-системы используют разные графические нотации, но разобравшись в одной, можно легко понять и другие нотации.

Модель "сущность-связь"

Как любая модель, модель " сущность-связь " имеет несколько базовых понятий, которые образуют исходные кирпичики, из которых строятся уже более сложные объекты по заранее определенным правилам.

Эта модель в наибольшей степени согласуется с концепцией объектно-ориентированного проектирования, которая в настоящий момент несомненно является базовой для разработки сложных программных систем, поэтому многие понятия вам могут показаться знакомыми, и если это действительно так, то тем проще вам будет освоить технологию проектирования баз данных, основанную на ER-модели.

В основе ER-модели лежат следующие базовые понятия:

Сущность ,с помощью которой моделируется класс однотипных объектов. Сущность имеет имя, уникальное в пределах моделируемой системы. Так как сущность соответствует некоторому классу однотипных объектов, то предполагается, что в системе существует множество экземпляров данной сущности. Объект, которому соответствует понятие сущности, имеет свой набор атрибутов - характеристик, определяющих свойства данного представителя класса. При этом набор атрибутов должен быть таким, чтобы можно было различать конкретные экземпляры сущности. Например, у сущности Сотрудник может быть следующий набор атрибутов: Табельный номер, Фамилия, Имя, Отчество, Дата рождения, Количество детей, Наличие родственников за границей. Набор атрибутов, однозначно идентифицирующий конкретный экземпляр сущности , называют ключевым .Для сущности Сотрудник ключевым будет атрибут Табельный номер, поскольку для всех сотрудников данного предприятия табельные номера будут различны. Экземпляром сущности Сотрудник будет описание конкретного сотрудника предприятия. Одно из общепринятых графических обозначений сущности - прямоугольник, в верхней части которого записано имя сущности, а ниже перечисляются атрибуты, причем ключевые атрибуты помечаются, например, подчеркиванием или специальным шрифтом (рис. 7.1):

Рис. 7.1.

Между сущностями могут быть установлены связи - бинарные ассоциации , показывающие, каким образом сущности соотносятся или взаимодействуют между собой. Связь может существовать между двумя разными сущностями или между сущностью и ей же самой (рекурсивная связь) .Она показывает, как связаны экземпляры сущностей между собой. Если связь устанавливается между двумя сущностями, то она определяет взаимосвязь между экземплярами одной и другой сущности. Например, если у нас есть связь между сущностью "Студент" и сущностью "Преподаватель" и эта связь - руководство дипломными проектами, то каждый студент имеет только одного руководителя, но один и тот же преподаватель может руководить множеством студентов-дипломников. Поэтому это будет связь "один-ко-многим" (1:М), один со стороны "Преподаватель" и многие со стороны "Студент" (см. рис. 7.2).

Рис. 7.2. Пример отношения "один-ко-многим" при связывании сущностей "Студент" и "Преподаватель"
В разных нотациях мощность связи изображается по-разному. В нашем примере мы используем нотацию CASE системы POWER DESIGNER, здесь множественность изображается путем разделения линии связи на 3. Связь имеет общее имя "Дипломное проектирование" и имеет имена ролей со стороны обеих сущностей. Со стороны студента эта роль называется "Пишет диплом под руководством", со стороны преподавателя эта связь называется "Руководит". Графическая интерпретация связи позволяет сразу прочитать смысл взаимосвязи между сущностями, она наглядна и легко интерпретируема. Связи делятся на три типа по множественности: один-к-одному (1:1), один-ко-многим (1:M), многие-ко-многим (M:M). Связь один-к-одному означает, что экземпляр одной сущности связан только с одним экземпляром другой сущности. Связь 1: M означает, что один экземпляр сущности , расположенный слева по связи, может быть связан с несколькими экземплярами сущности, расположенными справа по связи. Связь "один-к-одному" (1:1) означает, что один экземпляр одной сущности связан только с одним экземпляром другой сущности, а связь "многие-ко-многим" (M:M) означает, что один экземпляр первой сущности может быть связан с несколькими экземплярами второй сущности, и наоборот, один экземпляр второй сущности может быть связан с несколькими экземплярами первой сущности. Например, если мы рассмотрим связь типа "Изучает" между сущностями "Студент" и "Дисциплина", то это связь типа "многие-ко-многим" (M:M), потому что каждый студент может изучать несколько дисциплин, но и каждая дисциплина изучается множеством студентов. Такая связь изображена на рис. 7.3 .
Между двумя сущностями может быть задано сколько угодно связей с разными смысловыми нагрузками. Например, между двумя сущностями "Студент" и "Преподаватель" можно установить две смысловые связи, одна - рассмотренная уже ранее "Дипломное проектирование", а вторая может быть условно названа "Лекции", и она определяет, лекции каких преподавателей слушает данный студент и каким студентам данный преподаватель читает лекции. Ясно, что это связь типа многие-ко-многим .Пример этих связей приведен на Кроме того, в ER-модели допускается принцип категоризации сущностей. Это значит, что, как и в объектно-ориентированных языках программирования, вводится понятие подтипа сущности , то есть сущность может быть представлена в виде двух или более своих подтипов - сущностей ,каждая из которых может иметь общие атрибуты и отношения и/или атрибуты и отношения, которые определяются однажды на верхнем уровне и наследуются на нижнем уровне. Все подтипы одной сущности рассматриваются как взаимоисключающие, и при разделении сущности на подтипы она должна быть представлена в виде полного набора взаимоисключающих подтипов. Если на уровне анализа не удается выявить полный перечень подтипов, то вводится специальный подтип , называемый условно ПРОЧИЕ, который в дальнейшем может быть уточнен. В реальных системах бывает достаточно ввести подтипизацию на двух-трех уровнях.

Модель была предложена Петером Пин-Шен Ченом в 1976 г. На использовании разновидностей ER-модели основано большинство современных подходов к проектированию баз данных (главным образом, реляционных). Моделирование предметной области базируется на использовании графических диаграмм, включающих небольшое число разнородных компонентов. В связи с наглядностью представления концептуальных схем баз данных ER-модели получили широкое распространение в CASE-системах, поддерживающих автоматизированное проектирование реляционных баз данных. Базовыми понятиями ER-модели являются сущность, связь и атрибут.

Сущность - это реальный или воображаемый объект, информация о котором представляет интерес. В диаграммах ER-модели сущность пред-ставляется в виде прямоугольника, содержащего имя сущности. При этом имя сущности - это имя типа, а не конкретного объекта - экземпляра этого типа. Каждый экземпляр сущности должен быть отличим от любого другого экземпляра той же сущности.

Связь - это графически изображаемая ассоциация, устанавливаемая между двумя сущностями. Эта ассоциация всегда является бинарной и может существовать между двумя разными сущностями или между сущностью и ей же самой (рекурсивная связь). В любой связи выделяются два конца (в соответствии с парой связываемых сущностей), на каждом из которых указывается имя конца связи, степень конца связи (сколько экземпляров данной сущности связывается), обязательность связи (т. е. любой ли экземпляр данной сущности должен участвовать в данной связи).

На рис.12 приведен пример изображения сущностей и связи между ними.

Рис. 12.

Рис.13.

Лаконичной устной трактовкой изображенной диаграммы является следующая:

Каждый ЧЕЛОВЕК является сыном одного и только одного ЧЕЛОВЕКА;

Каждый ЧЕЛОВЕК может являться отцом для одного или более ЛЮДЕЙ ("ЧЕЛОВЕК").

Атрибутом сущности является любая деталь, которая служит для уточнения, идентификации, классификации, числовой характеристики или выражения состояния сущности. Имена атрибутов заносятся в прямоугольник, изображающий сущность, под именем сущности и изображаются малыми буквами. Например (см рис.14):

Рис. 14.

В первой нормальной форме ER-схемы устраняются повторяющиеся атрибуты или группы атрибутов, т. е. производится выявление неявных сущностей, "замаскированных" под атрибуты.

Во второй нормальной форме устраняются атрибуты, зависящие только от части уникального идентификатора. Эта часть уникального идентификатора определяет отдельную сущность.

В третьей нормальной форме устраняются атрибуты, зависящие от атрибутов, не входящих в уникальный идентификатор. Эти атрибуты являются основой отдельной сущности.Мы остановились только на самых важных понятиях ER-модели данных. К числу более сложных элементов модели относятся следующие:

Подтипы и супертипы сущностей. ER-модель позволяет задавать отношение IS-A между типами. При этом если Т 1 IS-A Т 2 (где Т 1 и T 2 - типы сущностей), то Т 1 называется подтипом Т 2 а Т 2- супертипом Т 1. Т.о., существует возможность наследования типа сущности, исходя из одного или нескольких супертипов.

Связи "многие-со-многими". Иногда бывает необходимо связывать сущности таким образом, что с обоих концов связи могут присутствовать несколько экземпляров сущности (например, все члены кооператива сообща владеют имуществом кооператива). Для этого вводится разновидность связи "многие-со-многими".

Уточняемые степени связи. Иногда бывает полезно определить возможное количество экземпляров сущности, участвующих в данной связи (например, служащему разрешается участвовать не более чем в трех проектах одновременно). Для выражения этого семантического ограничения разрешается указывать на конце связи ее максимальную или обязательную степень.

Каскадные удаления экземпляров сущностей. Некоторые связи бывают настолько сильными (конечно, в случае связи "один-ко-многим"), что при удалении опорного экземпляра сущности (соответствующего концу связи "один") нужно удалить и все экземпляры сущности, соответствующие концу связи "многие". Соответствующее требование "каскадного удаления" можно сформулировать при определении сущности.

Домены. Как и в случае реляционной модели данных, бывает полезна возможность определения потенциально допустимого множества значений атрибута сущности (домена).

Эти и другие, более сложные элементы модели данных "Сущность-Связь", делают ее более мощной, но одновременно несколько усложняют ее использование. Конечно, при реальном использовании ER-диаграмм для проектирования баз данных необходимо ознакомиться со всеми возможностями.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Инфологическая модель данных "Сущность-связь"

2.1 Основные понятия

Модель «сущность-связь» (entity-relationship model) предложена американским исследователем в области баз данных Питером Ченом в 1976 году. С тех пор она расширялась и модифицировалась как самим Ченом, так и многими другими исследователями. В различных вариантах она вошла в состав многих автоматизированных средств поддержки проектирования информационных систем. В настоящее время нет единого стандарта этой модели, но есть набор общих конструкций, лежащих в основе большинства её вариантов. Эти общие конструкции мы и изучим здесь.

Существует много различных систем построения моделей ER.

Мы, разумеется, не намерены изучить их все. В этом нет необходимости. Усвоив основные концепции ER-модели и принципы построения диаграмм в одной системе обозначений, нетрудно разобраться в любой другой.

Какие бы системы ни использовались, ER-диаграмма наглядно и точно отражает представления автора о данных . Поэтому она является хорошим источником информации для проектировщика логической модели данных. Их очень удобно использовать при обсуждении требований к данным с конечными пользователями.

Цель инфологического моделирования - обеспечение наиболее естественных для человека способов сбора и представления той информации, которую предполагается хранить в создаваемой базе данных. Поэтому инфологическую модель данных пытаются строить по аналогии с естественным языком (последний не может быть использован в чистом виде из-за сложности компьютерной обработки текстов и неоднозначности любого естественного языка). Основными конструктивными элементами инфологических моделей являются сущности, связи между ними и их свойства (атрибуты).

2.2 Элементы ER - модели

модель инфологический сущность данные

Базовыми элементами инфологических моделей являются сущности, связи между ними и их свойства (атрибуты).

2.2.1 Сущность

Сущность (entity) - это некоторый объект, выделяемый (идентифицируемый ) пользователем в предметной области.

Нечто, за чем пользователь хотел бы наблюдать и сохранять результаты наблюдений (данные). Например,

СТУДЕНТ Петров,

ПРЕПОДАВАТЕЛЬ Ломов,

УЧЕБНИК по БД,

АУДИТОРИЯ,

УЧЕБНЫЕ ЗАНЯТИЯ для группы и т.п.

Из примеров видно, что сущностями могут быть люди, предметы, места, события и т.д. Обобщая, можно сказать, что сущность - это нечто, имеющее реальное (физическое) или концептуальное существование и выделяемое в окружающем мире.

К сожалению, формального определения этого понятия не существует . По крайней мере, на сегодняшний день.

Сущности одного и того же типа образуют класс сущности или тип сущности .

Необходимо различать такие понятия, как тип сущности (класс сущности ) и экземпляр сущности . Понятие тип сущности относится к набору однородных личностей, предметов, событий или идей, выступающих как целое.

Экземпляр сущности относится к конкретной вещи в наборе. Например, типом сущности может быть ГОРОД, а экземпляром - Москва, Киев и т.д.

СТУДЕНТ - это тип или класс сущности, имеющей одинаковые наборы характеристик , значения которых представляют интерес для пользователя (каких). Пользователь заинтересован в сведениях об экземплярах класса. Например, о студентах, обучающихся в настоящее время на кафедре ПМ.

Таким образом, тип сущности - это абстракция, понятие выделяемое пользователем. В сознании пользователя понятию сопоставляется символ - имя сущности (договоримся в дальнейшем записывать имена сущностей прописными буквами). Этот символ имеет вполне конкретный смысл, однако, неискушённый человек не всегда может передать его с помощью других символов. Более того, разные люди могут наделять один и тот же символ различными смыслами.

Например, представления о СТУДЕНТе, имеющиеся у зам. декана, преподавателя и уборщицы, различаются.

Для зам. декана это лицо, зачисленное приказом ректора в определённую группу. Одна из обязанностей зам. декана - контролировать успеваемость этого лица на всех этапах процесса обучения. Этим определяется набор сведений об этом лице, которыми хотел бы располагать зам. декана.

Для преподавателя СТУДЕНТ - это лицо, имеющее право посещать его занятия и обязанное в определённые сроки отчитываться о результатах изучения тех дисциплин, которые ведёт преподаватель.

Для уборщицы СТУДЕНТ - это безликое множество людей, таскающее грязь с улицы, повсюду плюющее, забивающее мусором все помещения, бессмысленно галдящее в коридорах и мешающее махать шваброй.

В литературе часто используют термин «сущность » как в смысле «тип сущности », так и в смысле «экземпляр сущности ». Мы будем поступать так же, когда это не будет вызывать недоразумений.

2.2.2 Атрибут

Атрибут - это поименованная характеристика сущности (свойство типа сущности), значимая с точки зрения пользователя.

Его наименование должно быть уникальным для конкретного типа сущности, но может быть одинаковым для различного типа сущностей (например, ЦВЕТ может быть определен для многих сущностей: АВТОМОБИЛЬ, ТЕКСТ и т.д.). Атрибуты используются для определения того, какая информация должна быть собрана о сущности. Примерами атрибутов для сущности АВТОМОБИЛЬ являются ТИП, МАРКА, НОМЕРНОЙ ЗНАК, ЦВЕТ и т.д.

У атрибута также существует различие между типом и экземпляром, при этом каждому экземпляру сущности присваивается только одно значение атрибута.

Например:

Тип атрибута ЦВЕТ имеет много экземпляров или значений:

Красный, Синий и т.д.

Любой атрибут является атрибутом только в связи с типом сущности. В другом контексте атрибут может выступать как самостоятельная сущность. Например, для автомобильного завода цвет - это только атрибут продукта производства, а для лакокрасочной фабрики цвет - тип сущности.

Примеры: НомерСтудбилета, ФамилияПреподавателя, НазваниеУчебника, Заказчик и т.п.

Атрибут может быть простым , как первые три. Их значения принадлежат простым типам данных.

Он может быть составным, например {ИмяЗаказчика, АдресЗаказчика, ТелефонЗаказчика}

Заметим, что решение о том, является ли атрибут простым или составным, зависит от степени детализации сведений, приемлемой для пользователя. Например, НомерАудитории можно считать простым атрибутом, если пользователя вполне устраивают строковые значения вида `227рк", `418фэт", `411гл" .

Атрибут может быть производным . Например, в состав атрибутов сущности ГРУППА может входить атрибут ЧисленностьГруппы . Его значение для каждого экземпляра ГРУППы может быть вычислено подсчётом числа экземпляров сущности СТУДЕНТ, связанных с этим экземпляром.

Замечание . Значения производных атрибутов сохраняются в БД в исключительных случаях. Однако на этапе проектирования все такие атрибуты, представляющие интерес для пользователя, должны быть выявлены и описаны.

Ключ - минимальный набор атрибутов, по значениям которых можно однозначно найти требуемый экземпляр сущности. Минимальность означает, что исключение из набора любого атрибута не позволяет идентифицировать сущность по оставшимся.

Для сущности Расписание поездов ключом является атрибут Номер_поезда или набор: {Пункт_отправления, Время_отправления и Пункт_назначения} .

Выделяют уникальные ключи (потенциальные ключи) и неуникальные . Значение уникального ключа не может встретиться у двух экземпляров сущности. Оно указывает на один и только один экземпляр (НомерСтудбилета, НомерАудитории ). Значение неуникального ключа указывает на множество экземпляров (ФамилияПреподавателя = Иванов указывает на всех Ивановых, преподающих в ВУЗе).

Ключом может быть не любой атрибут сущности. Например, ДатаНайма или Должность преподавателя вряд ли могут использоваться для идентификации преподавателей.

Сущность может иметь несколько уникальных и неуникальных ключей.

Атрибут нельзя назначить уникальным ключом сущности. Он либо является таковым, либо не является.

2.2.4 Связь

Связь - это характеристика отношений между двумя или более сущностями.

Если бы назначением базы данных было только хранение отдельных, не связанных между собой данных, то ее структура могла бы быть очень простой.

Однако одно из основных требований к организации базы данных - это обеспечение возможности отыскания одних сущностей по значениям других, для чего необходимо установить между ними определенные связи. А так как в реальных базах данных нередко содержатся сотни или даже тысячи сущностей, то теоретически между ними может быть установлено более миллиона связей. Наличие такого множества связей и определяет сложность инфологических моделей.

Как и для сущностей и атрибутов, в ER-модели различаются типы (классы) и экземпляры связей .

Описание сущностей и их связей -это и есть (с точки зрения проектировщика БД) основная часть модели требований пользователя к данным.

Однако средства естественного языка мало пригодны для описания, прежде всего, из-за громоздкости и малой наглядности. Любая нетривиальная модель будет содержать десятки шаблонов, подобных приведённым выше. В этом множестве предложений трудно выделить все связи, в которые вступает одна и та же сущность, трудно отследить цепочки связей, которые задействованы в транзакциях и т.п. Нужны специальные языковые средства для представления модели.

2.3 Классификация сущностей и связей. Системы обозначения ER-моделей

Идея Чена, благодаря которой его имя стало широко известным в кругах проектировщиков баз данных, состоит в том, что сущности и связи следует представлять графически . Тогда модель требований пользователя будет компактной и наглядной. Существует великое множество систем обозначений для представления ER-моделей . Стандарта нет. Мы будем придерживаться наиболее распространённых обозначений.

Размещено на Allbest.ru

Подобные документы

Построение инфологической модели тестовой программы по электронному учебнику для проверки знаний учащихся. Инфологическое моделирование и семантическое представление предмета в базе данных. Модель "сущность-связь" и связи между выявленными сущностями.