| [Домашняя страничка][Резюме][Фотоальбом][Диплом][Научные статьи] | |||||||||
|
|
|||||||||
1.1.
Хранилище данных
|
|||||||||
1-го вопроса Итак,
"Хранилище данных” - это предметно-ориентированное,
привязанное ко времени и неизменяемое
собрание данных для поддержки процесса
принятия управляющих решений. Данные
в хранилище попадают из оперативных
систем (OLTP-систем), которые
предназначены для автоматизации бизнес-процессов.
Кроме того, хранилище может пополняться
за счет внешних источников, например
статистических отчетов, различных
справочников и т.д. Хранилище данных
кроме детализированной информации
содержит в себе агрегаты, т.е. обобщающую
информацию, например суммы продаж,
количество, общие расходы и т.д. Зачем
нужно строить хранилища данных - ведь
они содержат заведомо избыточную
информацию, которая и так находится в
базах или файлах оперативных систем?
Анализировать данные оперативных
систем напрямую невозможно или очень
затруднительно. Это объясняется
различными причинами, в том числе
разрозненностью данных и хранением их в
форматах различных СУБД. Но даже если на
предприятии все данные хранятся на
центральном сервере БД, аналитик почти
наверняка не разберется в их сложных,
подчас запутанных структурах. Таким
образом, задача хранилища - предоставить
"сырье" для анализа в одном месте и
в простой, понятной структуре. Есть
и еще одна причина, оправдывающая
появление отдельного хранилища -
сложные аналитические запросы к
оперативной информации тормозят
текущую работу компании, надолго
блокируя таблицы и захватывая ресурсы
сервера. Под
хранилищем можно понимать не
обязательно гигантское скопление
данных - главное, чтобы оно было удобно
для анализа. Автором
концепции Хранилищ Данных (Data Warehouse)
является Б. Инмон, который определил
Хранилища Данных как: "предметно-ориентированные,
интегрированные, неизменчивые,
поддерживающие хронологию наборы
данных, организованные для целей
поддержки управления", призванные
выступать в роли "единого и
единственного источника истины",
обеспечивающего менеджеров и
аналитиков достоверной информацией,
необходимой для оперативного анализа и
принятия решений. В
основе концепции Хранилищ Данных лежат
две основополагающие идеи. ·
Интеграция
ранее разъединенных детализированных
данных в едином Хранилище Данных, их
согласование и, возможно, агрегация: ·
исторических
архивов; ·
данных
из традиционных СОД; ·
данных
из внешних источников. ·
Разделение
наборов данных, используемых для
операционной обработки, и наборов
данных, применяемых для решения задач
анализа. Цель
концепции Хранилищ Данных - выяснить
требования к данным, помещаемым в
целевую БД Хранилища Данных (Таблица
1), определить общие принципы и этапы
ее построения, основные источники
данных, дать рекомендации по решению
потенциальных проблем, возникающих при
их выгрузке, очистке, согласовании,
транспортировке и загрузке в целевую БД. Таблица
1. Основные требования к данным в
Хранилище Данных.
Предметом
концепции Хранилищ Данных служат сами
данные. После того как традиционная
система обработки данных (СОД)
реализована и начинает функционировать,
она становится ровно таким же
самостоятельным объектом реального
мира, как и любой производственный
процесс. А данные, которые являются
одним из конечных продуктов такого
производства, обладают ровно теми же
свойствами и характеристиками, что и
любой промышленный продукт: сроком
годности, местом складирования (хранения),
совместимостью с данными из других
производств (СОД), рыночной стоимостью,
транспортабельностью, комплектностью,
ремонтопригодностью и т. д.
Именно
с этой точки зрения и рассматриваются
данные в Хранилищах Данных. То есть
целью здесь являются не способы
описания и отображения объектов
предметной области, а собственно данные,
как самостоятельный объект предметной
области, порожденной в результате
функционирования ранее созданных
информационных систем. Для
правильного понимания данной концепции
необходимо уяснение следующих
принципиальных моментов. ·
Концепция
Хранилищ Данных - это не концепция
анализа данных, скорее, это концепция
подготовки данных для анализа. ·
Концепция
Хранилищ Данных не предопределяет
архитектуру целевой аналитической
системы. Она говорит о том, какие
процессы должны выполняться в системе,
но не о том, где конкретно и как эти
процессы должны выполняться. ·
Концепция
Хранилищ Данных предполагает не просто
единый логический взгляд на данные
организации, а реализацию единого
интегрированного источника данных. Кроме
единого справочника метаданных, средств
выгрузки, агрегации и согласования
данных, концепция Хранилищ Данных
подразумевает: интегрированность,
неизменчивость, поддержку хронологии и
согласованность данных. И если два
первых свойства (интегрированность и
неизменчивость) влияют на режимы
анализа данных, то последние два (поддержка
хронологии и согласованность)
существенно сужают список решаемых
аналитических задач. Без
поддержки хронологии (наличия
исторических данных) нельзя говорить о
решении задач прогнозирования и анализа
тенденций. Но наиболее критичными и
болезненными оказываются вопросы,
связанные с согласованием данных. Основным
требованием аналитика является даже не
столько оперативность, сколько
достоверность ответа. Но достоверность,
в конечном счете, и определяется
согласованностью. Пока не проведена
работа по взаимному согласованию
значений данных из различных источников,
сложно говорить об их достоверности. Нередко,
менеджер сталкивается с ситуацией,
когда на один и тот же вопрос, различные
системы могут дать и обычно дают
различный ответ. Это может быть связано
как с несинхронностью моментов
модификации данных, отличиями в
трактовке одних и тех же событий,
понятий и данных, изменением семантики
данных в процессе развития предметной
области, элементарными ошибками при
вводе и обработке, частичной утратой
отдельных фрагментов архивов и т. д.
Очевидно, что учесть и заранее
определить алгоритмы разрешения всех
возможных коллизий мало реально. Тем
более, это нереально сделать в
оперативном режиме, динамически,
непосредственно в процессе
формирования ответа на запрос. [Содержание]
|
|||||||||
[Диплом индекс][Доклад][Реферат Рус][Реферат Укр][Abstract] |
|||||||||
| Copyright (c) 1998-2001, Alexandr S. Lukichov
|
|||||||||