[Домашняя страничка][Резюме][Фотоальбом][Диплом][Научные статьи]
 

 

1.2. OLAP - удобный инструмент анализа

       

      Содержание 1-го вопроса

Централизация и удобное структурирование данных - это далеко не все, что нужно аналитику. Ему ведь еще требуется инструмент для просмотра, визуализации информации. Традиционные отчеты, даже построенные на основе единого хранилища, лишены одного - гибкости. Их нельзя "покрутить", "развернуть" или "свернуть", чтобы получить желаемое представление данных. Конечно, можно вызвать программиста, и он сделает новый отчет достаточно быстро - скажем, в течение часа. Получается, что аналитик может проверить за день не более двух идей. А ему таких идей может приходить в голову по несколько в час. И чем больше "срезов" и "разрезов" данных аналитик видит, тем больше у него идей, которые, в свою очередь, для проверки требуют все новых и новых "срезов". Аналитику нужен такой инструмент, который позволил бы разворачивать и сворачивать данные просто и удобно! В качестве такого инструмента и выступает OLAP.

Хотя OLAP и не представляет собой необходимый атрибут хранилища данных, он все чаще и чаще применяется для анализа накопленных в этом хранилище сведений.

Компоненты, входящие в типичное хранилище, представлены на Рис. 1.1.

Рис. 1.1. Структура хранилища данных

Оперативные данные собираются из различных источников, очищаются, интегрируются и складываются в реляционное хранилище. При этом они уже доступны для анализа при помощи различных средств построения отчетов. Затем данные подготавливаются для OLAP-анализа. Они могут быть загружены в специальную БД OLAP или оставлены в реляционном хранилище. Важнейшим его элементом являются метаданные, т. е. информация о структуре, размещении и трансформации данных. Благодаря им обеспечивается эффективное взаимодействие различных компонентов хранилища.

Подытоживая, можно определить OLAP как совокупность средств многомерного экспресс-анализа данных, накопленных в хранилище.

1.2.1. Определение и основные понятия OLAP

OLAP - это Online Analytical Processing, т. е. оперативный анализ данных. 12 определяющих принципов OLAP (Таблица 2) сформулировал в 1993 г. Е. Ф. Кодд - "изобретатель" реляционных БД.

Таблица 2. 2 определяющих принципов OLAP

1

Многомерное представление данных

Средства должны поддерживать многомерный на концептуальном уровне взгляд на данные.

2

Прозрачность

Пользователь не должен знать о том, какие конкретные средства используются для хранения и обработки данных, как данные организованы и откуда они берутся.

3

Доступность

Средства должны сами выбирать и связываться с наилучшим для формирования ответа на данный запрос источником данных. Средства должны обеспечивать автоматическое отображение их собственной логической схемы в различные гетерогенные источники данных.

4

Согласованная производительность

Производительность практически не должна зависеть от количества Измерений в запросе.

5

Поддержка архитектуры клиент-сервер

Средства должны работать в архитектуре клиент-сервер.

6

Равноправность всех измерений

Ни одно из измерений не должно быть базовым, все они должны быть равноправными (симметричными).

7

Динамическая обработка разреженных матриц

Неопределенные значения должны храниться и обрабатываться наиболее эффективным способом.

8

Поддержка многопользовательского режима работы с данными

Средства должны обеспечивать возможность работать более чем одному пользователю.

9

Поддержка операций на основе различных измерений

Все многомерные операции (например Агрегация) должны единообразно и согласованно применяться к любому числу любых измерений.

10

Простота манипулирования данными

Средства должны иметь максимально удобный, естественный и комфортный пользовательский интерфейс.

11

Развитые средства представления данных

Средства должны поддерживать различные способы визуализации (представления) данных.

12

Неограниченное число измерений и уровней агрегации данных

Не должно быть ограничений на число поддерживаемых Измерений.

 

Позже его определение было переработано в так называемый тест FASMI, требующий, чтобы OLAP-приложение предоставляло возможности быстрого анализа разделяемой многомерной информации.

1.2.2. Тест FASMI

Fast (Быстрый) - анализ должен производиться одинаково быстро по всем аспектам информации. Приемлемое время отклика - 5 с или менее.

Analysis (Анализ) - должна быть возможность осуществлять основные типы числового и статистического анализа, предопределенного разработчиком приложения или произвольно определяемого пользователем.

Shared (Разделяемой) - множество пользователей должно иметь доступ к данным, при этом необходимо контролировать доступ к конфиденциальной информации.

Multidimensional (Многомерной) - это основная, наиболее существенная характеристика OLAP.

Information (Информации) - приложение должно иметь возможность обращаться к любой нужной информации, независимо от ее объема и места хранения.

1.2.3. Многомерное представление OLAP

OLAP предоставляет удобные быстродействующие средства доступа, просмотра и анализа деловой информации. Пользователь получает естественную, интуитивно понятную модель данных, организуя их в виде многомерных кубов (Cubes). Осями многомерной системы координат служат основные атрибуты анализируемого бизнес-процесса. Например, для продаж это могут быть товар, регион, тип покупателя. В качестве одного из измерений используется время. Одна из очень важных отличий OLAP-систем от OLTP состоит в том, что данные с течением времени не изменяются, а накапливаются, что позволяет проводить анализ изменения каких либо бизнес-параметров во времени. На пересечениях осей - измерений (Dimensions) - находятся данные, количественно характеризующие процесс - меры (Measures). Это могут быть объемы продаж в штуках или в денежном выражении, остатки на складе, издержки и т. п. Пользователь, анализирующий информацию, может "разрезать" куб по разным направлениям, получать сводные (например, по годам) или, наоборот, детальные (по неделям) сведения и осуществлять прочие манипуляции, которые ему придут в голову в процессе анализа. 

В качестве мер в трехмерном кубе, изображенном на Рис. 1.2, использованы количество подписчиков, а в качестве измерений - время, продукты и подписчики. Измерения представлены на определенных уровнях группировки: продукты группируются по названиям, подписчики - по городам, а данные о времени совершения операций - по месяцам. 


Рис. 1.2.  Пример куба

1.2.4. Двумерное представление многомерных данных

Даже трехмерный куб сложно отобразить на экране компьютера так, чтобы были видны значения интересующих мер. Тем более сложно отобразить куб с числом измерений большим трех. Для визуализации данных, хранящихся в кубе, применяются, как правило, привычные двумерные, т. е. табличные, представления, имеющие сложные иерархические заголовки строк и столбцов.

     

Двумерное представление куба можно получить, "разрезав" его поперек одной или нескольких осей (измерений): фиксируем значения всех измерений, кроме двух, - и получаем обычную двумерную таблицу. В горизонтальной оси таблицы (заголовки столбцов) представлено одно измерение, в вертикальной (заголовки строк) - другое, а в ячейках таблицы - значения мер. При этом набор мер фактически рассматривается как одно из измерений - мы либо выбираем для показа одну меру (и тогда можем разместить в заголовках строк и столбцов два измерения), либо показываем несколько мер (и тогда одну из осей таблицы займут названия мер, а другую - значения единственного "неразрезанного" измерения).

В Таблице 3 представлен двумерный срез куба для одной меры – количество подписчиков журнала и двух "неразрезанных" измерений – Подписчики и Время.

Таблица 3. Двумерный срез куба для одной меры

 

Киев

Одесса

Запорожье

Январь

617

229

206

Февраль

615

222

203

Март

613

222

203

 

В Таблице 4 представлено лишь одно "неразрезанное" измерение - Продукты, но зато здесь отображаются значения нескольких мер – Количество подписчиков, стоимость.

Таблица 4. Двумерный срез куба для нескольких мер

 

Киев

Одесса

Запорожье

Количество подписчиков

617

229

206

Стоимость

37020

13740

12360

 

Двумерное представление куба возможно и тогда, когда "неразрезанными" остаются и более двух измерений. При этом на осях среза (строках и столбцах) будут размещены два или более измерений "разрезаемого" куба - см. Таблицу 5.

Таблица 5. Двумерный срез куба с несколькими измерениями на одной оси

 

Январь

Февраль

 

Киев

Одесса

Запорожье

Киев

Одесса

Запорожье

Количество подписчиков

617

229

206

615

222

203

Стоимость

37020

13740

12360

36900

13320

12180

 

1.2.5. Метки

Значения, "откладываемые" вдоль измерений, называются членами или метками (members). Метки используются как для "разрезания" куба, так и для ограничения (фильтрации) выбираемых данных - когда в измерении, остающемся "неразрезанным", нас интересуют не все значения, а их подмножество, например три города из нескольких десятков. Значения меток отображаются в двумерном представлении куба как заголовки строк и столбцов.

1.2.6. Иерархии и уровни

Метки могут объединяться в иерархии, состоящие из одного или нескольких уровней (levels). Например, метки измерения "Подписчики" естественно объединяются в иерархию с уровнями:

Страна

    Область

Город

В соответствии с уровнями иерархии вычисляются агрегатные значения, например объем продаж для Страна или для Города.

Пользователь, работая с OLAP-приложением, имеет возможность просматривать динамические отчеты на разных уровнях детализации, поднимаясь на более верхний уровень (обобщение) или же снижаясь вниз (детализация).

 

 Предыдущая часть [Содержание] Следующая часть 

 

[Диплом индекс][Доклад][Реферат Рус][Реферат Укр][Abstract]
[Содержание][Введение][Выводы][Список литературы]

 

Copyright (c) 1998-2001, Alexandr S. Lukichov

 

             

Rambler's Top100

be number one

Каталог "eMIR" - рейтингующая поисковая система!


       

Украинская баннерная сеть