| [Домашняя страничка][Резюме][Фотоальбом][Диплом][Научные статьи] | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4. Анализ и сравнение OLAP-продуктов |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4.1. Сравниваемые продукты Я провел предварительный обзор существующих на рынке OLAP-продуктов. Количество поставщиков таких продуктов достаточно велико. Такими поставщиками являются: Targit, Next Action Technology, Cartesis, Hyperion Solutions, Cristal Decisions, Knosys, Cognos, Brio Technology, Sybase, Arbor Systems, SAS Institute, IQ Software, Business Objects, Oracle, Informix, Microsoft, IBM и другие. В виду достаточно большого количества, я сузил круг сравниваемых продуктов наиболее известными и долго работающими на рынке поставщиками. Итак, я выбрал следующих поставщиков: Microsoft, Sybase, IBM, Oracle, Informix. Каждая из этих фирм известна своими достижениями в области СУБД и имеет в ряде своих продуктов и OLAP-средства. Таблица 1. Сравниваемые OLAP-продукты
Далее будут рассматриваться только те программные продукты, которые перечислены в Таблице 1. 4.2. Основные принципы OLAP В первую очередь необходимо определить основные параметры, позволяющие считать конкретный продукт OLAP-продуктом. В 1993 году Е. Ф. Кодд с партнерами опубликовали статью, озаглавленную «Обеспечение OLAP для пользователей - аналитиков»[9], как некий "мандат" информационной технологии. В этой статье Е. Ф. Кодд сформулировал 12 основополагающих принципов OLAP. В 1995 году к ним были добавлены еще шесть. Доктор Кодд разбил на четыре группы эти правила, назвав их "особенностями". 4.2.1.Основные особенности F1: Многомерное концептуальное представление данных. Эта особенность является сердцевиной OLAP. F2: Интуитивное манипулирование данными. Эта особенность имеет небольшое значение для оценки продукта. Инструмент должен предлагать выбор наиболее удобного режима манипулирования данными, не навязывая пользователям какой-то один подход. F3: Доступность: OLAP как посредник. В этом правиле д-р Кодд особенно подчеркивает роль OLAP в качестве прослойки между гетерогенными источниками данных и представлением для конечного пользователя. Большинство продуктов обеспечивает это, но часто посредством гораздо более многочисленных этапов и пакетирования, чем хотел бы поставщик. F4: Пакетное извлечение против интерпретации. Это правило требует, чтобы продукт в равной степени эффективно обеспечивал доступ как к собственному хранилищу данных, так и к внешним данным. В сущности д-р Кодд настаивал на многомерном представлении данных с частичными предварительными вычислениями для больших многомерных баз данных, так чтобы любые детальные данные были прозрачны и доступны. Сегодня это соответствует определению гибридных OLAP, которые в самом деле становятся наиболее популярной архитектурой. F5: Модели анализа OLAP. Д-р Кодд требует, чтобы OLAP продукты поддерживали все четыре модели анализа, которые он описывает в своей статье (Категориальный, Толковательный, Умозрительный и Стереотипный). Это можно перефразировать, как формирование параметрически настраиваемых отчетов, формирование разрезов и группировок с обращением, анализом в стиле "что, если" и моделями поиска целей, соответственно. F6: Архитектура "клиент-сервер". Д-р Кодд требует, чтобы продукт был не только клиент-серверным, но и чтобы серверный компонент был бы достаточно интеллектуальным для того, чтобы различные клиенты могли подключаться с минимумом усилий и программирования. Это требование существенно сильнее, чем просто архитектура "клиент-сервер", и относительно небольшое количество продуктов удовлетворяют ему. В сущности, это косвенно означает, что OLAP доступен с Вашего рабочего стола. Возможно д-р Кодд предполагал доступ через Web, или он предвосхищал повсеместное принятие стандарта, которым обещает стать OLE DB для OLAP. F7: Прозрачность. Полное соответствие этому требованию означает, что, скажем, пользователь электронной таблицы способен получить все необходимые данные из OLAP-машины, даже не подозревая, откуда они в конечном счете берутся. Чтобы выполнить это, продукт должен обеспечивать непосредственный живой доступ к гетерогенным источникам данных и одновременно иметь встроенную полнофункциональную электронную таблицу. F8: Многопользовательская поддержка. Д-р Кодд признает, что не все OLAP приложения работают только в режиме чтения данных, и этим правилом указывает стратегическое направление развития. Инструменты OLAP должны обеспечивать одновременный доступ (чтение и запись), интеграцию и конфиденциальность.. 4.2.2.Специальные особенности F9: Обработка ненормализованных данных. Оно указывает на необходимость интеграции между OLAP-машиной и ненормализованными источниками данных. Доктор Кодд указывает, что модификации данных, выполненные в среде OLAP не должны приводить к изменениям данных хранимых в исходных внешних системах. Сказанное им можно интерпретировать и как то, что не должны допускаться изменения данных, которые обычно расцениваются как расчетные ячейки в пределах базы данных OLAP. F10: Сохранение результатов OLAP: хранение их отдельно от исходных данных. В действительности это боле относится к реализации, чем к сущности продукта. В сущности д-р Кодд придерживается широко распространенного мнения о том, что OLAP приложения, работающие в режиме чтения-записи не должны воздействовать напрямую на обрабатываемые данные, и данные, модифицированные в OLAP, должны сохраняться отдельно от данных транзакций. Метод обратной записи данных, использованный в Microsoft OLAP Services, является лучшей реализацией этого, поскольку позволяет сохранять данные, измененные в среде OLAP, отдельно от основных данных. F11: Исключение отсутствующих значений. Все отсутствующие значения отбрасываются в представлении, определенном версией 2 реляционной модели данных. Мы интерпретируем это так, что отсутствующие значения должны отличаться от нулевых значений. В действительности это интересно только с точки зрения компактности хранения данных, некоторые OLAP инструменты игнорируют это правило без больших потерь в функциональности. F12: Обработка отсутствующих значений. Все отсутствующие значения будут игнорироваться OLAP анализатором без учета их источника. Эта особенность связана с 11-й и является почти неизбежным следствием того, как OLAP-машина обрабатывает все данные. 4.2.3.Особенности представления отчетов F13: Гибкость формирования отчетов. Д-р Кодд требует, чтобы измерения могли быть размещены в отчете так, как это нужно пользователю. Большинство продуктов способны это обеспечить в своих средствах формирования отчетов. F14: Стандартная производительность отчетов. Д-р Кодд требует, чтобы производительность формирования отчетов существенно не падала с ростом количества измерений и размеров базы данных. F15: Автоматическая настройка физического уровня. Д-р Кодд требует, чтобы OLAP системы автоматически настраивали свою физическую схему в зависимости от типа модели, объемов данных и разряженности базы данных. Большинство поставщиков весьма далеки от этого прекрасного идеала. Компания Panorama technology, приобретенная компанией Microsoft в октябре 1996г, заложила здесь новый фундамент, и пользователи теперь могут извлечь выгоды из Microsoft OLAP Services. 4.2.4.Управление измерениями F16: Универсальность измерений. Все измерения должны быть равноправны, каждое измерение должно быть эквивалентно и в структуре и в операционных возможностях. F17: Неограниченное число измерений и уровней агрегации. Технически нет продукта, который мог бы соответствовать этому требованию, потому что нет такой вещи, как неограниченный объект на ограниченном компьютере. В любом случае, немного приложений нуждаются в более, чем порядка 8-ми или 10-ти измерениях, немного приложений имеют иерархию более шести консолидированных уровней. Д-р Кодд предлагает, что в случае принятия некоторого максимума, он должен обеспечивать по крайней мере 15 измерений, а предпочтительнее - 20. F18: Неограниченные операции между размерностями. Д-р Кодд утверждает, что все виды операций должны быть дозволены для любых измерений, а не только для измерений типа "показатель" (мера). В действительности, многие продукты, которые используют реляционную структуру хранения данных, слабы в этой области. Большинство продуктов с многомерной базой данных здесь сильны. 4.3. Тест FASMI В 1995 году Найджел Пендс и Ричард Крит из OLAP Report [11] уточнили определение OLAP Д-р Кодда, предложив так называемый тест FASMI. Этот критерий просто утверждает, что OLAP-приложения должны обеспечивать Быстрый Анализ Разделяемой Многомерной Информации (Fast Analysis of Shared Multidimensional Information). Fast (Быстрый) - анализ должен производиться одинаково быстро по всем аспектам информации. Приемлемое время отклика - 5 с или менее. Analysis (Анализ) - должна быть возможность осуществлять основные типы числового и статистического анализа, предопределенного разработчиком приложения или произвольно определяемого пользователем. Shared (Разделяемой) - множество пользователей должно иметь доступ к данным, при этом необходимо контролировать доступ к конфиденциальной информации. Multidimensional (Многомерной) - это основная, наиболее существенная характеристика OLAP. Information (Информации) - приложение должно иметь возможность обращаться к любой нужной информации, независимо от ее объема и места хранения. 4.4 Критерии сравнения OLAP-продуктов Рассмотрев описания выбранных 5 продуктов, я определил критерии, по которым можно сравнить OLAP-продукты и определить наиболее подходящий для моих целей продукт. Передо мной стоит задача выбрать быстрый, удобный, надежный и недорогой OLAP-продукт, позволяющий создать небольшое хранилище данных, предназначенное для разработки СМЭАД уровня киоска данных. Следовательно, продукт не должен требовать больших системных ресурсов. Я определил следующий перечень критериев сравнения OLAP-продуктов: 1. Поддержка ODBC-протокола. Если OLAP-продукт поддерживает этот протокол, это автоматически означает, что данные в хранилище данных могут загружаться из большого числа различных СУБД и электронных таблиц, для которых существует драйвер ODBC. 2. Поддержка доступа к нереляционных источникам данных. Имеется в виду возможность OLAP-продукта осуществлять доступ не только к СУБД посредством ODBC, но и к другим источникам данных. Такими источниками могут быть текстовые файлы, файловые системы, такие как Windows NT® и UNIX®, индексно-последовательные файлы, электронная почта, электронные таблицы, средства управления проектами и многое другое. Примером протокола, позволяющего осуществлять доступ к нереляционных источникам данных является OLE DB. 3. Возможность хранения данных в форме MOLAP и HOLAP. Большинство OLAP-продуктов позволяют хранить данные только в реляционной форме, то есть, ROLAP. У этого способа есть свои преимущества и свои недостатки. Преимуществом является возможность практически неограниченного масштабирования (в пределах аппаратных средств), недостатком является более низкая, по сравнению с MOLAP, скорость работы. Объемы данных, хранимых в форме MOLAP в реальных приложениях на сегодняшний день ограничены 10-20 гигабайт, причем за счет денормализации и предварительно выполненной агрегации 20 гигабайт в многомерной базе, в лучшем случае, эквивалентны не более чем 1 гигабайту исходных данных. HOLAP совмещает в себе преимущества обоих подходов, вернее, при этом используются обе архитектуры – совмещая превосходную производительность и высокую масштабируемость. 4. Временное хранение многомерных данных на клиентских компьютерах. Возможность сохранения на клиентском компьютере части многомерной БД позволяет выполнять анализ данных без непосредственного соединения с OLAP-сервером. Это предоставляет два существенных преимущества: во-первых сокращается количество и объем передачи информации через сеть, во-вторых, появляется возможность работать полностью без подключения к OLAP-серверу. 5. Возможность создания вычисляемых меток. Вычисляемые метки не хранятся на диске и не закачиваются в многомерную базу из источника данных. Используя вычисляемые метки, можно включить в многомерную базу измерения и меры, которых нет в исходных данных. 6. Совместная работа с несколькими кубами. Это позволяет проводить исследования по нескольким кубам одновременно. Кубы могут находиться на одном или нескольких серверах. Важность этого критерия состоит в том, что имеется возможность совместного использования данных относящихся к различным областям анализа. Например, если в одном кубе хранятся данные о продажах, а во втором – данные о маркетинговых акциях, то можно анализировать влияние акций на изменение объема продаж. 7. Масштабируемость. Данный критерий подразумевает возможность OLAP-продукта работать с объемами данных в широких пределах (от очень маленьких до очень больших) без изменения состава программного продукта. Практически все OLAP-продукты удовлетворяют этому критерию. 8. Оптимизация схемы агрегирования. Имеется в виду возможность изменения количества вычисленных заранее агрегатов. Чем больше агрегатов хранится в готовом виде, тем выше производительность системы и тем меньше среднее время ответа на запрос. В то же время, увеличение количества хранимых агрегатов приводит к увеличению объема хранимых данных. Возможность сохранять только те агрегаты, которые наиболее часто используются в запросах пользователей, позволяет получить наименьший объем хранилища данных при максимальной производительности для наиболее популярных запросов к БД. Поэтому данный критерий достаточно важен при выборе оптимального OLAP-продукта. 9. Удобные средства администрирования. От удобства построения средств администрирования зависит производительность труда администратора OLAP-продукта. Средства администрирования должны иметь графический интерфейс пользователя, встроенные средства обучения и всеобъемлющие средства помощи. 10. Решение проблемы «взрыва данных». Как уже отмечалось, для большинства OLAP-продуктов предварительное вычисление агрегатов - это основная стратегия, обеспечивающая выигрыш в производительности. В то же время предварительная агрегация связана со значительными затратами: число агрегатов легко может превысить число исходных точек с детальной информацией, что приводит к резкому росту объема хранимых данных. Эффект «взрыва данных» проявляется при предварительном подсчете агрегатов. Синдром взрыва может приводить к еще большим проблемам при разреженном распределении исходных данных по многомерному кубу. Отсутствующие или недопустимые значения данных создают разрежение в модели данных OLAP. Наиболее удачные OLAP-продукты борются с этой проблемой не сохраняя пустые значения, таким образом, даже плохо заполненные кубы не раздуваются в объеме.
11. Многопользовательский доступ к OLAP-серверу. Системы многомерного экспресс анализа данных создаются с целью поддержки принятия решений и анализа обстановки на достаточно крупных предприятиях. Принятием решений обычно занимается не один человек, а группа. На уровне отдела анализом может заниматься начальник отдела, на уровне предприятия – менеджеры, маркетологи, руководитель. Кроме того, OLAP-продукты очень дорогие и использование их в однопользовательском режиме крайне нецелесообразно. Таким образом, OLAP-продукт обязательно должен поддерживать работу в многопользовательском режиме. 12. Возможность предварительного вычисления агрегатов. OLAP-продукт должен работать с одинаково большой скоростью и с маленькими и с большими объемами данных, так как основной принцип OLAP – это быстрая обработка запросов. Высокая скорость определяется в первую очередь тем, хранятся ли в многомерной базе данных заранее вычисленные агрегаты, или они вычисляются в процессе ответа на запрос пользователя. 13. Безопасность на уровне ячейки информации. Хранилища данных хранят обычно информацию обо всех аспектах деятельности предприятия. Кроме положительных сторон в хранилище данных имеется отрицательная – в случае, если информация попадет к неавторизированному пользователю. Поэтому обеспечение защиты данных имеет очень высокую важность. Наилучшим уровнем защиты является ограничение доступа не только на уровне таблиц, но и на уровне записей в таблицах, т.е. безопасность на уровне ячейки информации. 14. Кросплатформенность. Для большинства OLAP-продуктов существуют версии под различные аппаратные и программные платформы. Среди сравниваемых мной продуктов только OLAP Services фирмы Microsoft поддерживает работу на одной платформе Win32. Но так как WinNT является наиболее дешевой операционной системой, это не очень критичный критерий. 15. Цена OLAP-сервера и лицензии на 5 человек. Для сравнения я взял стоимость набора из OLAP-сервера и лицензии на 5 рабочих мест. Это является достаточным для создания СМЭАД масштаба небольшого предприятия. 4.5. Сравнение OLAP-продуктов В соответствии с определенными мною ранее критериями я составил таблицу сравнения различных OLAP-продуктов (Таблица2). Таблица2. Сравнение различных OLAP-продуктов
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||