logo ULYS Systems
ua
en
О компании Партнеры Направления Инфоцентр Вакансии Контакты
На главную Поиск на сайте Карта сайта Обратная связь

Введение в хранилища данных. Business white paper.

Обзор
Чтобы с выгодной стороны отличаться от конкурентов и поставлять продукты и услуги экономически эффективно, менеджерам необходимо проводить постоянную оценку отношений с поставщиками и клиентами. Еще более важной является необходимость получать достоверные ответы на три вопроса, ответы, которые необходимы каждому менеджеру – Что собой представляет Ваш бизнес?, Кто является Вашим клиентом? и Что важно и ценно для Вашего клиента?
 
Для точного ответа на эти вопросы необходима консолидация данных по всей компании и внедрение бизнес-аналитики (Business Intelligence, BI – аналитическая платформа компании и технологии, ее поддерживающие, такие, как хранилища данных) на всех уровнях.
 
Многие компании не используют полноценную бизнес аналитику, потому что испытывают трудности при выборе и внедрении инфраструктуры, которая сможет поддерживать увеличивающиеся требования бизнеса и соответствовать всей широте требований к бизнес анализу. Этот документ описывает, что такое хранилища данных, какие выгоды принесет его внедрение и возможные типовые аппаратно-программные конфигурации таких хранилищ.
Введение
Для успешного ведения бизнеса жизненно важно иметь своевременную и правильную информацию. Но бизнес оперирует такими понятиями, как клиент, продукт, магазин, продажи, регион, марка, а не названиями таблиц и столбцов базы данных. Если у нас есть правильные данные, но они рассредоточены по разным системам, то сложно сделать нестандартный запрос. Кроме того, представление данных в виде таблиц со сложными именами и множеством зашифрованных названий столбцов делает для обычного пользователя такую задачу очень сложной. Для ее решения требуется обязательное участие специалистов по ИТ. Но что происходит, если сегодня нас интересует один запрос, а завтра другой? Если следующий запрос зависит от того, какой ответ был получен на предыдущий? Для ответа на такие запросы и создается хранилище данных. Если использовать метафору о публикации, то цель хранилища данных – сделать информацию легко доступной для тех, кому она необходима. Это означает своевременную доставку полезной и интересной информации (публикацию), причем представлена она в виде, привычном для пользователя (читателя).
Задачи бизнеса

Приведем примеры вопросов, на которые ежедневно приходится отвечать при управлении любым бизнесом:

  • Кто наши лучшие клиенты?
  • Почему от нас уходят клиенты?
  • Кто наши потенциальные клиенты?
  • Как меняется объем продаж по регионам продажи, маркам, брэндам, дате продажи?
  • Как меняется доход в тех же разрезах?
  • Какой будет объем продаж в следующем году (с учетом сезонных колебаний)?
  • Куда следует бесплатно рассылать каталоги продукции стоимостью $5 каждый?
  • Какие наши продукты являются лучшими (в разрезах по странам, регионам)?
  • Какую пользу принесли нам маркетинговые компании?
  • Стоит ли проводить маркетинговую компанию, нацеленную на определенную группу клиентов? Какой она даст результат?
Каждый вопрос хотелось бы задавать в разных разрезах: регион, марка, брэнд, страна, квартал продажи. Ответы на подобные вопросы помогают найти хранилища данных.
 
Amazon.com, Сиетл, США - крупнейший интернет-магазин
"Хранилище данных на Oracle очень быстро окупило себя, примерно за пол-года. И после этого хранилище продолжает оставаться важным фактором для успешного бизнеса Amazon.com."
Mark Dunlap, Data Warehouse Program Manager
Роль хранилища данных
Что же такое хранилище данных? Это база данных, спроектированная так, чтобы с оптимальной скоростью выполнять запросы и проводить анализ результатов. Хранилище данных содержит исторические данные, полученные из различных оперативных систем, что позволяет проводить консолидированный анализ данных.
 
W.H. Inmon в [2] определил хранилище как предметно - ориентированную, интегрированную, вариантную во времени, не разрушаемую совокупность данных, предназначенную для поддержки принятия управленческих решений.
 
Предметная ориентация. Хранилище данных предназначено для анализа данных. Оно концентрируется на предмете, а не на процессе. Так, можно построить хранилище, ориентированное на продажи.
 
Интегрированость. Хранилище данных должно приводить данные, полученные из разных источников или в разное время, к единому формату, чтобы было легко проводить анализ.
 
Неизменяемость. Данные, однажды попавшие в хранилище данных, не изменяются.
 
Вариантность во времени. Для исследования бизнеса во времени хранилище данных должно поддерживать всю историю изменений, чтобы можно было посмотреть на бизнес с исторической перспективы.
Отличие хранилища данных от оперативных систем
Одной из главных ценностей в бизнесе является информация. Для информационного обеспечения бизнеса применяют два вида систем – оперативные (OLTP) и хранилища данных. К этим системам предъявляются существенно разные требования и функционируют они в разных ритмах.
 
OLTP системы предназначены для выполнения предопределенных запросов. Часто такие запросы обращаются к небольшому числу записей. Например – посмотреть приход товара на склад от поставщика X сегодня. Пользователи системы самостоятельно обновляют и вносят новые данные. Так, менеджер по кадрам может изменить фамилию служащей (по причине того, что она вышла замуж). Структура базы данных такой системы направлена на поддержание целостности данных (за счет нормализации) и реализацию бизнес правил на уровне базы данных для гарантии согласованности данных и оптимизации обновлений. Данные в оперативной системе часто обновляются с потерей истории. История изменений поддерживается за небольшой период только для некоторых видов транзакций.
 
Хранилище данных спроектировано для выполнения заранее неизвестных запросов. Пользователи хранилища обычно не работают с несколькими записями, их запросы требуют обработки тысяч или сотен тысяч записей. Например – "Как приход товара на склад изменился по сравнению с прошлой неделей". Информация обновляется на регулярной основе (например, каждую ночь) с помощью специальных программ извлечения, трансформации и очистки и загрузки (ETL). Пользователи не могут изменять информацию. Схема спроектирована в денормализованной форме для оптимизации скорости запросов. Данные хранятся за многие годы.
 
Таким образом, хранилище данных обеспечивает достижение следующих целей:
  • Простота доступа. Содержимое хранилища должно быть легко для понимания. Все сущности в хранилище должны быть названы так чтобы по названию было ясно, что это. Средства доступа должны быть легкими в использовании. Пользователь должен обладать возможностью выбирать данные в различных комбинациях как он сам захочет.
  • Согласованность информации. Информация, полученная из разных бизнес процессов, должна быть согласована. Если два показателя имеют одинаковые названия, то они должны обозначать одно и то же; и если два показателя названы по-разному, то они должны обозначать действительно разные показатели.
  • Устойчивость к изменениям. Существующие данные не должны становится некорректными, если бизнес пользователь задает новые вопросы.
  • Защищенность. Только пользователи, имеющие соответствующие права, могут получать доступ к информации.
  • Поддержка принятия решений.
T-Mobile Austria, Австрия - оператор мобильной связи
"База данных Oracle была удачным выбором для T-Mobile Austria. Её промышленная эксплуатация подтвердила, что она може масштабироваться и обладает свойством переносимости на другие аппаратные платформы. Сегодня мы можем положиться на наше жизненно важное корпоративное хранилище данных, которое покрывает все аспекты цепочки начисления стоимости нашей компании."
Marcus Berger, CIO, T-Mobile Austria
Пример реализации
В настоящее время хранилища данных с успехом применяются в различных областях бизнеса. Хранилища данных стали наряду с оперативными системами критичными для бизнес в следующих отраслях:

 

  • Финансовые учреждения (банки и страховые компании)
  • Телекоммуникации
  • Розничная торговля
  • Медицина
  • Образование
  • Транспорт
  • Электронная коммерция
Некоторые компании предлагают каркасы (frameworks) для построения отраслевых хранилищ данных. Фактически такой каркас представляет собой концентрированный опыт компании-разработчика (концентрированный консалтинг) и может быть очень эффективен при внедрении хранилища. За счет использования шаблонов структур данных, отчетов, методик внедрения уменьшается время внедрения и снижаются риски.
Чтобы проиллюстрировать использование продуктов корпорации Oracle при построении и эксплуатации хранилища данных, давайте пройдем весь жизненный цикл построения хранилища на примере.
 
Постановка задачи.
Банк "Форт" хочет внедрить у себя хранилище данных. Есть ряд бизнес процессов, которые должны найти отображение в витринах данных. Человек, отвечающий за финансирование хранилища (бизнес спонсор), решает, что в первую очередь необходимо сконцентрироваться на депозитных вкладах физических лиц. Проводятся встречи между разработчиками и бизнес пользователями. В результате этих встреч разработчики получают представление о процессе в целом.
 
Сейчас дела обстоят следующим образом. Банк и вкладчик заключают договор, согласно которому вкладчик кладет сумму в банк, а банк обязуется вернуть эту сумму через какое-то время (срок договора) но уже с процентами. Проценты могут выплачиваться на протяжении срока действия договора или в конце срока. При досрочном расторжении договора клиентом проценты удерживаются. Договор заключается в одной валюте. Банк сам решает какие виды договоров он предоставляет. Банк разработал 15 видов договоров, некоторые из них описаны ниже.
 
Обычный. Проценты выплачиваются в конце срока. Нет возможности довкладывания. Сумма вклада от 100 грн.
 
Срок Гривны Доллары
6 месяцев 10% 5%
12 месяцев 14% 7%
24 месяца 15% 8%

Накопительный. Проценты выплачиваются поквартально. Существует возможность довкладывания. Минимальная сумма вклада $1000.
 
Срок Гривны Доллары
12 месяцев 8.5% 8.5%
24 месяца 9% 9%
48 месяцев 12% 12%

Банк имеет порядка 1 миллиона вкладчиков с общей суммой вкладов 1 миллиард гривен. За последний год прирост вкладчиков составил 10%. За год не возобновили договора 200,000 вкладчиков.
 
По результатам бесед с бизнес пользователями выясняется на какие вопросы должна отвечать будущая система:

 

  • Какая сумма депозитных вкладов в разрезе по месяцам?
  • Сколько средств из этой суммы выплачено в качестве процентов вкладчикам?
  • Какую прибыль мы получили с этой суммы (банк вкладывает депозитные вклады на кредиты)?
  • Какие виды договоров(продуктов) приносят 80% дохода ?
  • Кто наши лучшие вкладчики (социальный статус, география)?
  • Какие клиенты уходят от нас (не продлевают договора)?
Хранилище предоставляет гибкие средства доступа, так что задавать вопросы можно будет в разных разрезах.
 
Получая ответы на эти вопросы, банк сможет уменьшить отток вкладчиков и выяснить, какие договора являются наиболее привлекательными. Узнав больше о том, кто является лучшими клиентами, банк сможет разработать маркетинговые компании, направленные на привлечение и удержание именно этих клиентов.
 
Предварительная оценка.
Как оценить, что даст внедрение хранилища данных до того, как оно будет внедрено? Можно спросить у того, кто сейчас управляет политикой депозитов – «Как изменится общая сумма вкладов по депозитам, если Вы будете иметь всю необходимую информацию и своевременно?», а можно провести предварительную оценку. Вкладчики, не продлевающие договор, забирают свой вклад и вкладывают в другой банк или поступают как-то иначе. Допустим, что 50% наших бывших вкладчиков повторно вкладывают свои средства, но уже в другой банк. Наши прямые конкуренты (5 крупных банков) имеют примерно такие же показатели по депозитам и за прошлый год имели прирост вкладчиков в 10%. Таким образом, общий объем рынка оценивается в 50% от 5*200,000 вкладчиков плюс наши 50% от 200,000 итого 600,000 потенциальных вкладчиков. Если мы привлечем дополнительно 10% вкладчиков, то получим 60,000 прирост или 60,000 * 1000 грн. = 60 млн. грн. прироста в год на общей сумме вкладов. Кроме того, если мы лучше будем знать потребности наших лучших клиентов, то средняя сумма вклада увеличится и составит 2000 грн.
 
CERN, Женева, Швейцария - центр исследования физики элементарных частиц
"Наша стратегия при разработке бизнес приложений - использовать лучшие в своем классе продукты и решения. Oracle просто обеспечивает лучший набор приложений для Business Intellegence на рынке, как с точки зрения разработки, так и с точки зрения результата."
Mikael Angberg, Business Intelligence Manager, Internet Development Services, CERN
Типовые конфигурации
Выбор программных продуктов и аппаратной платформы, необходимых для реализации хранилища данных, определяется требованиями бизнеса. Факторами, влияющими на выбор, являются: количество данных, характер данных, качество данных, виды анализа, периодичность загрузки, режим доступа к данным, время ответа, количество пользователей и др.
 
Корпоративная конфигурация (крупная компания).
Условия применения:

 

  • Режим: 24 часа в сутки
  • Много данных, как справочного характера, так и транзакций
  • Большое (неограниченное) количество пользователей
Модификация A:  
Сервер базы данных:  
Сервер Dell PowerEdge 6600, 2CPU  
Oracle Database Enterprise Edition, лицензия на 2 CPU $80000
Опция секционирования для Oracle Database, лицензия на 2 CPU $20000
Сервер приложений:  
Сервер Dell PowerEdge 6600, 2 CPU  
Oracle Internet Application Server Enterprise Edition, лицензия на 2 CPU $40000
Сервер преобразования данных:  
Сервер Dell PowerEdge 6600, 2 CPU  
Клиентские продукты:  
Oracle Internet Developer Suite, 1 лицензия $1000
Итого по модификации A $141000
Модификация B:  
+ 2 CPU на сервер базы данных $100000
+ 2 CPU на сервер приложений $40000
Итого по модификации B $281000

CommerzBank AG, Франкфурт, Германия - крупный банк
"Хранилище данных на основе Oracle позволило банку обеспечить высокую доступность и непрерывность функционирования его систем - для того, чтобы обеспечить принятие правильных решений в условиях современных изменчивых рынков."
Bernd Klink, Vice President of Risk and Finance, Commerzbank, North America
 
Средняя конфигурация.
Условия применения:

 

  • пользователей относительно мало
  • загрузку можно проводить не чаще раз в сутки
  • режим: 16 часов в сутки
Модификация A:  
Сервер базы данных:  
Сервер Dell PowerEdge 6600, 2 CPU  
Oracle Database Enterprise Edition, 25 лицензий * 2 CPU $40000
Сервер приложений:  
Сервер Dell PowerEdge 6600, 2 CPU  
Oracle Internet Application Server Enterprise Edition, 25 лицензий * 2 CPU $20000
Клиентские продукты:  
Oracle Internet Developer Suite, 1 лицензия $1000
Итого по модификации А $61000
Модификация B:  
+ опция секционирования для Oracle Database, 25 лицензий * 2 CPU $10000
Итого по модификации B $71000

Ericsson Limited UK, Великобритания - телекоммуникации
"Технологии Oracle позволили нам обеспечить гораздо более высокие стандарты финансовой информаци в рамках Ericsson на территории Великобритании."
Mike Titley, Business Process and IT Director, Ericsson Limited
 
Начальная конфигурация.
Условия применения:

 

  • Пользователей относительно мало
  • Загрузку можно проводить не чаще раз в сутки
  • Режим: 16 часов в сутки
  • Данных относительно немного
Модификация A  
Сервер базы данных:  
Сервер Dell PowerEdge 6600, 2 CPU  
Oracle Database Enterprise Edition, 25 лицензий * 2 CPU $40000
Клиентские продукты:  
Oracle Internet Developer Suite, 1 лицензия $1000
Oracle Discoverer Desktop, 10 лицензий $10000
Итого по модификации A $51000
Модификация B:  
+ опция секционирования для Oracle Database, 25 лицензий * 2 CPU $10000
Итого по модификации B: $61000

Заключение
Проведя предварительные оценки, можно сделать вывод об экономической эффективности внедрения хранилища данных. Для внедрения необходимо выбирать такую бизнес область, где эффект будет максимален при оптимальных вложениях. Процесс разработки и внедрения хранилища данных сильно отличается от оперативной системы. Основная особенность заключается в том, что попытки заранее излишне детально определить требования к системе и реализовать все за один раз заканчиваются крахом. Наиболее эффективным показал себя итеративный процесс, когда готовые компоненты системы делаются доступными пользователям как можно раньше и они дорабатываются с учетом пожеланий пользователей. Критически важным фактором для успеха всего проекта является наличие бизнес-спонсора и квалифицированной команды исполнителей.
Литература
  1. Ralph Kimball, Margy Ross. The Data Warehouse Toolkit. Second Edition
  2. W.H. Inmon. Building the Data Warehouse. Third Edition
  3. Oracle9i Data Warehousing Guide Release 2 (9.2)
  4. Oracle9i Data Mining Concepts Release 9.2.0.2
  5. Джон Бентли. Жемчужины программирования
Компания "Улис Системс" предлагает услуги по разработке хранилищ данных. В компании работают:

 

  • три Oracle8i Certified Professional DBA, из которых два сертифицированные и на Oracle9i;
  • три Sun Certified Programmer, из которых два являются Sun Certified Web Component Developer.
Главная / Направления / Корпоративные программные системы / Хранилища данных / Введение в хранилища данных. Business white paper.