|
|
Введення в сховища даних. Business white paper.
Огляд
Щоб з вигідної сторони відрізнятися від конкурентів і поставляти продукти й послуги економічно ефективно, менеджерам необхідно проводити постійну оцінку відносин з постачальниками й клієнтами. Ще більш важливою є необхідність одержувати достовірні відповіді на три питання, відповіді, які необхідні кожному менеджерові – Що собою представляє Ваш бізнес?, Хто є Вашим клієнтом? і Що важливо й коштовно для Вашого клієнта?
Для точної відповіді на ці питання необхідна консолідація даних по всій компанії й впровадження бізнесу-аналітики (Business Intelligence, BI – аналітична платформа компанії й технології, її підтримуючі, такі, як сховища даних) на всіх рівнях.
Багато компаній не використовують повноцінну бізнес аналітику, тому що зазнають труднощів при виборі й впровадженні інфраструктури, що зможе підтримувати вимоги, бізнесу, що збільшуються, й відповідати всій широті вимог до бізнес аналізу. Цей документ описує, що таке сховища даних, які вигоди принесе його впровадження й можливі типові апаратно-програмні конфігурації таких сховищ.
Введення
Для успішного ведення бізнесу життєво важливо мати своєчасну й правильну інформацію. Але бізнес оперує такими поняттями, як клієнт, продукт, магазин, продажі, регіон, марка, а не назвами таблиць і стовпців бази даних. Якщо в нас є правильні дані, але вони розосереджені по різних системах, то складно зробити нестандартний запит. Крім того, подання даних у вигляді таблиць зі складними іменами й безліччю зашифрованих назв стовпців робить для звичайного користувача таке завдання дуже складним. Для її рішення потрібна обов'язкова участь фахівців з ІТ. Але що відбувається, якщо сьогодні нас цікавить один запит, а завтра інший? Якщо наступний запит залежить від того, яка відповідь була отримана на попередній? Для відповіді на такі запити й створюється сховище даних. Якщо використати метафору про публікації, то ціль сховища даних – зробити інформацію легко доступною для тих, кому вона необхідна. Це означає своєчасну доставку корисної й цікавої інформації (публікацію), причому представлена вона у вигляді, звичному для користувача (читача).
Завдання бізнесу
Приведемо приклади питань, на які щодня доводиться відповідати при керуванні будь-яким бізнесом:
- Хто наші кращі клієнти?
- Чому від нас ідуть клієнти?
- Хто наші потенційні клієнти?
- Як міняється обсяг продажів по регіонах продажу, маркам, брендам, даті продажу?
- Як міняється прибуток у тих же розрізах?
- Який буде обсяг продажів у наступному році (з урахуванням сезонних коливань)?
- Куди варто безкоштовно розсилати каталоги продукції вартістю $5 кожний?
- Які наші продукти є кращими (у розрізах по країнах, регіонам)?
- Яку користь принесли нам маркетингові компанії?
- Чи варто проводити маркетингову компанію, націлену на певну групу клієнтів? Який вона дасть результат?
Кожне питання хотілося б задавати в різних розрізах: регіон, марка, бренд, країна, квартал продажу. Відповіді на подібні питання допомагають знайти сховища даних.
Amazon.com, Сиєтл, США - найбільший інтернет-магазин "Сховище даних на Oracle дуже швидко окупило себе, приблизно за півроку. І після цього сховище продовжує залишатися важливим фактором для успішного бізнесу Amazon.com." Mark Dunlap, Data Warehouse Program Manager
Роль сховища даних
Що ж таке сховище даних? Це база даних, спроектована так, щоб з оптимальною швидкістю виконувати запити й проводити аналіз результатів. Сховище даних містить історичні дані, отримані з різних оперативних систем, що дозволяє проводити консолідований аналіз даних.
W.H. Inmon в [2] визначив сховище як предметно - орієнтовану, інтегровану, варіантну в часі, неруйнівну сукупність даних, призначену для підтримки прийняття управлінських рішень.
Предметна орієнтація Сховище даних призначене для аналізу даних. Воно концентрується на предметі, а не на процесі. Так, можна побудувати сховище, орієнтоване на продажі.
Інтегрованість. Сховище даних повинне наводити дані, отримані з різних джерел або в різний час, до єдиного формату, щоб було легко проводити аналіз.
Незмінюваність Дані, що один раз потрапили в сховище даних, не змінюються.
Варіантність у часі Для дослідження бізнесу в часі сховище даних повинне підтримувати всю історію змін, щоб можна було подивитися на бізнес із історичної перспективи.
Відмінність сховища даних від оперативних систем
Однією з головних цінностей у бізнесі є інформація. Для інформаційного забезпечення бізнесу застосовують два види систем – оперативні (OLTP) і сховища даних. До цих систем пред'являються істотно різні вимоги й функціонують вони в різні ритмах.
OLTP системи призначені для виконання визначених запитів. Часто такі запити звертаються до невеликого числа записів. Наприклад – подивитися прихід товару на склад від постачальника X сьогодні. Користувачі системи самостійно обновлюють і вносять нові дані. Так, менеджер по кадрам може змінити прізвище робітниці (через те, що вона вийшла заміж). Структура бази даних такої системи спрямована на підтримку цілісності даних (за рахунок нормалізації) і реалізацію бізнес правил на рівні бази даних для гарантії погодженості даних і оптимізації відновлень. Дані в оперативній системі часто оновлюються із втратою історії. Історія змін підтримується за невеликий період тільки для деяких видів транзакцій.
Сховище даних спроектоване для виконання заздалегідь невідомих запитів. Користувачі сховища звичайно не працюють із декількома записами, їхні запити вимагають обробки тисяч або сотень тисяч записів. Наприклад – "Як прихід товару на склад змінився в порівнянні з минулим тижнем". Інформація обновляється на регулярній основі (наприклад, щоночі) за допомогою спеціальних програм добування, трансформації й очищення й завантаження (ETL). Користувачі не можуть змінювати інформацію. Схема спроектована в денормалізованій формі для оптимізації швидкості запитів. Дані зберігаються за багато років.
Таким чином, сховище даних забезпечує досягнення наступних цілей:
- Простота доступу Вміст сховища повинен бути легким для розуміння. Всі сутності в сховищі повинні бути названі так щоб за назвою було ясно, що це. Засоби доступу повинні бути легкими у використанні. Користувач повинен мати можливість обирати дані в різних комбінаціях як він сам захоче.
- Погодженість інформації Інформація, отримана з різних бізнес процесів, повинна бути погоджена. Якщо два показники мають однакові назви, то вони повинні означати те саме; і якщо два показники названі по-різному, то вони повинні означати дійсно різні показники.
- Стійкість до змін. Існуючі дані не повинні стати некоректними, якщо бізнес користувач задає нові питання.
- Захищеність Тільки користувачі, що мають відповідні права, можуть одержувати доступ до інформації.
- Підтримка прийняття рішень
T-Mobile Austria, Австрія - оператор мобільного зв'язку "База даних Oracle була вдалим вибором для T-Mobile Austria. Її промислова експлуатація підтвердила, що вона може масштабуватися й має властивість переносу на інші апаратні платформи. Сьогодні ми можемо покластися на наше життєво важливе корпоративне сховище даних, що покриває всі аспекти ланцюжка нарахування вартості нашої компанії." Marcus Berger, CIO, T-Mobile Austria
Приклад реалізації
У цей час сховища даних з успіхом застосовуються в різних областях бізнесу. Сховища даних стали поряд з оперативними системами критичними для бізнес у наступних галузях:
- Фінансові установи (банки й страхові компанії)
- Телекомунікації
- Роздрібна торгівля
- Медицина
- Освіта
- Транспорт
- Електронна комерція
Деякі компанії пропонують каркаси (frameworks) для побудови галузевих сховищ даних. Фактично такий каркас являє собою концентрований досвід компанії-розроблювача (концентрований консалтинг) і може бути дуже ефективний при впровадженні сховища. За рахунок використання шаблонів структур даних, звітів, методик впровадження зменшується час впровадження й знижуються ризики.
Щоб проілюструвати використання продуктів корпорації Oracle при побудові й експлуатації сховища даних, давайте пройдемо весь життєвий цикл побудови сховища на прикладі.
Постановка завдання
Банк "Форт" хоче впровадити в себе сховище даних. Є ряд бізнес процесів, які повинні знайти відображення у вітринах даних. Людина, відповідальна за фінансування сховища (бізнес спонсор), вирішує, що в першу чергу необхідно сконцентруватися на депозитних внесках фізичних осіб. Проводяться зустрічі між розроблювачами й бізнес користувачами. У результаті цих зустрічей розроблювачі одержують подання про процес в цілому.
Зараз справи йдуть у такий спосіб. Банк і вкладник складають договір, відповідно до якого вкладник кладе суму в банк, а банк зобов'язується повернути цю суму через якийсь час (строк договору) але вже з відсотками. Відсотки можуть виплачуватися протягом терміну дії договору або наприкінці строку. При достроковому розірванні договору клієнтом відсотки втримуються. Договір укладається в одній валюті. Банк сам вирішує які види договорів він надає. Банк розробив 15 видів договорів, деякі з них описані нижче.
Звичайний Відсотки виплачуються наприкінці строку. Немає можливості довкладання. Сума внеску від 100 грн.
| Строк |
Гривні |
Долари |
| 6 місяців |
10% |
5% |
| 12 місяців |
14% |
7% |
| 24 місяця |
15% |
8% |
Накопичувальні Відсотки виплачуються поквартально. Існує можливість довкладання. Мінімальна сума внеску $1000.
| Строк |
Гривні |
Долари |
| 12 місяців |
8.5% |
8.5% |
| 24 місяця |
9 % |
9% |
| 48 місяців |
12% |
12% |
Банк має біля 1 мільйона вкладників із загальною сумою внесків 1 міл`ярд гривень. За останній рік приріст вкладників склав 10%. За рік не відновили договорb 200,000 вкладників.
За результатами бесід з бізнес користувачами з'ясовується на які питання повинна відповідати майбутня система:
- Яка сума депозитних внесків у розрізі по місяцях?
- Скільки засобів із цієї суми виплачено як відсотки вкладникам?
- Який прибуток ми одержали із цієї суми (банк вкладає депозитні внески на кредити)?
- Які види договорів(продуктів) приносять 80% доходу ?
- Хто наші кращі вкладники (соціальний статус, географія)?
- Які клієнти йдуть від нас (не продовжують договори)?
Сховище надає гнучкі засоби доступу, так що задавати питання можна буде в різні розрізах.
Одержуючи відповіді на ці питання, банк зможе зменшити відтік вкладників і з'ясувати, які договори є найбільш привабливими. Довідавшись більше про те, хто є кращими клієнтами, банк зможе розробити маркетингові компанії, спрямовані на залучення й утримання саме цих клієнтів.
Попередня оцінка
Як оцінити, що дасть впровадження сховища даних до того, як воно буде впроваджено? Можна запитати в того, хто зараз управляє політикою депозитів – «Як зміниться загальна сума внесків по депозитах, якщо Ви будете мати всю необхідну інформацію й вчасно?», а можна провести попередню оцінку. Вкладники, що не продовжують договір, забирають свій внесок і вкладають в інший банк або надходять якось інакше. Допустимо, що 50% наших колишніх вкладників повторно вкладають свої кошти, але вже в інший банк. Наші прямі конкуренти (5 великих банків) мають приблизно такі ж показники по депозитах і за минулий рік мали приріст вкладників в 10%. Таким чином, загальний обсяг ринку оцінюється в 50% від 5*200,000 вкладників плюс наші 50% від 200,000 разом 600,000 потенційних вкладників. Якщо ми залучимо додатково 10% вкладників, то одержимо 60,000 приріст або 60,000 * 1000 грн. = 60 млн. грн. приросту в рік на загальній сумі внесків. Крім того, якщо ми краще будемо знати потреби наших кращих клієнтів, те середня сума внеску збільшиться й складе 2000 грн.
CERN, Женева, Швейцарія - центр дослідження фізики елементарних часток "Наша стратегія при розробці бізнес додатків - використати кращі у своєму класі продукти й рішення. Oracle просто забезпечує кращий набір додатків для Business Intellegence на ринку, як з погляду розробки, так і з погляду результату." Mikael Angberg, Business Intelligence Manager, Internet Development Services, CERN
Типові конфігурації
Вибір програмних продуктів і апаратної платформи, необхідних для реалізації сховища даних, визначається вимогами бізнесу. Факторами, що впливають на вибір, є: кількість даних, характер даних, якість даних, види аналізу, періодичність завантаження, режим доступу до даних, час відповіді, кількість користувачів інше.
Корпоративна конфігурація (велика компанія).
Умови застосування:
- Режим: 24 години на добу
- Багато даних, як довідкового характеру, так і транзакцій
- Велика (необмежене) кількість користувачів
| Модифікація A: |
|
| Сервер бази даних: |
|
| Сервер Dell PowerEdge 6600, 2CPU |
|
| Oracle Database Enterprise Edition, ліцензія на 2 CPU |
$80000 |
| Опція секціонування для Oracle Database, ліцензія на 2 CPU |
$20000 |
| Сервер додатків: |
|
| Сервер Dell PowerEdge 6600, 2 CPU |
|
| Oracle Internet Application Server Enterprise Edition, ліцензія на 2 CPU |
$40000 |
| Сервер перетворення даних: |
|
| Сервер Dell PowerEdge 6600, 2 CPU |
|
| Клієнтські продукти: |
|
| Oracle Internet Developer Suite, 1 ліцензія |
$1000 |
| Разом по модифікації A |
$141000 |
| Модифікація B: |
|
| + 2 CPU на сервер бази даних |
$100000 |
| + 2 CPU на сервер додатків |
$40000 |
| Разом по модифікації B |
$281000 |
CommerzBank AG, Франкфурт, Німеччина - великий банк "Сховище даних на основі Oracle дозволило банку забезпечити високу доступність і безперервність функціонування його систем - для того, щоб забезпечити прийняття правильних рішень в умовах сучасних мінливих ринків." Bernd Klink, Vice President of Risk and Finance, Commerzbank, North America
Середня конфігурація
Умови застосування:
- користувачів відносно мало
- завантаження можна проводити не частіше раз на добу
- режим: 16 годин на добу
| Модифікація A: |
|
| Сервер бази даних: |
|
| Сервер Dell PowerEdge 6600, 2 CPU |
|
| Oracle Database Enterprise Edition, 25 ліцензій * 2 CPU |
$40000 |
| Сервер додатків: |
|
| Сервер Dell PowerEdge 6600, 2 CPU |
|
| Oracle Internet Application Server Enterprise Edition, 25 ліцензій * 2 CPU |
$20000 |
| Клієнтські продукти: |
|
| Oracle Internet Developer Suite, 1 ліцензії |
$1000 |
| Разом по модифікації А |
$61000 |
| Модифікація B: |
|
| + опція секціонування для Oracle Database, 25 ліцензій * 2 CPU |
$10000 |
| Разом по модифікації B |
$71000 |
Ericsson Limited UK, Великобританія - телекомунікації "Технології Oracle дозволили нам забезпечити набагато більш високі стандарти фінансової інформації в рамках Ericsson на території Великобританії." Mike Titley, Business Process and IT Director, Ericsson Limited
Початкова конфігурація
Умови застосування:
- Користувачів відносно мало
- Завантаження можна проводити не частіше разу на добу
- Режим: 16 годин на добу
- Даних відносно небагато
| Модифікація A |
|
| Сервер бази даних: |
|
| Сервер Dell PowerEdge 6600, 2 CPU |
|
| Oracle Database Enterprise Edition, 25 ліцензій * 2 CPU |
$40000 |
| Клієнтські продукти: |
|
| Oracle Internet Developer Suite, 1 ліцензія |
$1000 |
| Oracle Discoverer Desktop, 10 ліцензій |
$10000 |
| Разом по модифікації A |
$51000 |
| Модифікація B: |
|
| + опція секціонування для Oracle Database, 25 ліцензій * 2 CPU |
$10000 |
| Разом по модифікації B: |
$61000 |
Висновок
Провівши попередні оцінки, можна зробити висновок про економічну ефективність впровадження сховища даних. Для впровадження необхідно обирати таку бізнес область, де ефект буде максимальний при оптимальних вкладеннях. Процес розробки й впровадження сховища даних сильно відрізняється від оперативної системи. Основна особливість полягає в тому, що спроби заздалегідь детально визначити вимоги до системи й реалізувати все за один раз закінчуються крахом. Найбільш ефективним показав себе ітеративний процес, коли готові компоненти системи стають доступними користувачам якомога раніше й вони допрацьовуються з урахуванням побажань користувачів. Критично важливим фактором для успіху всього проекту є наявність бізнес-спонсора й кваліфікованої команди виконавців.
Література
- Ralph Kimball, Margy Ross. The Data Warehouse Toolkit. Second Edition
- W.H. Inmon. Building the Data Warehouse. Third Edition
- Oracle9i Data Warehousing Guide Release 2 (9.2)
- Oracle9i Data Mining Concepts Release 9.2. 0.2
- Джон Бентлі. Перлини програмування
Компанія "Уліс Сістемс" пропонує послуги з розробки сховищ даних. В компанії працюють:
- три Oracle8i Certified Professional DBA, з яких два сертифіковані й на Oracle9i;
- три Sun Certified Programmer, з яких два є Sun Certified Web Component Developer.
|