Про компанію Послуги Портфоліо Підтримка Відгуки клієнтів Контакнта інформація ТОВ Брутка: розробка програмного забеспечення та створення сайтів

Архів новин


Алгоритм ETL - технології інтеґрації даних

Для попередньо отриманих і збережених у оперативному сховищі даних нобхідно розробити систему норм і критеріїв перетворення їх до форми, придатної для збереження у сховищі даних. Приклади критеріїв та вимог:
обмеження часового періоду фактів "від ... – до ...", наприклад, вибір даних за останній місяць;

SELECT * FROM documents WHERE evdate>=DateDiff("d",Now(),30);
обов'язкове значення виміру, чи показника факту;

SELECT * FROM documents WHERE document_type IS NOT Null;
входження значень виміру у попередньо визначену множину чи область визначення;

SELECT * documents WHERE delp_id In (select id from department where prior_id is Not Null);
унікальність значень;
дотримання правил синтаксису;
семантичні обмеження.

З метою аналізу, фільтрації та перетворення вхідних даних необхідно сформувати та виконати стосовно таблиці фактів оперативного сховища даних запити на вилучення або зміну даних, які не відповідають критеріям, розглянутим вище:
вилучення даних, які не містять обов'язкових значень і, внаслідок цього не можуть бути застосовані у сховищі даних:

DELETE * FROM documents WHERE id not in (SELECT id from documents_type);
виправлення некоректних чи помилкових значень (наприклад, коли у джерелах даних внесено не коди підрозділів, а назви).

З метою завантаження таблиці фактів необхідно створити та виконати запит (процедуру) переміщення значень з підготованої таблиці вхідних даних сховища оперативних даних у таблицю фактів та провести аналіз виконаних дій:
підготовка вхідних даних: внести зміни в склад, структуру і зміст джерел даних (по мірі потреби доповнити новими стовпчиками, вилучити зайві чи змінити параметри стовпчика, внести відсутні значення), узгодивши їх відповідності з таблицею метаданих та структурою оперативного сховища даних;
створити таблицю ОСД;
приєднати визначені джерела даних в якості зовнішніх таблиць;
сформувати та реалізувати запити (процедури) для перенесення даних зовнішніх джерел в оперативне сховище даних

З метою аналізу та верифікації сховища даних необхідно перевірити та обґрунтувати працездатність сховища даних. Для цього:
перевірити наявність всіх необхідних значень у стовпчиках таблиці фактів за таким алгоритмом:

1) визначити кількість даних в джерелах,

2) додати отримані кількості записів,

3) визначити кількість вставлених у таблицю сховища записів (дата внесення цих записів рівна сьогоднішній),

4) якщо суми рівні, то ETL пройшов без перешкод;
перевірити таблицю фактів на наявність "підвішених" рядків, що виникають при наявності в ній значень кодів, відсутніх у таблицях вимірів;
перевірити таблицю фактів на наявність повторюваних рядків:
визначаємо записи, що повторюються,
визначені записи знищуємо, залишивши один з них;
виконати тестові запити на отримання контрольних підсумкових значень, таких як підрахунок кількості фактів по певному виміру, сумарного значення по певному виміру, тощо і звірити отримані результати з фактичними
на підставі отриманих результатів зробити висновки про придатність чи непридатність побудованого сховища даних до застосування.

2008-04-20

 

Архів новин: новини IT, опис технологій, ціни