Про компанію Послуги Портфоліо Підтримка Відгуки клієнтів Контакнта інформація ТОВ Брутка: розробка програмного забеспечення та створення сайтів

Архів новин


Алгоритм ETL - технології інтеґрації даних

Для попередньо отриманих і збережених у оперативному сховищі даних нобхідно розробити систему норм і критеріїв перетворення їх до форми, придатної для збереження у сховищі даних. Приклади критеріїв та вимог:
обмеження часового періоду фактів "від ... – до ...", наприклад, вибір даних за останній місяць;
SELECT * FROM documents WHERE evdate>=DateDiff("d",Now(),30);
обов'язкове значення виміру, чи показника факту;
SELECT * FROM documents WHERE document_type IS NOT Null;
входження значень виміру у попередньо визначену множину чи область визначення;
SELECT * documents WHERE delp_id In (select id from department where prior_id is Not Null);
унікальність значень;
дотримання правил синтаксису;
семантичні обмеження.
З метою аналізу, фільтрації та перетворення вхідних даних необхідно сформувати та виконати стосовно таблиці фактів оперативного сховища даних запити на вилучення або зміну даних, які не відповідають критеріям, розглянутим вище:
вилучення даних, які не містять обов'язкових значень і, внаслідок цього не можуть бути застосовані у сховищі даних:
DELETE * FROM documents WHERE id not in (SELECT id from documents_type);
виправлення некоректних чи помилкових значень (наприклад, коли у джерелах даних внесено не коди підрозділів, а назви).
З метою завантаження таблиці фактів необхідно створити та виконати запит (процедуру) переміщення значень з підготованої таблиці вхідних даних сховища оперативних даних у таблицю фактів та провести аналіз виконаних дій:
підготовка вхідних даних: внести зміни в склад, структуру і зміст джерел даних (по мірі потреби доповнити новими стовпчиками, вилучити зайві чи змінити параметри стовпчика, внести відсутні значення), узгодивши їх відповідності з таблицею метаданих та структурою оперативного сховища даних;
створити таблицю ОСД;
приєднати визначені джерела даних в якості зовнішніх таблиць;
сформувати та реалізувати запити (процедури) для перенесення даних зовнішніх джерел в оперативне сховище даних
З метою аналізу та верифікації сховища даних необхідно перевірити та обґрунтувати працездатність сховища даних. Для цього:
перевірити наявність всіх необхідних значень у стовпчиках таблиці фактів за таким алгоритмом:
1) визначити кількість даних в джерелах,
2) додати отримані кількості записів,
3) визначити кількість вставлених у таблицю сховища записів (дата внесення цих записів рівна сьогоднішній),
4) якщо суми рівні, то ETL пройшов без перешкод;
перевірити таблицю фактів на наявність "підвішених" рядків, що виникають при наявності в ній значень кодів, відсутніх у таблицях вимірів;
перевірити таблицю фактів на наявність повторюваних рядків:
визначаємо записи, що повторюються,

визначені записи знищуємо, залишивши один з них;

виконати тестові запити на отримання контрольних підсумкових значень, таких як підрахунок кількості фактів по певному виміру, сумарного значення по певному виміру, тощо і звірити отримані результати з фактичними
на підставі отриманих результатів зробити висновки про придатність чи непридатність побудованого сховища даних до застосування.

2008-04-04

 

Архів новин: новини IT, опис технологій, ціни