Обзор алгоритмов MOLAP

       

Доказательство


Авторы опускают необходимую при создании DWARF-куба лексикографическую сортировку начальной таблицы (во время создания куба появление нового префикса означает необходимость создания новой вершины на уровне, где различаются префиксы). Сортировка всей фактической таблицы —

Доказательство

или

Доказательство

в лучшем случае (сортировка слиянием, кучами или подсчетом, вычерпыванием). Но с учетом NP-полноты начальной задачи, этим затратами можно пренебречь.

Пусть существует таблица фактических данных с

Доказательство

измерениями (

Доказательство

), и количество фактических кортежей

Доказательство

. Не нарушая общности, положим

Доказательство

. У получившегося сжатого куба (или DWARF-куба) корневая ячейка будет иметь вид, показанный на рисунке . Группа

Доказательство

содержит ячейки, не имеющие связи с фактическими кортежами, группа

Доказательство

— ячейки, связанные с одним кортежем фактической таблицы,

Доказательство

— два фактических кортежа.

Рис. 2.4:

Вершина G, разбитая на группы, где группа

Доказательство

связана с

Доказательство

фактическими кортежами

Лемма 1

Если из набора равномерно распределенных

Доказательство

элементов выбрать некоторый элемент и повторить выбор

Доказательство

раз, то вероятность выбора этого элемента ровно

Доказательство

раз приблизительно равна:

Доказательство

Равномерность — еще одно ограничение на входные фактические данные. В общем случае:

Доказательство

Коротко укажем дальнейшие пункты доказательства.

Применяя лемму 1 к группам

Доказательство

и подставляя

Доказательство
, получим

Лемма 2

Доказательство

содержит

Доказательство

ячеек, которые адресуют ровно

Доказательство

кортежей.

В общем случае в

Доказательство

попадает

Доказательство

В случае неравномерного распределения кортежей, данная сумма будет отличаться от результатов [22], и это повлечет изменение всех дальнейших оценок в леммах.

Лемма 3

Число дубликатных ключей в вершине, на которую указывает ячейка группы

Доказательство
,

равно 0. (

Доказательство

)

Основываясь на введенных выше понятиях левого и хвостового сжатий, можно показать, что

Доказательство

и

Доказательство

Здесь

Доказательство

— число ячеек, подвергающихся левому сжатию, и

Доказательство

— число ячеек, подвергающихся хвостовому сжатию.

Из последней формулы получим следующее соотношение для числа ячеек куба:

Доказательство

А поскольку при устранении суффиксной избыточности DWARF, в отличие от других алгоритмов, проверяет каждую ячейку только один раз (автору неизвестны алгоритмы, которые для устранения суффиксной избыточности не проверяли бы каждую ячейку экспоненциальное число раз), получаем ту же оценку и для сложности работы алгоритма.



Содержание раздела