关于在data warehouse中实例化view的优化问题

Jul 14, 2024

问题背景

假设我们有一个名为 SalesTable 的 SQL 表格，这个表格有 4 列：time_、kind、shop 和 sales，分别代表某个时间段内某个种类的商品在某家商店的销售额。

假如我们需要统计每个时间段内每个种类商品的销售总额，那么我们可以这么编写 SQL 语句：

SELECT time_, kind, SUM(sales) FROM SalesTable GROUP BY time_, kind;

我们不妨将这个查询结果记作 TK。

假如我们还需要统计每个种类商品的销售总额，那么我们可以这么编写 SQL 语句：

SELECT kind, SUM(sales) FROM SalesTable GROUP BY kind;

我们将这个查询结果记作 K。要想得到 K，还有另外一种方法，就是利用前面的 TK：

SELECT kind, SUM(sales) FROM TK GROUP BY kind;

假如我们将 TK 的结果实例化（materialize，也就是缓存），那么就可以减少查询 K 的开销，因为 TK 的行数显然比 SalesTable 少得多。

问题定义

给定一个有向图$(G,E)$，图中的每个节点代表一个表格或者 view，如果节点$B$可以由节点$A$得到，就建立一条边$A \to B$。我们可以实例化一些节点，把实例化的节点集合记作$M$。把一个节点的“邻居”和它自身记作$N(V)$，也就是说，$N(V)=\{V\} \cup \{W| W \to V \in E\}$。把一个节点的行数（数据规模）记作$S(V)$。一个节点的查询代价定义为

$$ C(V) = \min_{W\in N(V) \cap M} S(W) $$

现在的问题是，我们已经实例化了一些节点（通常是根表格，比如说上面例子中的 SalesTable），我们希望再实例化$K$个节点（$K$是一个常数），使得总查询代价$C=\sum_{V\in G}C(V)$能够减少最多。我们将这个问题的结果定义为这个减少量。

贪心算法

我们可以采用贪心算法解决这个问题，也就是说，我们依次选取节点加入$M$中，每次都选取一个能使$C$减少最多的节点。

Gupta [1] 证明了这么一个结论：贪心算法的近似比是$1-\frac{1}{e} \approx 0.63$。也就是说，贪心算法得到的结果至少是最优结果的 0.63 倍。

参考资料

[1] Gupta, H. (1997). Selection of views to materialize in a data warehouse. In Database Theory—ICDT'97: 6th International Conference Delphi, Greece, January 8–10, 1997 Proceedings 6 (pp. 98-112). Springer Berlin Heidelberg.