稀疏矩阵知识详解

2025-01-02 本文已影响0人 AI_Finance

稀疏矩阵（Sparse Matrix）是一种特殊的矩阵，其中大部分的元素都是零（或某个默认值）。与普通矩阵（密集矩阵，Dense Matrix）不同，稀疏矩阵的存储方式专门针对这种“稀疏性”进行了优化，只存储非零元素及其位置，从而显著减少内存占用。

例如：

普通矩阵（密集矩阵）：
[
\begin{bmatrix}
1 & 0 & 0 & 0 \
0 & 0 & 2 & 0 \
0 & 0 & 0 & 0 \
0 & 3 & 0 & 0 \
\end{bmatrix}
]

稀疏矩阵存储的内容：

通过这种方式，稀疏矩阵避免了存储大量的零，从而节省了内存。

稀疏矩阵通常使用以下几种格式存储：

CSR（Compressed Sparse Row，压缩行存储）
- 只存储非零元素的值、列索引和行索引的分段信息。
- 适合按行访问矩阵。
例如，上述矩阵的 CSR 表示：
- 非零值（data）：[1, 2, 3]
- 列索引（indices）：[0, 2, 1]
- 行指针（indptr）：[0, 1, 2, 2, 3]
CSC（Compressed Sparse Column，压缩列存储）
- 类似 CSR，但按列存储。
- 适合按列访问矩阵。
COO（Coordinate，坐标格式）
- 直接存储非零元素的值及其行、列坐标。
- 适合构造和转换稀疏矩阵。
例如：
- 非零值（data）：[1, 2, 3]
- 行索引（row）：[0, 1, 3]
- 列索引（col）：[0, 2, 1]

避免存储零值
- 在普通矩阵中，即使元素为零，也会占用内存（通常是 4 字节或 8 字节，取决于数据类型）。
- 稀疏矩阵只存储非零元素及其位置，大幅减少了存储需求。
位置索引优化
- 稀疏矩阵通过压缩行/列索引等方式，进一步减少了存储位置的开销。
适合稀疏数据的特性
- 在许多实际问题中，数据本身是稀疏的。例如：
  - 文本数据的词袋模型（Bag of Words）：每个文档只包含少量的单词。
  - 推荐系统的用户-物品评分矩阵：大多数用户对大多数物品没有评分。
- 使用稀疏矩阵可以显著减少内存占用。

假设有一个 (1000 \times 1000) 的矩阵，其中只有 1% 的元素是非零。

存储所有 (1000 \times 1000 = 1,000,000) 个元素。
如果每个元素是 4 字节（浮点数），总内存占用为：
[
1,000,000 \times 4 = 4,000,000 , \text{字节（约 4 MB）}
]

非零值数量：(1,000,000 \times 1% = 10,000)
存储：
- 非零值：(10,000 \times 4 = 40,000 , \text{字节})
- 列索引：(10,000 \times 4 = 40,000 , \text{字节})
- 行指针：((1000 + 1) \times 4 = 4,004 , \text{字节})
总内存占用：
[
40,000 + 40,000 + 4,004 = 84,004 , \text{字节（约 84 KB）}
]

相比密集矩阵的 4 MB，稀疏矩阵仅占用约 84 KB，内存需求减少了近 50 倍。

稀疏矩阵在以下场景中非常有用：

稀疏矩阵通过只存储非零元素及其位置信息，显著减少了内存占用，特别适合处理稀疏数据（大部分元素为零）的场景。在大规模数据处理中，使用稀疏矩阵不仅可以降低内存需求，还能提高计算效率，因此被广泛应用于机器学习、推荐系统、科学计算等领域。