鸡尾酒会问题 Cocktail Party Problem

2018-01-30 本文已影响319人谢小帅

1. 问题描述

鸡尾酒会问题是在计算机 语音识别 领域的一个问题。
当前语音识别技术已经可以以较高精度识别一个人所讲的话，但是当说话的人数为两人或者多人时，语音识别率就会极大的降低，这一难题被称为鸡尾酒会问题。

该问题 给定混合信号，分离出鸡尾酒会中 同时说话的每个人的独立信号。

设有N个信号源（N个人说话）
通常假设观察信号也有N个（N个麦克风）
该假设意味着混合矩阵是个方阵（每个麦克风都接收了N个人说话的声音）
即 J = D，其中D是输入数据的维数，J是系统模型的维数。

鸡尾酒会问题

要分离出鸡尾酒会中同时说话的每个人的独立信号，常用的方法是盲信号分离算法。

盲信号（Blind Source Separation，BSS）分离指的是 从多个观测到的混合信号中分析出没有观测的原始信号。通常观测到的混合信号（麦克风接收到）来自多个传感器（多个人说话）的输出，并且传感器的输出信号独立（线性不相关）。

盲信号的 “盲” 字强调了两点：

我们先看只有 2 个信号源的情况，则观测信号也只有 2 个。

BSS算法主要流程图

矩阵表达形式：

BSS算法主要流程方程形式

A₁₁：1号麦克风接收到1号人的声音；
A₁₂：1号麦克风接收到2号人的声音；
所以，x₁ = A₁₁·S₁ + A₁₂·S₂，为1号麦克风得到的混合声音。
因为信号混合方法未知，所以 A 矩阵未知。

模型最终目的，y₁ = S₁，y₂ = S₂。
理想状态下，W 矩阵是 A 矩阵的逆矩阵。

由于参数空间不是欧几里得度量（两点间直线），在大多的情况下都是黎曼度量（两点间弧线，即空间参数向量不是线性变化的），因此对于W矩阵的求解选用 自然梯度解法。

比较 W(n+1) 与 W(n) 两个矩阵的差异需要用 黎曼度量（相似性度量）。

自然梯度法计算公式：

计算步骤：