欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

小白也能懂!广义特征值分解在图像处理中的应用教程

最编程 2024-08-10 14:37:52
...

文章来源于微信公众号(茗创科技),欢迎有兴趣的朋友搜索关注。


1、导读

广义特征值分解(GED)是一种鲁棒且灵活的框架,用于多通道信号处理中的降维和源分离。在认知电生理学中,用GED来创建空间滤波器,将研究人员指定的对比最大化。例如,假设不同的源具有不同的频率内容,或者在不同的实验条件下源的量级不同。GED计算速度快且容易,在模拟和真实数据中的表现良好,并且很容易适应各种特定的研究目标。本文通过将GED在电生理学领域中的众多出版物和应用结合起来进行介绍,并提供了可以测试和调整的MATLAB和Python代码示例,并探讨了应用程序中经常出现的问题。

2、什么是“源”?如何将其分离?

大脑是一个深不可测的复杂和动态的系统,有着无数的神经活动,其特征是分离和整合。理解大脑需要在分离神经认知元素的同时具有足够的生态有效性,以从实验控制推广到现实行为之间取得平衡。神经科学研究的主要困难之一是无数的神经和认知活动是同时进行的,并且在时间、频率和空间上重叠。也就是说,分离认知和神经过程的源是神经科学研究的主要挑战之一。

“源”这个词可以有多种解释:可以指大脑中的单个物理位置、分布式位点、神经集成、单个神经元、突触、认知操作、神经集成产生的计算算法、神经化学调制等。因此,源分离的机制取决于研究的目标。例如,在行为层面,严谨的实验设计可以用来区分感官注意力的反应时间变化。在研究神经振荡时,可以将傅里叶变换看作是一种频谱源分离方法,假设源在时域是混合的,但具有不重叠的频率特性。由于BOLD响应的体素小和相对定位,所以FMRI非常适合于空间源分离。

本文研究的源分离类型是一种描述-统计分离,其中源是基于信道协方差矩阵中的时空模式进行分离的。这些源可以来自一个空间受限的空间位置(例如,由单个偶极子模拟),也可以来自一个解剖分布但同步的网络。正如接下来所阐述的,GED没有解剖上的限制,源是根据描述-统计标准定义的,特别是协方差矩阵中包含的信息。

神经数据是嘈杂多变的,而且在大脑中有比测量点更多的来源。这意味着应用源分离方法不能保证单个源已被分离。从这个意义上说,源分离方法应该被看作是源分离的尝试,其准确性取决于各种实验和数据分析因素。而GED作为对比增强滤波器,通过分离数据中的相关模式和不相关模式来分析降维信号。

3、为什么要用多变量分析?

电生理学家对电极不感兴趣,相反,电生理学家感兴趣的是使用电极提供的数值来了解大脑是如何工作的。认知基础的神经计算是通过各种类型的细胞组成的神经回路、神经化学物质的调节等复杂的相互作用实现的。这些电路相互作用产生的电磁场可以使用LFP、EEG或MEG(局部场电位、脑电图、脑磁图)进行量化,这些电场同时传至多个电极。此外,每个电极同时测量来自多个不同的神经回路的电场,以及来自肌肉、心脏跳动和噪音的伪影。

因此,研究者测量的显变量(又称可观测数据)(电极电压波动)是间接的,并由所要理解的潜在结构的混合条件组成。电极上源的混合需要进行多变量分析,以识别分布在电极上的模式。这与单变量分析形成对比,单变量分析认为每个电极都是一个单独的统计单元(图1)。

图1.A)源分离问题的结构解释。B)单变量(B1)和多变量(B2)分析的区别在于电极的概念和统计应用:单变量方法将每个电极作为一个独立的测量值;多变量方法认为感兴趣的信号嵌入在跨多个电极的模式中,因此分离这些信号需要设计恰当的空间滤波器(矢量w和v是空间滤波器,X是信道逐时数据矩阵)。

这里,研究者重点介绍了一组空间多元分析,作为降维、对比度增强的空间滤波器。即一组基于广义特征值分解(GED)的方法。GED seed可以发展出许多看似不同的多元应用程序,这使它成为适应特定假设、研究目标和数据集类型的一种强大方法。

4、多变量分析

研究者介绍了下面几种常用方法,目的是为了与GED的优势进行对比。

主成分分析(PCA)是一种比较受欢迎的降维方法,通过找到一组通道权重,使通道的加权组合在所有成分相互正交的同时使方差最大化。PCA是一种优秀的数据压缩工具,但在对比度增强、去噪和源分离方面有三个限制:①它是描述性的,而不是推论性的;②PC向量在通道空间中是正交的(这意味着通道空间中的相关源在主成分分析空间中仍然是相关的);③方差最大化,相关并不一定最大化。

独立成分分析(ICA)广泛应用于MEG / EEG研究中,能够减弱诸如眨眼和肌肉活动等伪迹,也可以用于数据分析过程。ICA是一种盲分离方法,依赖于源的统计独立和非高斯分布的假设,常被用作一种描述性度量,但存在交叉验证方法来评估单个成分的统计意义。在模拟EEG数据中,ICA在复原真实源方面的准确性较低。

解码,又称多元模式分析,涉及使用机器学习方法对基于加权脑信号组合的实验条件(例如,特定的运动反应或视觉刺激)进行分类。一些线性分类器(如Fisher线性判别分析)是建立在GED基础上的,然而,解码方法通常对数据进行阈值化和二值化,从而失去了大量丰富而有意义的频谱和时间变化信息。

深度学习是一个将输入映射到输出的框架,通过无数个简单的计算单元,每个单元实现其输入的加权和加上一个非线性。深度学习给计算机视觉和语言翻译等计算领域带来了变革。在视觉系统之外,深度学习在神经科学中的应用还没有产生重大影响。神经科学中深度学习的部分困难在于其表征是复杂的、非线性的、难以解释的。换句话说,深度学习在社会和工程领域中有重要的应用,但(到目前为止)在提供机械性洞察力方面的价值有限(更普遍地说,解码器也是如此)。另一方面,深度学习和线性分解可以协同使用,例如,通过使用线性分解来降低维数,并增强由深度学习网络分类的数据的信噪比特征。

还有一些其他的多变量成分分析,但是在神经科学中不太常用,比如因子分析、Tucker分解和非负矩阵分解。这里就不过多阐述了。

5、GED的优势

作为多通道数据去噪、降维和源分离的工具,GED具有许多优点。

首先,它建立在明确假设的基础上。实验科学的一个基石是生成和检验无效假设和备择假设。这在统计比较中表现为两个样本均值之间的差值或比率。由GED创建的空间滤波器旨在最大限度地提高数据的两个特征之间的对比,一个是要增强的特征,另一个是作为参考的特征。包括:实验条件和控制条件;刺激前期和刺激后期;试次平均值和单个试次数据;窄带滤波和未滤波的数据。当从这些数据特征中计算出的两个协方差矩阵相等时,GED呈现的对比度为1,这是预期的零假设值。从这个意义上说,GED是一种监督方法,可以与PCA或ICA等非监督方法相比较。

其次,由于两个协方差矩阵的固有比较,GED能够通过推断统计来确定一个成分是否显著。

第三,GED只有少数几个关键的研究导向的分析选择,这使得它更容易学习、应用和适应于新情况。

第四,没有空间或结构上的限制。物理数据通道(电极、传感器、像素或体素)的顺序和相对位置不会影响分析。这意味着空间地图可以从生理学上进行解释,而不需要考虑先验的解剖结构或物理模型所带来限制。

第五,GED允许地形图上的个体差异。例如,不同个体在Pz、POz、Oz、PO7等电极上的alpha-band活动可能是最高的,这可能导致电极选择的困难和存在一定的主观性。最大限度地提高alpha-band活动的GED允许不同个体具有特殊的功能-解剖结构上的分布,同时确保所有个体的成分满足相同的统计标准。

第六,GED是确定性的和非迭代的。这意味着对相同数据的重复分解会得到相同的解决方法(例如,这可以与使用随机权重初始化的ICA算法进行对比)。这意味着GED是快速的,通常只需要几毫秒就能计算出来;大部分的分析时间来自于数据准备,如时间滤波。

最后,GED在统计学、机器学习、工程和信号处理方面有着悠久的应用历史。虽然并不总是称为“GED”,但广义特征值分解为许多分析方法提供了数学基础,包括线性判别分析、公共空间模式(用于脑机接口算法)、盲源分离,以及其他方法。虽然有优化GED的特定应用“技巧”,但在多个科学领域,已建立了一套通用的方法。

6、自然情境下的GED

GED广泛应用于神经科学,尽管术语不同。在脑机接口中,GED被称为公共空间模式分析,用于设计空间滤波器,促进对计算机程序的神经控制。Nikulin等人(2011)使用GED设计了一个窄带空间滤波器,他们称之为空间光谱分解。该方法被扩展为在连续的中心频率范围内使用宽带能量而不是窄带能量,并被称为光谱扫描或更普遍的联合去相关。Dähne等人(2014)使用GED设计了一个空间滤波器,最大限度地提高EEG和行为测量(如反应时间)之间的相关性。Cohen (2017b)采用GED来识别多元交叉频率耦合。也有许多研究者已经使用GED来优化ERP,这对于单试次分析尤其有用。在稳态诱发电位研究中,GED已被用于获得具有最大信噪比特性的成分。GED也可能为侵入性多通道记录的尖峰电位分类提供一种有效的方法,以及在线癫痫尖峰波形的检测。

7、GED简介

在讲详细的步骤前,研究者给出了GED“鸟瞰图”(图2)。GED是两个协方差矩阵的分解,这里被称为S和R。这两个协方差矩阵来自于数据的不同特征:实验条件和控制条件,窄带滤过和未过滤的数据,等等。S矩阵是感兴趣“信号”数据特征的协方差,R矩阵是提供比较的“参考”数据的协方差。

图2.GED概述图形。本例显示了视觉刺激开始后小鼠V1的层流记录。

GED找到了一个最大信噪比(SNR)的数据通道加权,可以认为是S/R(矩阵没有定义除法,但这种概念化是有帮助的)。在S和R之间常见的通道间协方差模式常常被忽略了。与最大特征值相关联的通道权值向量是空间滤波器,所有通道时间序列的加权和是为两个协方差矩阵选择数据建立的标准最大化的分量时间序列。该成分时间序列可以用于标准分析,如ERP或时频分析,其伴随的地形能够可视化,以进行地形或结构上的解释。

图3示例了在模拟的2D数据集中PCA和GED的比较。这张图突出了GED的几个关键特性,包括分离原始通道空间中相关的源的能力。

图3.PCA和GED比较示例图。

8、数学和统计

GED数学GED的目标是找到一组通道权值乘以通道时间序列,以便通道加权和最大限度地提高两个数据特征之间的对比。例如,假设待最大化特征是刺激后的时间窗,刺激前的时间窗口是参考时段。如果刺激后数据包含在一个通道逐时矩阵XS中,刺激前数据包含在一个通道逐时矩阵XR中,权重集包含在列向量w中,则GED目标可以表示为:

\vert\vert · \vert\vert ^2表示矢量大小的平方(其元素的平方和)。因此,λ是通过w过滤的“信号”数据的幅值与通过相同w过滤的“参考”数据的幅值之比。一个向量大小的平方可以表示为行向量与其自身的点积。因此:

协方差矩阵是一个M×M矩阵,其中第i行和第j列的元素包含通道MiMj之间的协方差,定义为以均值为中心的通道时间序列的各元素相乘的和。因此,协方差矩阵包含所有线性成对相互作用。协方差只是一个未归一化的皮尔逊相关系数,因此协方差矩阵是一个保持数据规模的相关矩阵(如,µV )。

如果数据被排列至一个带有n个时间点的通道矩阵X中,则协方差矩阵为:

一般来说,协方差矩阵的大小应该是按通道排列的,因此,如果数据按通道排列,那么乘法将表示为XTX。除以n-1是一个标准化因子,防止协方差仅仅通过增加观察的数量(时间点)而增加。在进行乘法运算之前,数据必须以均值为中心。数据中的均值偏移量将导致GED指向偏移量的方向,而不是最大化所需优化准则的方向。均值中心是指,在计算协方差矩阵的时间窗口内,每个通道的均值为零。如果所有通道规模相同,则不需要方差标准化。MATLAB代码计算协方差矩阵如下:

data=data-mean(data,2); % mean-center

S =data*data’ / (size(data,2)-1);

一旦这两个协方差矩阵形成,目标是找到权重M-元素向量(称为向量w;每个元素wi是第i个数据通道的权值),作为一个空间滤波器,将数据的维数从M个通道降至为1个成分。w中的元素是这样构造的,即所有通道的线性加权和使S中的“多元功率比”与R中的“多元功率比”之比最大化。使用协方差矩阵重写方程得到wTSw,即二次型。二次型是沿着w方向编码矩阵S中的方差的单个数字。因此,GED的目标是最大限度地提高两个矩阵的二次型的比率,其中该比率被编码为λ。


这个表达式也被称为广义瑞利商。注意,当数据协方差矩阵相同时,λ = 1,可以认为是零假设值(H0:S = R)。GED的目标是找到最大λ的矢量w。这就是目标函数。


这个目标函数只会产生一个空间滤波器,然而,它可以扩展到包括额外的向量w2到wM,每个向量wi都受到与前一个分量不相关的最大λi的约束,可以将一个向量展开为M向量的集合,这意味着方程

可以改写为:


其中W的每一列是一个空间滤波器,Λ的每一个对角元素是W中相应列方向上的多元比。一些代数操作将带到关于优化问题的矩阵解:

等式

是矩阵S和R上的广义特征值分解,这意味着使多元信噪比最大化的权值集——空间滤波器——是一个特征向量,该比值的值就是对应的特征值。同样有用的是,等式

在概念上等价于矩阵乘积上的“正则”特征值分解。 

PCA的一个限制是特征向量矩阵是正交的,这意味着所有的成分必须是正交的。这一约束来自于对称矩阵上的特征分解,所有协方差矩阵都是对称的。这个约束是一个限制,因为源相关的通道空间利用主成分分析法(PCA)是不可分割的(如图3所示)。然而,两个对称矩阵的乘积通常是不对称的,所以GED的特征向量可能是相关的。这就是为什么通道空间中相关的源可以被GED分离开(并且在GED空间中是正交的)。

GED返回的两个矩阵包含特征向量和特征值对,每个特征向量(空间滤波器)有一个对应的特征值(多元比例)。在这个配对中,特征向量wi在数据空间中指向一个特定方向,但不表示该方向的重要性。相比之下,相应的特征值λi编码方向的重要性,但是它是一个标量,因此没有固有的方向。这意味着特征向量与最大特征值相关联的空间滤波器沿着w1方向使比值S:R最大化。下一个最大的特征值与特征向量配对,使该比率最大化,同时R正交于第一个方向。其他方向都是如此。

期望所有成分都是有意义和能够对其进行解释是不合理的。事实上,如果两个协方差矩阵彼此相似(例如,由两个不同的实验条件创建的,在许多知觉和运动特征上匹配),可能只有一个重要成分或可能没有重要成分。GED只是返回所有的解决方案,而没有表示可解释性的p值或置信区间。

GED在MATLAB中容易实现。返回的解不按特征值大小排序,因此便于对解矩阵进行排序。

[W,L] = eig(S,R);

[eigvals,sidx] = sort(diag(L),’descend’);

eigvecs = W(:,sidx);

排序后,通过将特征向量分别与多通道数据和协方差矩阵相乘,生成成分时间序列和成分地图。

comp_ts= eigvecs(:,1)’ * data; % data are chansXtime

comp_map= eigvecs(:,1)’ * S;

与试次相关的数据通常被存储为3D矩阵(例如,通道、时间、试次),因此可能需要修改代码,将数据重塑为2D以便进行乘法运算,然后再转换为3D以便进行进一步的分析。

成分时间序列的计算是典型机器学习分类或判别分析的一个重要差异:传统分类分析的目标是使用w对数据进行二值化,并预测数据是来自“类A”还是“类B”。然而,这里所描述的GED应用结果是一个连续的时间序列,具有比二进制类标签更丰富的信息。

9、理解并避免过度拟合

过拟合是统计学和机器学习中的一个术语,指的是模型为了达到期望的结果而进行优化,以牺牲概括性为代价。过拟合是有潜在风险的,因为模型参数可能由数据中的噪声或其他不可重复的模式驱动。另一方面,如果使用得当,过拟合是一种强大而有用的方法。GED是一个基于拟合的空间滤波器,能够最大化矩阵S和R之间的对比。因此,可以使用GED以一种有益的方式利用过拟合,而不会在分析中引入可能混淆结果的系统偏差。

10、实际操作部分

为GED准备数据GED“不知道”什么是真正的大脑信号,什么是噪音或伪影;它只是简单地识别出数据中最大限度地分开两个协方差矩阵的模式。因此,在GED之前应该对数据进行适当的处理。包括排除噪声试次,时域滤波,ICA突出非大脑源,删除坏导。也可以通过排除任何“远离”其均值的段的协方差来清除协方差矩阵。

不需要通道插值,因为插值的通道是其他通道的线性组合,因此不能为分解提供唯一的信息。对于EEG和LFP,参考方案不影响GED解决方案。重参考是一种线性操作,而GED是一种线性分解。当然,如果使用不同的参考,通道的权值也会不同,因此滤波器的正向模型也会改变。重参考是EEG研究中经常争论的问题通常推荐使用平均参考对重参考GED真正唯一的限制是,必须使用相同的参考来计算GED和成分。例如,不应该使用耳垂参考构造GED,然后对平均参考数据应用空间滤波器。

为S和R协方差矩阵选择数据特征选择两个数据特征进行GED分离是研究人员在基于GED的数据分析过程中做出的最重要的决定。这也是为什么GED是如此灵活和通用的原因。GED能够让研究人员仔细和批判性地思考其假设和分析,这对研究的质量有积极的影响。但数据通道必须相同且顺序相同;它不可能分离不同大小的协方差矩阵,也不可能解释协方差矩阵的不同顺序的通道。对比增强(S)矩阵和参考(R)矩阵中有许多数据特征可供选择;下面是一个非详尽的列表,对此进行了说明。

a.条件差异。S协方差矩阵的数据来自感兴趣条件,R矩阵的数据来自控制条件。必须注意的是,实验混淆可能会使GED结果产生偏差。例如,如果条件S的反应时间比条件R快,那么GED结果可能反映的是运动过程而不是注意过程。

b.任务影响。S协方差矩阵的数据来自试次内时间窗,R矩阵的数据来自试次前基线期。当来自所有条件的数据集中在一起时,这种方法避免了过度拟合到一个条件的风险。

c.频谱对比。S矩阵的数据在一定范围内经过窄带过滤,R矩阵的数据是宽带或来自相邻频率的窄带。

d.试次平均。S矩阵是从试次平均响应(如ERP)中计算出来的,R矩阵是从单试次协方差矩阵的平均值中计算出来的。这种方法将增强信号的锁相特性。

③计算协方差矩阵:GED结果的质量完全取决于协方差矩阵的质量,因此重要的是要确保协方差矩阵是由足够数量的干净数据组成。增加协方差矩阵稳定性的一种方法是增加数据段中的时间点数量。时间窗的大小体现了认知特异性与协方差质量之间的权衡:较短的时间窗(例如,100毫秒)能更好地分离分阶段的感觉/认知/运动事件,但会有协方差矩阵嘈杂的风险。另一方面,较长的时间窗(例如,1000毫秒)可能会提升协方差矩阵的质量,但也可能跨越与不同的神经/认知系统相关的多个不同的任务事件。记住,成分时间序列的时间分辨率是数据的时间分辨率,不受创建协方差矩阵的时间窗口的限制。这是因为空间滤波器可以应用于整个时间序列数据,而不仅仅是协方差时间窗内的数据。如果协方差矩阵是从时间窄带过滤数据中计算出来的,那么计算协方差矩阵的时间窗应该至少为一个周期,甚至更长。例如,如果通道数据以4Hz的频率过滤,那么计算协方差矩阵的时间窗口应该至少为250毫秒。为了避免边缘效应,时间滤波器不仅适用于协方差时间窗内的数据,而且适用于分段或连续的数据。

当处理被分割成多个试次的数据时,可以计算每个试次的协方差矩阵,然后对试次进行平均。协方差平均也可以用于连续的(例如,静息态)数据。在这种情况下,在计算协方差之前,每个单独的数据段必须是平均中心化的。MATLAB代码演示了如何实现这一步(数据是一个维度变量:通道、时间、试次)

covmat = zeros(nbchans);

for triali=1:ntrials

seg = data(:,:,triali); % extract one trial

seg = seg - mean(seg,2); % mean-center

covmat = covmat + seg*seg’/(size(seg,2)-1);

end

covmat = covmat / triali;

因为协方差矩阵保留了数据的规模,所以不需要归一化。即使S和R在不同的规模下,归一化也有可能是不必要的。这是因为在大多数情况下,相对特征值是非常重要的(例如,排序)。

可以对每个数据通道进行z值标准化,但是,这会改变协方差矩阵,因此会使滤波正向模型难以解释,因为每个通道单独进行z标准化会改变通道间协方差的大小。另一种方法是对每个通道分别进行均值中心化,然后将所有通道按照其合并标准差进行划分。这种方法保持了模态内的相对协方差大小,同时确保了总数据集的合并标准差为1。

④正则化:正则化在机器学习中有几个好处,包括“平滑”,以减少过拟合和增加数值稳定性,特别是对降低秩的数据集来说。对于GED,不需要正则化,但是当存在数值稳定性问题时,还是能够提高其性能。有几种形式的正则化,包括L1(又名Lasso),L2(ridge),吉洪诺夫,收缩,以及其他。研究者在这里着重介绍了收缩正则化,因为它简单有效,并且经常在GED中使用。公式如下:

这个公式

可以在MATLAB中用代码实现。

gamma= .01; %1% regularization

Rr= R*(1-gamma) + gamma*mean(eig(R))*eye(length(R));

⑤不确定性信号:由于特征向量指向一个一维子空间,特征向量w与-w相同。信号的不确定性不影响频谱或时频分析,但确实影响到了时域(ERP)分析和地形图。这可能会导致在解释和进行平均时存在困难,因为,例如,P3 ERP成分可能表现为负偏转。调整特征向量信号有两种基本方法。一是确保成分图中绝对值最大的电极为正。二是假设特征向量信号对大多数被试来说是一致的,计算群体平均ERP或地形图,每个个体的数据与群体平均相关联。对与群体平均呈负相关的被试特征向量进行翻转,重新计算ERP或地形图。

⑥应用空间滤波器:每个特征向量(W矩阵的每一列)是一组权值,用于计算所有数据通道时间序列的加权平均值。这就是特征向量被称为空间滤波器的原因。每次向量数据相乘都将数据的维数从M×T降至1×T。该滤波器必须应用于具有相同通道的数据,其顺序与用于创建协方差矩阵的顺序相同。向量归一化的公式和MATLAB代码如下所示:

w= evecs(:,1); % first eigenvector

w= w/norm(w); % scale to unit norm

⑦使用哪个成分:理论上,特征值最大的成分最好分离。然而,在将空间滤波器应用于数据和解释结果之前,应该进行视觉检查确认,因为从数学上分离两个数据特征的成分不能保证在生理上具有可解释性。例如,在GED中最大化低频活动的顶部成分可能是未被ICA完全删除的眨眼伪迹。研究者建议为每个数据集生成一个MATLAB图,显示特征谱、拓扑图和前5个ERP成分(图4)。

⑧复值GED解决方法:当特征值问题有复数解时,它们会以共轭对的形式出现。复解通常存在于特征值较小的分量中。对称矩阵的特征值(也就是特征向量)要确保是实数值,但R-1S不是对称的,因此其特征值可能是复值的。如果协方差矩阵降秩或呈病态,则可能出现复解,这通常表明协方差矩阵的信噪比较差,降秩,或S和R难以分离。因此,复值GED解决方法可能表明需要处理的数据存在问题。另一方面,如果数据质量高且协方差矩阵是可分离的,降秩矩阵不一定产生复数解。处理复值GED有几种方法:首先,用更多的数据来创建协方差矩阵(例如,更长的时间窗或更宽的频谱波段,或更多的试次);第二,重新定义GED比,使矩阵更加可分离;第三,如果数据降低秩,将数据从M(通道)压缩到r(矩阵秩)维,例如使用PCA,然后在压缩数据的协方差矩阵上运行GED;第四,应用正则化填充零维,从而使秩为M

⑨特定于被试或组水平的分解:如果相同的电极被放置在不同个体的相同位置,那么研究人员可以选择对每个个体分别进行GED,或者对个体间的平均协方差矩阵进行GED。这类似于group-ICA,即来自所有个体的数据汇集在一起,得出一组基于所有被试数据的成分。也可以利用GED最大化个体间的一致性。

两级压缩和分离:两级GED涉及(1)通过PCA进行数据压缩,然后(2)通过GED进行源分离。当有许多数据通道、严重减少秩协方差矩阵或复值GED解时,这是很有用的。

本教程附带的MATLAB和Python代码可以在github.com/mikexcohen/GEDtutorial上找到(不需要额外的工具箱)。图5A显示了“α偶极子”在头皮上的激活。图5B中的陡坡图清楚地显示了在多变量数据中的一个主导成分。

图5.EEG模拟证明了GED的优势。

11、一个成分是否就意味着是一个“源”?

GED是一种基于数据统计特征的对比增强程序。GED成分可能对应一个生理或认知来源。实际上,一个GED成分只是由一系列电极记录的电压值的加权和,而电极本身并不是一个“源”。从这个意义上说,GED和其他多变量方法(包括ICA)可以被视为工具,与严谨的实验设计和数据分析一起,促进了源分离的尝试。类似地,大脑区域之间的相位同步并不能直接表明功能连接;但是同步,加上严谨的实验设计和理论论证,可以被认为反映了功能连接。另一个需要考虑的是GED提供了线性基向量来描述数据。一方面,这是可以的,因为电场在电极处呈线性混合。然而,线性分解并不意味着数据能够被线性基向量最优地进行呈现,如图6所示。

图6.左图的黑线表示GED特征向量。

本文旨在提供一个使用GED进行多变量源分离的教程。重点关注研究人员在实施GED时可能遇到的问题。虽然讨论集中在电生理学上,但这些方法是通用的,可以应用于任何类型的多通道时间序列数据,包括fMRI或钙成像。但有争议的是,神经科学的进步需要超越传统的大规模单变量分析,并纳入多变量源分离方法。GED不是唯一有用的多元方法,也不适合所有的情况和数据集。但它有许多统计上的优点,而且实用较高,其灵活性和高信噪比应该使它成为每个神经学家收集多通道时间序列数据的工具箱中的一种实用工具。

原文:A tutorial on generalized eigendecomposition for denoising, contrast enhancement, and dimension reduction in multichannel Electrophysiology.

https://doi.org/10.1016/j.neuroimage.2021.118809