2010年1月26日,星期二

听觉皮层的清晰语音和层次组织

已经提出,听觉皮层被组织成该层次的最高级别,无论如何,为了进行语音处理,位于左前颞皮层(Rauschecker& Scott, 2009;Scott等,2000)。这种观点的证据来自PET和fMRI研究,这些研究将可理解的言语与难以理解的言语进行了对比,并发现了左颞叶的活动重点(Scott等,2000)。可理解的语音(通常是句子)包括清晰的语音和噪声声码变体,这些变体在听觉上有所不同,但都可以理解,而难以理解的语音则包括了这些刺激的频谱旋转形式。想法是,响应可理解条件的区域表现出声学不变性,即响应高阶分类信息(音素,单词),因此在听觉层次中反映出较高的水平。

然而,激活的前侧焦点与病变证据相反,病变证据表明对后颞叶区域的损害最能预测失语症的听觉理解能力缺陷。因此,我们认为这些研究中的前颞叶活动更多地反映了受试者正在理解的事实。 句子 -不仅可以单独激活单词,还可以激活前颞区-而不是语音和/或单词的清晰度(Hickok&Poeppel,2004,2007)。因此,我们声称语音的听觉层次结构的顶部(音位过程所涉及的区域)位于后面。

为了评估这个假设,我们使用两个可理解的条件,清晰的句子和噪声声码句子,以及两个不可理解的条件,这些条件的旋转版本,完全重复了以前的可理解性研究。但是,我们没有使用标准的单变量方法来检查神经反应,而是使用了多变量模式分析(MVPA)来评估在可理解度操作之内和之间对声变化的区域敏感性。

我们确实执行了通常的线性模型减法:可理解的[(清除+噪声声码)-(旋转的+噪声声码)],并在左前颞上沟(STS)中以及在左后STS中发现了健壮的活动,以及右前和后STS。该发现表明,可理解的语音活动不限于前部区域,甚至不限于左半球。涉及更广泛的双边网络。



接下来,我们检查了 模式 MVPA在各个激活区域的反应MVPA着眼于区域内的活动模式,而不是整个区域的合并振幅。如果可以在某个区域中可靠地展示出不同的活动模式,则表明该区域内对操作特征(例如本例中的声音变化)进行了不同的编码或处理。

我们首先要看的是,赫斯基回旋处及其周围的活动模式是否对清晰度和/或声音变化敏感。实际上,这是在下游听觉区域主张声学不变性并因此进行高阶处理的重要先决条件:如果要宣称下游声学特征的不变性反映了皮质层次中较高的处理水平,则需要证明听觉区 对这些相同的声学特征敏感。因此,我们使用定位器扫描独立定义了早期听觉皮层,即将AM噪声调制为相对于扫描仪噪声为8Hz。下图显示了该ROI的位置(大致是因为它是一个组图像,并且对于所有MVPA分析,ROI均在各个主题中定义)以及针对各种语音条件的平均BOLD幅度。请注意,在所有情况下,我们都看到相似的活动水平,尤其是清晰的语音和旋转的语音,它们似乎在赫施尔回中产生相同的响应。这似乎提供了证据,证明旋转的语音确实是语音的良好声学控制。



但是,使用MVPA,我们发现赫希尔回旋(HG)的活动模式可以轻松地区分清晰的语音和旋转的语音(对这些条件的反应不同)。实际上,HG可以区分每个条件,包括 清晰度对比,例如清晰的声码与噪声的声码(均可理解)以及旋转的声码与旋转的声码(均不可理解)。看来HG对我们条件之间的声学​​变化敏感。下图显示了左右HG中各种MVPA对比的分类精度。黑线表示机会表现(50%),而细线表示通过自举方法确定的95%置信区间的上限。



这再次凸显了这样一个事实,即标准GLM分析模糊了那些似乎对我们施加的操作不敏感的区域中包含的许多信息。

那么STS呢?在这里,我们使用清晰的负旋转条件(即在HG中平均振幅没有差异的条件)定义每个受试者的ROI。在每个受试者的解剖结构上将ROI分为“前”(HG之前),“中”(HG侧面)或“后”(HG后面)。在大多数受试者中,我们在左半球的前,后STS出现峰值(但在中STS处未发现),而在右半球的前,中和后STS出现峰值。 ROI是使用我们一半的数据定义的,而MVPA是使用另一半数据定义的-这确保了完全的统计独立性。

这是每个ROI的分类精度图。每个图形中的左侧两个条形图显示了跨智能度的对比(清晰与旋转& noise vocoded vs. rotated NV). These comparisons should classify if the 是 a is sensitive to the difference in intelligibility. The right two bars show 内 -intelligibility contrasts (clear vs. NV, both intell;rot vs. rotNV,都无法理解)。如果ROI在声学上不变,则这些比较不应分类。



首先看左半球的ROI,请注意,前部区域和后部区域对整个清晰度的对比进行了分类(如预期的那样)。但是,前部ROI还可以将清晰声码与噪声声码进行分类,这是两种可理解的情况。后部ROI不会对清晰度范围内的任何一个进行分类。这表明后ROI是声学上不变的区域。

在此分析中,右半球显示出不同的模式。右前ROI显示出听觉上不变的模式,而中后ROI则以各种方式对所有事物进行分类,更像HG。

如果查看跨区域的图形中的整体模式,您会发现上述数据表征存在问题。它将对比归类为是否分类,并且未考虑效果的大小。例如,请注意,随着右半球从aSTS到mSTS的迁移,跨清晰度对比的分类准确性提高了(就像左半球一样),而在右aSTS中,clear vs. NV只是没有意义,如在mSTS中,清晰vs. NV几乎没有意义。我们可能正在处理阈值效应。这表明我们需要一种更好的表征使用所有数据的声学不变性的方法。

因此,我们要做的是计算一个“声学不变性指数”,该指数基本上衡量了清晰度效果的大小(左侧的两个横条与右侧的两个横条相比)。如果一个区域正在编码与可懂度有关的特征,则该差异应该很大。然后通过“声学效果”(分类准确性的绝对差之和 可理解性条件)。当您执行此操作时,将得到以下结果(声学不变性=正值,范围-1至1):



HG对跨条件的声音变化最敏感,而更多的后部区域(左侧为pSTS,右侧为mSTS)对声音变化最不敏感。 aSTS介于这些极端之间。因此,如我们在解剖学上定义的,左pSTS和右mSTS在功能上似乎是同源的,并且代表了音素级处理的听觉层次结构的顶部。我不知道正确的pSTS发生了什么。

这些区域对哪些功能敏感?我的猜测是,HG对信号中的许多声学特征敏感,aSTS对节律性韵律特征敏感,而pSTS对音素水平特征敏感。这些想法的论点在手稿中提供。

参考文献

Okada,K.,Rong,F.,Venezia,J.,Matchin,W.,Hsieh,I.,Saberi,K.,Serences,J.,&Hickok,G.(2010)。人类听觉皮层的层次组织:来自对语音可理解的声音不变性的证据 脑皮质 DOI: 10.1093 / cercor / bhp318

Hickok,G.和Poeppel,D.(2004)。背面和腹侧流:用于理解语言功能解剖方面的框架。认知,92,67-99。

Hickok,G.和Poeppel,D.(2007年)。语音处理的皮质组织。 Nat Rev Neurosci,8(5),393-402。

Rauschecker,J.P.和Scott,S.K.(2009)。听觉皮层中的地图和流:非人类的灵长类动物照亮了人类的语音处理过程。 Nat Neurosci,12(6),718-724。

斯科特(Scott,S. K.),布兰克(Blank),C.C。,罗森(Rosen)和Wise,R.J. S.(2000)。识别左颞叶可清晰语音的途径。脑,123,2400-2406。

4条评论:

刘爱玲 说过...

很酷的学习!

因此,在您文章的最后,您假设这些区域对哪些特征敏感(声音,韵律,语音)。语义特征呢?除了对pSTS中旋转条件进行分类的趋势以外,从这些数据中是否有任何理由得出结论,说明pSTS是在处理语音信息而不是语义信息?

格雷格希科克 说过...

嗨,艾伦,

好吧,如果您查看左侧pSTS中的分类准确性,则会发现旋转与旋转噪声声码对比(语音均难以理解)仅错过了95%CI,这表明该区域对这些条件的响应可能有所不同。有人认为,旋转语音包含一定程度的语音信息。因此,旋转与旋转噪声声码条件在语音内容上可能略有差异,但在语义内容上却没有差异,这可能正在推动分类的趋势。请注意,左侧的sSTS区域没有't显示此趋势(p值原为'甚至关闭)。这与pSTS正在编码语音信息的想法是一致的。

我们可以根据这些数据排除某种语义处理吗?不,不是。但事实是"semantic processing"在其他研究中,这似乎暗示了更多的腹侧和后方区域,而STS中出现的语音效应则有助于限制我们的解释。

汤姆 said...

嗨,格雷格,

恭喜你!这里有很多非常有趣的东西。需要几次阅读论文,但是在初读时我脑海中浮现出几个问题/评论,希望您'd乐于讨论它们;

1)我读了(真的很喜欢)几周前您提到的von Kriegstein JoN最近的论文。它们显示了与说话者相关的声道参数(即说话者身份信息)对您在研究中确定的某些ROI(特别是pSTS)产生的一些有趣的影响。他们在他们的论文中建议,语音片段长度(VTL)信息(部分由右侧pSTS提取)可用于帮助限制左侧pSTG / S中更快的语音动态处理。它'我的理解是,讲话者身份信息(包括VTL)已被频谱旋转的语音取消,但存在于声码语音中。一世'd建议您在正确的pSTS中发现的结果可能反映了此信息的处理。关于此假设的特别巧妙之处在于:(i)为什么R pSTS可以区分“清晰语音”和“ Vocoded语音”和“旋转语音”,即为什么“清晰语音”和“ Vocoded语音”包含此信息,而“旋转语音”不';并解释(ii)为什么Right pSTS中的分类准确性是 更大的 对于声码>旋转声码比清晰语音更适合>旋转语音。这是因为存在于声码语音中的快速动态信息相对于无声语音而言是退化的,因此必须更多地利用VTL信息(即右pSTS)来限制左半球的处理。我可以'想到这个发现的另一种解释,将有兴趣听到您的想法。

2)组级别可懂度对比的峰值很靠前(y = 0),并且看起来非常接近STS(您的某些个体受试者的aSTS ROI在该峰值的几毫米内)-假设可懂度对比捕获声学不变性,这与后方STS位于声学不变性层次结构的顶部的情况如何?

最好的祝愿,

汤姆

格雷格希科克 说过...

你好汤姆,
感谢您的深思熟虑。关于您的第一点,我认为您对VTL(或类似内容)的想法是合理的。这是我们需要研究的事情,以弄清可能发生的情况。并发症之一:我不知道'认为rot vs. rotNV应该在编码此类信息的区域中进行分类,而在正确的pSTS中却可以。

关于您的第二点,这项研究显示的一件事是,组级别的清晰度对比并不一定以最佳方式捕获声学不变性。我们认为MVPA做得更好,这种方法指向后方区域。