2010年12月1日,星期三

Why the obsession with 清晰度 in speech processing studies?

今年在SfN举行了一次非常有趣的演讲/语言会议,由 乔纳森·皮尔。演讲包括Sophie Scott,Jonas Obleser,Sonia Kotz,Matt Davis和其他人的演讲,内容涉及听觉语言处理的各种令人印象深刻的方法和观点。好东西,一群有趣的人。感觉就像是一次联合实验室会议,讨论很多。

我想强调一个出现的问题,即大脑对可理解语音的反应以及我们可以从中学习到什么。这是一个简短的历史。

2000年-苏菲·斯科特(Sophie Scott),理查德·怀斯(Richard Wise)及其同事发表了一篇很有影响力的论文,该论文确定了左前颞叶区域对可听见语音(清晰和噪声声码句子)的响应比不可听见语音(对可听见语音刺激的频谱旋转版本)的反应更大。有人争辩说,这是“语音理解的途径”。

2000年-Hickok&Poeppel发表了对语音感知文献的批评性评论,认为主要基于病变数据,语音感知是双边组织的,并且在语音感知中牵涉到后颞上区域。

2000年至2006年-Scott / Wise小组的其他几篇论文重复了这一基本发现,但其他领域开始悄悄出现,包括左后方区域和右半球区域。下图示例来自Sptsyna等人。 2006年



2007年-Hickok&Poeppel再次回顾了有关语音感知的更广泛文献,包括病变工作以及试图更具体地分离语音层次过程的研究。结论是,您猜对了,这是Hickok&Poeppel 2000完全正确地声称了双边组织的后颞颞语音感知系统的主张。

2009年-Rauschecker和Scott发表了他们的“地图和流”(Maps and Streams)评论论文,他们同样强烈地认为语音感知偏向左侧,并且依赖于前路。据我所知,这一主张是基于(i)类比猴子的腹侧流通路投影(注意:我们可能尚未完全理解灵长类动物的听觉系统,并且鉴于猴子没有讲话,因此同源性可能(不完全理想),并且(ii)可理解的减减不可理解句子中的峰值激活在左前颞叶中趋于最大。

2010年-冈田等人。发表Scott等人的复制品。 2000年使用的样本比以前的任何研究都要大得多(n = 20,而Scott等人的n = 8,2000),并且发现上颞叶中的健壮的双侧前向和后向激活与难以理解的语音相比可理解。参见下图,该图显示了组激活(顶部)和单个对象的峰值激活(底部)。请注意,即使未在组分析中显示,激活在大多数受试者中也扩展到右后STG / STS。


这就是历史。正如在SfN会议上所揭示的那样,尽管存在我认为是相当有说服力的证据,但这些证据反对完全向前的投影路径,但争议仍然存在。

这是会议上发表的内容。

我提供了与我的合作者Corianne Rogalsky,Hanna Damasio和Steven Anderson收集的病变证据,这些证据表明左颞叶“可理解区域”的破坏对语音感知的影响为零(参见下图)。该示例患者在听觉单词理解测试(4AFC,与所有音素箔(包括最小对)的单词到图片匹配)上的准确度为100%,在最小对音节辨别测试中的准确度为98%。结合以下事实,即听觉理解能力缺陷与MTG后部病变密切相关(Bates等人,2003年),这对Scott等人来说是一个主要问题。理论。



来自斯科特阵营的反驳仅针对成像数据。我将尝试尽可能准确地总结它们的要点。如果我弄错了,请有人纠正我。

1.左ATL是可理解与不可理解对比中的峰值激活
2. Okada et al. did not use sparse sampling acquisition (true) which increased the 清晰度 processing load (possible) thus recruiting posterior and right hemisphere involvement
3.冈田等。使用了影响激活方式的“主动任务”(我们要求受试者按下指示句子是否可理解的按钮)。

首先也是最重要的是,这些反论点均未提供病灶数据。在构建理论时,我们必须考虑所有数据来源。

关于第二点:我将承认,额外的噪声可能会给系统带来比正常情况更多的负担,这可能会增加整个网络的信号。但是,即使在PET扫描中,这些相同的区域也会出现在Scott和同事的报告中,并且出现的区域(双侧pSTG / STS)与病变工作和针对目标的影像学研究中涉及的区域相同语音层次的过程。

关于第3点:我全心全意地关注解释(或解释掉)激活模式的任务。但是,如果任务直接评估感兴趣的行为(在许多研究中并非如此),则该论据不成立。所有这些工作的目标是映射网络以处理可理解的语音。如果我们要让受试者告诉我们该句子是否可理解,这应该会推动感兴趣的网络。我想除非您认为pSTG涉及非常可疑的决策过程。

这将我们引向第1点:是的,确实在智商与非智商对比中的峰值激活出现在左前颞叶。这种趋势驱动了Scott等人。理论。但是为什么对这种对比如此执迷呢?为什么我们不应该迷恋它有两个主要原因。实际上,这些观点质疑对比是否有任何用处。

1. It's confounded. Intelligible speech differs from unintelligible speech on a host of dimensions: phonemic, lexical, semantic, syntactic, prosodic, and compositional semantic content. Further, the various 清晰度 conditions are acoustically different, just listen to them, or note that A1 can reliably classify each condition from the other (Okada et al. 2010). It is therefore extremely unclear what the contrast is isolating.

2.通过进行这种对比,可以假设任何未能在条件之间表现出差异的区域都不是可理解语音的一部分。这显然是一个错误的假设:在极端情况下,即使周围听觉系统并非仅对可理解的语音做出反应,但周围的听力损失会损害其理解语音的能力。更接近这一点,即使左pSTG / STS在可理解和难以理解的语音之间没有显示激活差异,它仍然可能是负责语音感知的区域。实际上,如果语音感知网络的工作是将光谱时空模式作为输入并将其映射到语音类别的存储表示中,则人们会期望在一系列光谱时空模式中激活该网络,而不仅仅是“可理解的” ”。

我希望这场辩论不会很快结束。实际上,在NLC会议上,下一场“辩论”的一个建议是斯科特与波佩尔(Scott vs. Poeppel)。这应该很有趣。

参考文献

贝茨(E.),威尔逊(S.M.),萨伊金(Ayp),迪克(F.),塞雷诺(S.),密歇根州(R.T.)和顿克(Dronkers)。 (2003)。基于体素的病变症状映射。 Nat Neurosci 6,448-450。

Hickok,G.和Poeppel,D.(2000)。迈向语音感知的功能性神经解剖学。认知科学趋势,第4卷,第131-138页。

Hickok,G.和Poeppel,D.(2007)。语音处理的皮质组织。 Nat Rev Neurosci 8,393-402。

Okada K,Rong F,Venezia J,Matchin W,Hsieh IH,Saberi K,Serences JT和Hickok G(2010)。人类听觉皮层的层次组织:来自对语音清晰度的听觉不变性的证据。 脑皮质(纽约,纽约:1991),20 (10),2486-95 PMID: 20100898

Narain,C.,Scott,S.K.,Wise,R.J.,Rosen,S.,Leff,A.,Iversen,S.D.和Matthews,P.M. (2003)。使用fMRI定义特定于可理解语音的左旋反应。 Cereb Cortex 13,1362-1368。

J.P. Rauschecker和S.K. Scott (2009)。听觉皮层中的地图和流:非人类的灵长类动物照亮了人类的语音处理过程。 Nat Neurosci 12,718-724。

斯科特(S.K.),布兰克(C.C.C.),南卡罗来纳州(Rosen)和R.J.S.怀斯(Wise) (2000)。识别左颞叶可清晰语音的途径。脑123,2400-2406。

G.Spitsyna,J.E。Warren,Scott,S.K.,F.E。Turkheimer和R.J. Wise。 (2006)。在人类颞叶中汇聚语言流。神经科学杂志26,7328-7336。

7条评论:

未知说过...

嗨,格雷格(Hi Greg)-我怀疑,与其在小组分析中对比可理解的语音还是不易理解的语音,不如比较一下针对'可理解的语音与基线' to peaks for 'un可理解的语音与基线.'您可以通过不同的方法来检查这两种情况之间的离散差异(即前焦点与后焦点)。后来-朱利叶斯

格雷格希科克说过...

是的,那肯定会改变情况。我怀疑前焦点如此强大的原因在于,内智力与内智力之间的对比至少部分减去了能强烈激活pSTG的语音层次的东西。但是真正的问题是为什么首先要使用这些类型的刺激?在游戏的这一点上,我希望我们能超越这种全球性的对比,从而达到指定更具体的处理级别的组织的目标?谁能告诉我通过将可理解的句子与难以理解的句子进行比较,我们可能会隔离出什么计算过程?

彼得说过...

I'd喜欢看Scott与Poeppel的辩论。主题的另一种变化可能是"背流做什么?" debate.

我同意"intelligibility"是一种混乱的结构。我们在今年早些时候针对语音对非语音研究进行了荟萃分析。为了使它在认知上保持相对清洁,我们仅使用研究来研究词法下的言语刺激,然后检查特定的非言语刺激是否重要以及任务是否重要。当然,他们俩都这么做了,完整的结果支持了Hickok&Poeppel模型比其他模型更好。万一你're interested, here's the link:
http://www.ncbi.nlm.nih.gov/pubmed/20413149

le said...

I'我很困惑。请帮帮我。我也没有足够幸运参加sfn,所以看起来很无知。

My interpretation of the literature discussed is that the Scott and Wise mafia highlight the ATL as important for semantic 清晰度 (as in no semantic content (intelligible) vs. no semantic content (unintell), they argue that this ventral route is critical for accessing semantic info. They agree with the HP mafia that auditory discrim occurs in the post. regions but that the semantic processing is in the ATL.

如果我们在阅读障碍症患者中使用神经心理双重途径处理模型,则您的患者的ATL受损但完整的最小对和单词到图片与所有音素箔的匹配情况都包括在内,包括最小对可能是使用了其语音(直接)途径而不是依靠它们的语义(间接)路线。如果使用语义标记,它们的表现是否比语音标记更差?

就像我说的那样,也许我误会了,请告诉我我是否知道,但似乎两个黑手党团伙实际上应该是最好的朋友,并一起驱逐真正的敌人? :)

格雷格希科克说过...

我没有'我问理查德对此有何看法,但索菲'它的立场是'所有的事情都发生在左ATL中,包括语音方面的东西。因此,她应该预测左ATL病变患者的语音感知和理解能力显着不足。

左ATL病变的患者在逐字匹配测试中表现完美,将所有语义障碍。我们注意到的唯一缺陷是句子理解和命名上的缺陷。

匿名 said...

有趣的是:句子理解和命名的缺陷……也许毕竟是语义中心?您计划何时何地发布此患者.....会有很多人非常感兴趣。

新年快乐顺便说一句

布罗卡 said...

dito ...我们什么时候会见到这个危急病人?