2012年5月23日,星期三

理解,清晰度,神经振荡:两篇有趣的新论文

关于语音和语言处理的神经生理相关性,有两篇新论文非常有趣。它们彼此密切相关,很有趣,可以成对阅读(和讨论)。两者都使用神经元振荡作为度量标准,比较了对可理解和不可理解语音的响应。一组关注伽玛谱带,一组关注θ谱带。这两篇论文都为推动研究做出了出色的工作,并且都给出了一些不错的分析。

一篇论文是MarcelaPeña和Lucia Melloni撰写的,只出现在 认知神经科学杂志. 口语处理过程中的脑震荡,2012年5月,第24,第5号,第1149-1164页。

Marcela和Lucia使用高密度脑电图并采用了跨语言设计。他们在听西班牙语,意大利语或日语时从西班牙和意大利参与者录制。该研究从“同步约束”的角度出发,这一立场在系统和认知神经科学领域继续受到广泛关注-但在语音/语言研究中尚未得到广泛的研究。假设是,当听取听众能够理解的语言时(即在亚词法,词法,句法,语义层次上有理解力),任何神经信号反映需要协调的整个群体之间的“约束力”都将得到增强。可理解的条件(即西班牙语为西班牙语,意大利语为意大利语)。他们观察到的是,在理解句子期间,伽玛谱带在句子中被选择性增强。 (他们的图1和5讲述了整个故事。)他们得出结论,低频theta活动跟踪较低级别的信息,(较低)伽玛谱带反映了可理解语音中发生的情况,即绑定了较高级别的表示。总体而言,这支持按同步绑定样式视图进行语言处理。

还有一个 观点/结论略有不同...

另一篇论文由乔纳森·皮尔(Jonathan Peelle),约阿希姆·格罗斯(Joachim Gross)和马特·戴维斯(Matt Davis)发表 脑皮质. 在理解过程中增强了对人类听觉皮层中语音的锁相响应。, 土井: 10.1093 / cercor / bhs118。

乔纳森(Jonathan),约阿希姆(Joachim)和马特(Matt)使用MEG,向听众提供了可理解的语音编码语音(16通道),部分可理解的语音(4通道)或难以理解的语音(1通道)。他们还提出了4通道难以理解的情况(频谱旋转)。他们计算出一个被称为“脑声学相干性”的量,该量用于量化刺激的包络与低频(4-7 Hz)神经反应之间的关系。他们表明,当句子易于理解时,系统的连贯性就会更高。 (他们的图1和图4几乎说明了这一点。) 特别有趣的是,他们观察到,比较4通道可理解的和难以理解的刺激时,存在以MTG为中心的左侧横向激活。这为MTG在(可语言理解的)可理解性中扮演的关键角色提供了进一步的支持。而且,他们的数据挑战了我和我的一些合作者所说的(θ跟踪是声学的;例如霍华德&Poeppel 2010、2012等)

有点抱怨,有些遗憾...我想从马塞拉和露西亚那里听到三件事。 (i)为什么不更详细地分析低频响应成分? (ii)为什么不看阶段,而只关注权力? (iii)为什么在可理解的条件下,伽玛谱带响应直到句子开始后1000毫秒才开始?大概还可以理解句子的第一秒...从乔纳森(Jonathan),约阿希姆(Joachim)和马特(Matt),我想知道(i)为什么没有对更高频率的分析,例如低伽玛带? (ii)为什么没有权力分析? (iii)为什么四个渠道的行为数据(图1E)与使用此类材料的其他文献(Shannon,Drullman等)有何不同?

尽管有些抱怨,但这些都是非常酷的论文!因此,如果我们可以将这两篇文章定为日期,并让它们生成纸张后代,即婴儿用纸,我可以想象看到theta和gamma之间的一些有趣的对齐方式反映了清晰度。也许我们需要神经元振荡的两种机制来生成可用的表示...。

3条评论:

乔纳森·皮尔说过...

嗨,大卫,

您的所有评论都很好!一些快速响应:

1)关于我们寻找脑声相干的频率,我们的目标是专门研究与语音信号的主要声学成分相关的theta振荡,该振荡与我们在音频信号中看到的最大整体锁相一致MEG数据(我们的图2)。因为我们没有'在高频下看不到任何明显的锁相迹象,我们没有'不能详细探讨这些内容,但是我同意这是一个好主意。

2)补充我们的相位分析的功率分析已经存在很长一段时间了,但并未纳入本文。由于其他小组的出色工作,这些对我来说似乎不那么紧急(罗咳嗽&Poeppel 2007年的咳嗽)相当令人信服,显示了我们正在观察的反应中阶段(而非力量)的重要性,以及非人类灵长类动物的一些非常出色的工作(Schroeder,Lakatos等)。但是,我完全同意,这些都是明智的考虑,并且会有所帮助。

3)事实上,我不'认为4声道声码条件的行为数据根本是奇数。众所周知,语音编码的清晰度取决于许多因素,包括通道数,其间隔,频率范围,SNR,曝光量等,更不用说各种数字信号处理细节(包络滤波器频率,过滤器等)。在我们的手中,我们发现4通道声码句子的正确单词报告率为30%。戴维斯(Davis)的正确率不到20%并没有什么不同&约翰斯鲁德(2003)。 Shannon等。 (1995年)显示了更高的性能(图2),但它们的最高频率为4 kHz(与我们的8 kHz相对),这意味着在4 kHz以下有明显更多的频谱细节。 (更不用说接受了大量的培训听众了。)我可以继续,但是我认为我们'实际上与所有其他文献并没有什么不同。

为了什么's worth I'我很确定我们的论文是单篇的并且可以约会。我同意,振荡的多个频率聚集在一起似乎是一个好主意。

参考文献:

戴维斯·MH(Davis MH),约翰斯鲁德(Johnsrude IS)(2003)口头语言理解中的分层处理。神经科学杂志23:3423-3431。

香农RV,曾F-G,卡玛斯五世,维贡斯基J,埃凯里德M(1995)语音识别主要是时态线索。科学270:303-304。

格雷格希科克说过...

感谢David的这些论文摘要。现在我不't have to read them!

你说"binding-by-synchrony"。您是否真的认为同步导致绑定?还是绑定的结果?有关系吗

我通常只是认为振荡同步是网络相互交谈这一事实的反映,就像说负偏向是听觉皮层激活到听觉事件的ERP反映一样。我们不't say "负偏斜引起的听觉激活"。还有更多要同步的吗?什么's the evidence?

戴维·波佩尔说过...

格雷格:您的问题是公平的(如果不是新问题的话),但我不是回答这个问题的合适人选。实际上,其中一篇论文的合著者卢西亚·梅洛尼(Lucia Melloni)已经对此进行了大量思考和撰写-也许我们可以说服她为我们总结一些主要问题。 (露西亚:你怎么说?)

有很多有趣的论文和评论,其中我尤其喜欢Pascal Fries的工作。

如果您真的想研究这些东西,那么一个很好的起点就是1999年发行的Neuron特刊,创造性地称为“绑定问题”。

我认为您想知道是对的-我当然想知道问题的逻辑-但是我们可以在这些研究中测量的神经反应(通常是振荡)肯定有用,无论其最终解释是什么。