2007年6月28日,星期四

语音清晰度,音节和皮质节律的相位:Neuron中的新论文

跑步,不要走到最近的图书馆或计算机终端!

罗欢和我的一篇新论文刚出现在 神经元。欢是马里兰大学神经科学与认知科学课程的研究生,主要与我和 乔纳森·西蒙。她于2006年获得博士学位,现在与丈夫和两个孩子一起住在北京。是的,她在研究生院里的工作简直荒唐可笑...

本文显示(IMHO)令人信服的证据(基于单次试验MEG数据)是使用〜200 ms的窗口对语音进行分析的。

Luo H.&Poeppel,D.(2007)。 神经元反应的相位模式可可靠地区分人类听觉皮层中的言语。. 神经元 54,1001-1010。

如何在听觉皮层中表达自然语言构成了认知神经科学的主要挑战。尽管许多单单元和神经影像学研究已经对语音和匹配的复杂声音的处理产生了有价值的见解,但是在人类听觉皮层中进行语音动力学分析的基础机制仍然未知。在这里,我们显示θ带的相位模式(4–8赫兹(Hz)的反应通过磁脑电图(MEG)从人类听觉皮层记录下来,可以可靠地跟踪和区分口头句子,并且这种辨别能力与语音清晰度相关。调查结果表明∼200 ms的时间窗口(theta振荡周期)会分割传入的语音信号,进行重置并滑动以跟踪语音动态。这种用于皮层语音分析的假设机制基于刺激诱发的内在皮层节奏的调制,并提供了进一步的证据,表明该音节是口语表达的一种计算原语。

3条评论:

格雷格希科克说过...

大卫,干得好。我喜欢音节。实际上,我认为语音信号的音节音阶分析正在正常理解中完成大部分工作。因此,我们现在有充分的证据表明,音节是语音识别中重要的分析单元。有人能提出令人信服的论点吗?子音节单元也至关重要地参与了语音识别(即理解)?请记住:不合理使用任务中需要明确注意音素的数据。

匿名 said...

很高兴终于看到这篇论文与我听过很多次的演讲有关。我确实有一个问题。您提到,通过theta band响应对句子类别进行正确分类的过程从句子刺激开始之初开始出现在2000 msc附近。您对这意味着什么有任何想法?甚至不是特定时间,而是它确实逐渐出现的事实?

戴维·波佩尔说过...

哎呀,格雷格,不公平,你为什么要问一个如此棘手的问题?在一个周末?在夏天???

i'm glad you love syllables. i love my wife and children, barbecue pork, and the poetry of ringelnatz -- but i am also very fond of syllables. and i think that position aligns us very much with steve greenberg (http://www.silicon-speech.com/), who has been advocating for a more explcitly syllable-centric perspective for years. it looks like syllabic-level parsing or processing occupies some position of primacy in comprehension of ecological speech. i believe that christophe pallier argued for this a long time ago (his thesis maybe?), and jacques mehler and his colleagues have argued for the epistemological priority of syllables in acquisition, presumably because a language's rhythm class (a key concept for mehler) is so strongly conditioned by syllable structure.

但这是否意味着我们可以在识别中没有亚音节(即节段或特征)过程?我觉得不是。首先,有许多在线效果(前瞻性和回顾性)建立在分段或特征信息的基础上,例如同化效果,协同发音效果。如果您*仅*查看音节级别的信息,我们将被迫将所有这些影响视为“迟来”。 [顺便说一下,在这种情况下,我们上周在哈佛/梅格/萨勒姆州的大卫·高(David Gow)在“ TalkingBrains East”进行了很好的访问。在这个领域检验假设。第二,由于我们知道词汇表述是次音节的,因此我们迟早需要了解这些信息。所以是稍后(先解析音节,稍后填充片段),更早(标准模型:先解析小东西,构建更大的音节,如继续构建)或并发(我的位置,即同时分析)在两个时间粒度上)?我认为最后一个假设-从工程学和视觉研究中被窃取-最可口。

语音概括通常发生在功能和细分上,因此您最终必须拥有可用的信息。为什么不立即提供它?可以使用(子)细分证据*和*音节证据可以解释为什么如此之快的识别速度。一个多时间分辨模型预测,在口语理解过程中,听觉皮层中的γ谱带活动和θ谱带活动应紧密协调。让我们测试一下...

好吧,我已经精疲力尽了,需要带我最小的儿子去游泳……最终更多。