2011年6月10日,星期五

Movement goals and 反馈 控制 in speech production

我刚读完一篇很棒的评论文章,作者: 约瑟夫·佩克尔,标题为 Movement goals and 反馈 and 前馈 控制 mechanisms in speech production. If you want a nice survey of behavioral speech production research from the motor 控制 perspective (as opposed to the psycholinguistic perspective), this should definitely be on your reading list.

在审查中,Perkell提出了一些不同的观点。一种是言语产生的目的或目标是感官的。我完全同意。另一个是有两种感觉目标,听觉和体感。再次,我完全同意。他对元音和辅音之间的差异进行了一些有趣的观察,表明元音的目标主要是听觉上的,而大多数辅音的目标主要是体感的。我有点同意这一点。表示这种概括的另一种方法可能是听觉系统对音节更感兴趣,元音全部是音节单位,而体音系统对子音节单位(即辅音)更感兴趣。我正在即将到来的酒吧中研究这种总体思路。敬请关注...

Related to the 听觉 goal point, Perkell reviews an interesting body of data suggesting that one's 听觉 acuity for a particular phonemic contrast is correlated with the sharpness of one's own articulation for that contrast. Cool stuff.

这是我在全文中不同意的一件事。 Perkell写道:it is widely believed that once speech is acquired and has matured, it operates almost entirely under 前馈 控制“。这是由Guenther / Perkell小组推广的DIVA模型的假设。我喜欢DIVA模型,但我认为在这方面(以及其他几个方面)是错误的。前馈控制的思想是系统可以学习通过明显的反馈和纠正机制,达到感觉目标所需的运动程序,一旦学会,语音产生就需要激活这些运动程序,如果出现问题,唯一的捕捉方法是通过明显的反馈。没有内部前向预测/校正机制。

There is a simple argument against this position: conduction aphasia. Conduction aphasics have nothing wrong with their 听觉 targets. They have normal speech perception and can readily detect errors in their own speech. They do not have a motor 发音的 problem either. Much of their speech is fluent and accurate. However, they make phonemic errors more often than 控制 subjects do. A natural explanation of this is that conduction aphasics have a damaged 内部 correction mechanism (Hickok et al. 2011). They can activate the learned motor programs, they can activate the 听觉 targets, but if something goes wrong in the motor programming, they can't generate an 内部 forward prediction and correct the error before it is spoken, thus their speech error rate goes up relative to individuals with an intact system. This is one aspect of the DIVA model that needs to be updated.

Perkell, J. (2010). Movement goals and 反馈 and 前馈 控制 mechanisms in speech production 神经语言学杂志 DOI: 10.1016 / j.jneuroling.2010.02.011

Hickok G,Houde J和Rong F(2011)。语音处理中的感觉运动集成:计算基础和神经组织。 神经元,69 (3),407-22 PMID: 21315253

14条评论:

弗兰克·冈瑟 said...

格雷格

I think a straightforward explanation for the conduction aphasia errors is that 前馈 motor programs are not entirely impervious to occasional errors even in adults. Evidence for imperfections in 前馈 motor programs includes the fact that speech output under loud masking noise is good but not perfect, and the speech of postlingually deafened individuals can be good but again is not perfect. In these cases, the speaker relies more heavily on 前馈 控制 because 听觉 反馈 控制 is unavailable, and this leads to occasional phonemic errors.

A neurologically normal individual will be constantly correcting for these small errors while they are still subphonemic. At any given instant these will generally be tiny corrections; i.e., very little 反馈 控制 is needed, as Perkell asserts in the target article, as do I in other publications. However in the conduction aphasic these small errors will accumulate due to disruption of 听觉 反馈 控制 (from the conduction aphasia), occasionally leading to phonemic errors.

总而言之,传导性失语症偶尔出现音素错误的原因可能与舌后聋的人相同,他们大概具有完整的内部前向模型预测电路:用于语音的前馈运动程序并不完全完美,因此错误会发生没有感觉反馈控制。我因此不'不能将其视为前向模型预测的确定证据,这些模型至少在语音运动控制级别上会导致语音输出之前的内部校正。

在DIVA的早期版本中(例如Guenther等,1998),我们明确地将您要描述的内部前向模型预测用于语音运动控制。最好将这种机制描述为一种前馈控制,因为它没有'它涉及使用感官反馈来纠正进行中的语音。在最新版本的DIVA中,我们'由于以下几个原因,我省略了对该机制的明确描述。

First, it significantly complicates description of the model and adds very little in terms of functionality (i.e., the model works pretty fine without it, instead using a more straightforward type of 前馈 控制). This has led to more people understanding and using the model to study speech.

其次,它不是前馈控制的“唯一”形式,因为我们知道对感觉皮层区域(可能是这些前向模型预测的目标)的损害不会显着干扰语音运动输出(如感觉失语),如果这种控制是语音的前馈控制的主要类型,则可以预期这样做。相反,似乎完整的前运动/运动皮层和相关的皮层下电路足以产生用于语音的前馈运动程序。

All that said, my jury is still out as to whether the type of 内部 prediction process you refer to is used for speech motor 控制, which I differentiate from phonological planning of speech.
(请注意,我们在DIVA模型中以听觉目标的形式进行了正向模型预测,但是与您所描述的角色相反,它们是感觉反馈控制子系统的一部分。)我知道Levelt和同事以及您和其他人相信,这种预测和内部校正发生在语音层面,但是我不相信'我们没有令人信服的证据表明它发生在语音运动控制水平上(即作为DIVA中处理的音节产生基础的感觉运动相互作用的一部分)。这是在最新的DIVA模型出版物中未描述它的第三个原因-我不确定数据是否完全支持它。

干杯,
坦率

Guenther,F.H.,Hampson,M.和Johnson,D.(1998)。对参考框架进行语音运动规划的理论研究。心理评论,第105页,第611-633页。

弗兰克·冈瑟 said...

顺便说一句,作为您博客的一个证明,今天有三个人分别向我提到了这篇文章。

和我'd想知道您在DIVA中是否认为其他错误:-)。

格雷格希科克说过...

嗨弗兰克,

很高兴听到你的消息!如你所知'包括DIVA在内,您一直很喜欢您的作品。我认为可以公平地说,您和您的团队在计算模型的明确性方面是无与伦比的'与支持它的神经回路的关系。关于DIVA,有很多权利。

Things 我不't like:

1. As noted, I think the 前馈 控制 assumption is wrong for reasons noted. An 内部 反馈 控制 circuit is needed.

2.我不'喜欢一个主意"speech 声音"居住在左下额回/ PMC中的地图。应该't a "sound" map be in 听觉 cortex? 可能be this is just a terminological objection as you suggest that this 声音 map is really more like Levelt'的心理音节(更多的运动概念)。但是如果那是真的,

3.我不'喜欢一个主意motor act starting with the activation of a motor unit. We both agree that the targets are 听觉. To me it makes more sense to first define the target or goal of an action, i.e., activate the sensory system as the starting point for an action. However,

4. I think for most words that are produced, activation of the production network involves parallel inputs to both motor (~mental syllabary) and 听觉 representations.

最后,

5.我认为DIVA(或我发表的想法)没有在系统中隐藏一个层次结构'处理得很好。

I'll回应您的建议re:传导性失语很快...

格雷格希科克说过...

感谢您对传导性失语症和DIVA的想法。一世'很高兴进行这次讨论。

If I correctly understand what you are arguing, conduction aphasics make more speech errors than 控制s because small (sub-phonemic) 前馈 errors (which we all make) are not corrected because 听觉 反馈 控制 is disrupted. This leads to a build up of small sub-phonemic errors which eventually cross a category boundary and become a phonemic error. 您 suggest that functionally this is similar to the situation in post lingual deafness.

我对此问题的主要疑问是,传导性失语和舌后耳聋的语言错误模式似乎非常不同,CA错误的语音特征和变异性很大,而PL耳聋的语音和一致性更高。 (一世'我不是PL耳聋的专家,所以请告知我'是错误的。)这表明这两种情况的机制不同。

相关地,如果是音位错误是由于子音位错误积累相对较慢而导致的,则您可能会期望严重中断会引起任何问题。但是,传导性失语症在中风的急性期更为明显。并且直接刺激Spt附近的皮质会立即产生对相位误差的影响。这里'引自安德森(Anderson)等人。 (1999脑与语言70,1–12): "在电刺激试验中,她在口头图片命名以及单词和非单词的重复过程中表现出频繁且多次的音位副相错误。" (p. 7). So it'不是错误累积问题。

格雷格希科克说过...

我同意您的看法,即基于感官的控制并不是前馈控制的唯一来源(正如您所说)。电机系统必须能够很好地控制语音,而无需感觉系统(当然是在成熟,受过训练的系统中)进行大量输入。正如您所指出的那样,对感觉系统的损害不会阻止语音的产生。这就是为什么我们'我们已经提出了在语音产生过程中通过概念语义系统并行激活的运动和感觉语音系统。

在我看来,DIVA在没有内部反馈环路的情况下也可以正常工作。对于高学历的音节,"motor syllabary"足以完成工作'大部分时间都是自己的。您真正需要内部反馈回路的地方是低频或更复杂的语音形式,或者是非言语,在这种情况下,感觉系统必须真正指导运动语音选择。我相信传导性失语症清楚地揭示了这种内部网络的存在。

维莱姆Kodytek说过...

Elliott Ross(神经科学家16,2010,222-243)提到一名患有Broca的患者'恢复后看起来非常好的s区域病变:

"在正式检查他的语言时,我无法发现任何失语症,包括拼写,书写,练习或理解语法复杂的句子时出现问题。" (Ross, p. 226).

关键是病人一天只能一个小时做得很好:

“If he did any more than this, he began making substantial 发音的 and graphemic errors with a decline in his ability to communicate that required increasing mental effort.” (ibid.)

它可能’与他的整体健康状况有关,但仍然必须’还有其他事情。也许从卒中的恢复与后期扫盲获得的方式类似,这同时受到新的灰白物质的支持(Carreiras等人,Nature 461,2009,983-986)。如果在慢性传导性失语症中,无论是灰色还是白色的新物质(或备用物质)都不够有效,导致前馈过程中出现更多错误,该怎么办?
维莱姆

格雷格希科克说过...

嗨,维莱姆,
如果DIVA功能解剖学假设正确,则驱动前馈过程位于额叶(IFG / vPM;"speech 声音 map"). Lesions in conduction aphasia, however, are posterior temporal-parietal, overlapping functional 听觉-motor area Spt as far as we can tell. So decreased efficiency in DIVA'的前馈过程是'不要将其作为解释,因为'在大脑的错误部位。

If we include the 听觉 system in the "feedforward" system, i.e., the system that drives motor selection/programming, then yes, I think this is where the problem is. It is the interface between the 听觉 targets and the stored motor programs that can hit those targets with vocal tract gestures.

维莱姆Kodytek说过...

嗨,格雷格,
By “feedback”我指的是Hickok-Houde-Rong(2011)中图4中绿线的第一部分,从“articulatory”control” to “运动语音系统”(然后打开,但可以继续)。由于传导性失语症患者在那儿,他们不会’可能根本就不会说话。

我不’t know DIVA so I can’对此发表评论。我只是快速浏览了他们1998年的论文。无论如何,我喜欢这样的定量模型,我的普遍看法是,它们不必100%正确才有用。
维莱姆

格雷格希科克说过...

啊,令牌"efference copy"在图4中。您知道,如果您仔细阅读该论文,'我会注意到这确实没有't do anything in the model. It is more of a theoretical vestige from motor 控制 models. In a forthcoming variant, that green line is gone...

无论如何,病变部位不会'与我的帐户或DIVA中的正面运动系统的任何部分损坏相匹配。

您应该检查一下DIVA模型。它非常有用,而且远远超出了我的所有要求'关于语音产生系统,我从覆盖范围和计算明确性方面说。

维莱姆Kodytek说过...

您'是的,格雷格。我很困惑。
维莱姆

弗兰克·冈瑟 said...

格雷格

To the degree that they are truly phonological, the conduction aphasia errors you describe are not within the purview of the DIVA model, which is a model of speech motor 控制, i.e. the execution of 音节运动程序 after they have been selected. CA phonological errors presumably are the result of higher-level phonological processes, more akin to the processes we address in our GODIVA model of speech sequencing (Bohland et al., 2010, J Cog Neurosci), though 在 this point we do not have an 内部 monitoring system in that model.

一个小问题:当我说小的子音位错误的累积最终会导致音位错误时,我的意思是毫秒而不是几天(因为您似乎暗示您对CA的急性影响的反应)。

I'在后续的文章中,您将回答有关DIVA模型的其他观点。

最好,
坦率

弗兰克·冈瑟 said...

格雷格

关于DIVA模型的第二个和第三个问题(左腹前运动皮层中的语音映射以及通过激活运动细胞来启动运动的想法),您似乎忽略了以下事实:"auditory"运动前皮层中的表征(就像视觉空间表征存在于运动前皮层的手/手臂区域中;例如参见亚历山大&Crutcher,1990,J Neurophys)。实际上我们've在患有锁定综合征的人类患者左腹前运动皮层的电生理记录中显示,您可以从该区域的神经活动中解码预期的共振峰发声频率(Guenther等,2009,PLoS ONE)。

Given that there is an 听觉 representation in premotor cortex, 我不'没看到为什么在运动前皮质之前必须激活感觉皮质以产生自发的语音输出。 (请注意,如果DIVA是在执行重复任务,而不是"spontaneous" speech, 听觉 cortex would be active prior to premotor cortex since the incoming 听觉 signal would be driving the premotor cortex motor program selection.)

您 could argue that we should call the 语音图 a "motor program map",但我们之所以没有't use a term like "phoneme map" or "syllable map" is that the size of the motor programs can vary in this map. The most typical size is probably the syllable, but there are also phonemic motor programs and multi-音节运动程序 (e.g., for your name or other commonly produced utterance).

Regarding your 4th issue (activation of production involves parallel inputs to both motor and 听觉 representations), this is exactly what happens in DIVA: Activation of the premotor cortex cells leads immediately to activation of corresponding cells in 听觉 and somatosensory cortex (referred to in the model as the 听觉 and somatosensory targets) as well as activation of cells in primary motor cortex.

关于第五个问题(层次结构隐藏在模型中),几乎所有有用的神经模型都是如此。在DIVA中,我们不 '例如,不必担心逆动力学。如果这样做的话,该模型将变得太复杂而无法对其他科学家有用。我觉得您更关心与语音等相关的更高层次结构。我们的GODIVA模型(Bohland等,2010,J Cog Neurosci)处理了其中一些问题。一世'd有兴趣一段时间后听到您对该模型的想法。

格雷格希科克说过...

嗨弗兰克,
感谢您的澄清和更多细节。一世'听到DIVA(i)打算成为涉及"音节运动程序"(ii)目标是听觉的(大概也达到音节水平?),(iii)牵涉到听觉皮层,但(iv)语音处理的水平低于传导性失语症的牵连(这暗示了某些相同的皮质DIVA声称)。这似乎表明存在较高水平的语音处理,涉及音节和音素,但不涉及运动控制,而较低水平的语音处理涉及音节和音素,但从根本上说是一个运动控制系统。为什么要区分?有原则上的理由吗?我想我只是不'看不出将电动机控制电路与语音选择电路分开的任何令人信服的理由。

毫秒累积错误肯定更有意义!我确实误解了这一点...

格雷格希科克说过...

您认为这是事实"auditory"运动前皮层的表征。为什么引号"auditory"? Are they "auditory" or 听觉? And if they are not 听觉 in the normal sensory sense, could they be "auditory" in the motor sense? I.e., motor programs that can hit 听觉 targets? 我不't believe that there are 听觉 representations in motor cortex.

So given that there is not an 听觉 representation in motor cortex :-) you do need to activate a sensory target. This provides a natural explanation for why disruption the STG can lead to speech errors.

回复:并行输入。 Isn'这在DIVA中是顺序的吗?先进行运动前激活,然后再驱动感觉激活?而且没有'这会导致问题吗?你怎么知道你是否'如果定义目标的东西是来自运动系统的信号,请在感觉皮层中击中目标。在我看来,您需要独立的感觉目标激活。

有趣的讨论!非常感谢,并继续努力!