2009年4月5日,星期日

语音识别的神经模型

关于语音识别的功能架构,各种神经理论家确切要求什么,似乎仍然有些混乱。双流模型也是如此。我刚从对芝加哥大学的一次很棒的访问中回来,在那里我有很多时间与史蒂夫·斯莫尔,霍华德·努斯鲍姆和马特·戈德里克交谈(他们是从西北来的,闲逛了一会儿)。我们进行了一些精彩的讨论,我学到了很多东西。这些讨论中出现的一个问题是,不清楚语音识别如何发生,每个人的立场如何,特别是在感觉和运动系统的相对作用方面。因此,这是我试图澄清这一点。

There are 在 least three types of models out there: 1. 听觉模型s, 2. 发动机 models, and 3. 感觉运动模型s.

这是我的简化漫画 听觉模型:


This is closest to my view. The access route from sound input to the conceptual system does not flow through the 发动机 system although the 发动机 system can modulate activity in the sensory system.

这是一个卡通 发动机 theory:



Something like this has been promoted by 自由人 in the form of the 言语感知运动理论, as well as by Fadiga. One comment I'm getting a lot lately (including from Luciano) is that no one really believes in the 发动机 theory. So here's a quote from the Fadiga & Craighero, 皮质,(2006)42,486-490:

According to 自由人’s theory … the listener understands the speaker when his/her articulatory 手势s representations are activated by the listening to verbal sounds. p. 487

自由人’s intuition … that the ultimate constituents of speech are not sounds but articulatory 手势s that have evolved exclusively 在 the service of language, seems to us a good way to consider speech processing in the more general context of action recognition. p. 489

On this view, the route from acoustic speech input to the conceptual system flows through the 发动机 system.

这是我的漫画 感觉运动模型:



This seems to be what Fadiga has in mind based on his comments on this blog, namely that it is in the "matching" of the sensory and 发动机 systems that is critical for recognition to happen.

A 布拉德·布斯鲍姆(Brad Buchsbaum) pointed out, both a 发动机 theory and a sensory-motor theory would predict that damage to the 发动机-speech system should produce substantial deficits in speech recognition. As this prediction doesn't hold up empirically, these theories in their strong forms are wrong.

14条评论:

伊斯雷尔说过...

困惑的部分原因可能在于有关该小云“概念网络”的差异。实际上,这是一个不定形的项目。一些意见(例如,Pulvermuller)具有固有的概念表示,内置在处理它们的皮质中。 “踢”的概念在控制脚运动的运动皮层中表示。查看这种类型的概念并得出结论,运动皮层在语音感知中必不可少的结论是仅查看图像的一部分。显然,并非所有概念都会在运动皮层中体现出来。
How do the opinions that contend that speech perception involves the 发动机 cortex understand the 'conceptual network'. Leaving speech aside, how do they understand conceptual representation?

卡尔提克·杜尔瓦苏拉(Karthik Durvasula) said...

I think there is a misunderstanding here of what 自由人 & Mattingly's(1985)的立场是。我认为这种误解的很大一部分是(不幸的)术语。

术语"gesture" used by L&M does not stand for actual articulatory movement. For them, 手势 is more abstract, and it means "抽象声道配置" - which is quite removed from the actual articulatory event. To take an example, the 手势 "labial stop"通过上唇/下唇/下颚的滚动可以用多种方法制成...&M, what is being perceived (for linguistic purposes, 在 least) is the abstract 手势 "labial stop",而不是实际的发音事件。

这实际上是预期的意思,从"...the articulatory movements-the peripheral realizations of the 手势"(他们论文的第4页。)

根据我的看法,他们对语音感知的看法是:

概念网络
|
vocal-tract 手势
/ \
声学清晰度


上面的图表可能有点简单(鉴于没有花哨的图形,这很粗糙)。因为,对他们来说,感知的对象是"vocal tract 手势", so any sensory source should, in theory, be informative (including visual, tactile in the extreme case). So, this view in the end sounds a lot more like option 3 - the sensory 发动机 model, but with the additional claim that sensory-motor integration results in the perception of abstract vocal tract 手势s.

为什么所有这些都有所不同:因为就目前而言,它提出的观点"the 发动机 theory of speech perception revised" is not 在 odds with the aphasia data. Loss of 发动机 control does not mean loss of perception ability. This point was highlighted in a short paper by Mattingly "捍卫运动理论".

可以肯定的是&M'的理论还有很多其他问题,但是在此博客中不断提出的一个问题是't one of them.

造成混淆的另一个原因是不幸的标题"言语感知运动理论",它们的明确意思是"言语感知手势理论", where the term "gesture"有一个非常具体的(抽象的)定义。

格雷格希科克说过...

我认为人们实际上对语音感知理论(此处有争议)与概念表示理论之间的关系有些困惑。这些是独立的问题。让我们澄清一下。

言语感知的运动理论和概念语义的运动(体现)理论正在讨论处理的两个不同阶段。前者处理语音声音模式的处理,后者处理与那些声音模式(任意)相关的含义。从逻辑上说,有一个语音感知的听觉理论和一个动作语义的运动理论是可能的。同样,可能有语音感知的运动理论和语义的非运动(非体现)理论。我画了一个云,以表示概念系统的组织是什么,就此讨论而言,无关紧要。

似乎人们常常在同一口气中谈论言语运动理论和语言语义的体现理论,好像两者必然相关。甚至Rizzolati和合著者也从镜像神经元的动作理解理论(一种语义理论)跃迁到言语感知的运动理论(一种感知理论),也使这个问题感到困惑。例如,在他们关于镜像神经元和动作理解的一些著作中,他们认为非镜像神经元系统可以处理与手势相关的较低级别的视觉信息,但正是镜像系统提供了“理解”(即语义)。但是言语感知的运动理论全都与这种较低水平的感知处理有关,而不与理解有关。注意,Liberman等。倾向于研究大多数无意义的简历刺激的感知。因此,镜像神经元的动作理解理论与运动理论之间的联系是基于未能注意到两种理论所讨论的是不同的加工水平。

So, let's tackle one question 在 a time. Does the perceptual (~phonemic-level) stage of speech recognition go through the 发动机 system?

格雷格希科克说过...

很棒的讨论。感谢Karthik。大号&M实际上使用了术语"intended 手势s"并且不同意低级运动程序是语音感知的目标的观点。但是我们是否定义我的"motor" label in the box diagrams as truly 发动机 or as abstract speech 手势s, in either case, they were not auditory for L&M,因此(i)我描述的模型架构仍然是位置的有效表征,并且(ii)L&M仍然是错误的(除非"intended 手势"实际上是听觉上的代表,这正是我所相信的!)。

布拉德·布斯鲍姆(Brad Buchsbaum)说过...

我仍然认为这里的问题之一是从“认知术语”到“神经术语”的翻译。

The 发动机 theory of speech perception is really about the "code" for speech perception, not its neuroanatomical locus. It would seem strange to say that there is a 发动机 code for speech perception 在听觉皮层, but it's not necessarily a contradiction. More to the point, 自由人 et al. do not (or do they?) make any specific functional-neuroanatomical predictions about "where" such a code lives in the brain.

It is reasonable to assume that a 发动机 code should reside in 发动机 cortex, but this an additional assumption -- a cognitive neuroscientific heuristic, a "linking proposition" -- that is added to the model so that it can be discussed in neural terms.

手势代码合理吗? 在听觉皮层 might form the basis of speech perception? Such a model would be consistent with the 发动机 theory of speech perception, but inconsistent with neuroanatomically-based 发动机 theories, where the "发动机 code" underlying speech perception is truly thought to reside in 发动机 or premotor cortex.

卡尔提克·杜尔瓦苏拉(Karthik Durvasula) said...

我认为Brad提出的问题完全正确。从我能从L中看出来&M's work, this interpretation/model is not 在 odds with the revised 发动机 theory view. The following quote from Mattingly ("捍卫运动理论")的含义很相似:

"这种对模块与控制咬合架的电机系统之间关系的看法也暗示了MacNeilage,Rootes和Chase(1967)对患者的解释。该患者患有严重的先天性知觉和关节控制障碍。她无法组织舌头或嘴唇的运动,并且言语表达严重不足。但是,她能够理解语音并断然感知。与MacNeilage相反'断言,该患者的感知能力对修订的运动理论没有影响。运动理论家会说,尽管她的美学系统被禁用,因此她的运动控制系统运行不佳,但她的语言模块以及她感知语音姿势的能力仍然完好无损。 "

Mattingly clearly claims a separation between the 发动机 system and the "module" for (abstract) 手势 perception. This is why I think the name "言语感知运动理论"是不幸的。的"gestures"他们提到的似乎没有"motoric" 在 all - they are more (abstract) positions in the vocal tract space - which are very different from actual 发动机 actualisations.

附带一提,我读过这个词"gesture" (in the context of Motor Theory) is this - they are neither 发动机ic nor auditory. They are a transform from 发动机ic/sensory information to a much more abstract vocal tract position space.

伊斯雷尔说过...

讨论澄清了一些观点,但使我感到困惑。
格雷格,我完全同意您明确体现的语义和语音感知之间的区别。您的最后一点在这里很关键。正在讨论的语音级别是语音。除了可能在将语音识别为“人类”中发挥作用外,概念系统实际上与该模型无关。
至于“运动代码”或“手势代码”,“抽象声道位置空间”和各种“模块”,这些术语可能对理论讨论特别是认知心理学很有帮助(无论如何,“代码”在这里是什么意思?动作电位模式吗?我们甚至不知道如何通过实验解决这个问题?)。但是,它们产生什么样的假设?失语症研究在一定程度上是有帮助的。我们现在有能力研究实时神经处理。这些抽象表示形式和模块在哪里,我们如何将它们与模拟表示形式区分开。例如,如何将听觉皮层中的“运动代码”与听觉皮层中的“听觉代码”区分开?

格雷格希科克说过...

卡尔提克
感谢您澄清Mattingly对MacNeilage等人报道的案件的观点。我尚未收到MT阵营对此类数据的直接评论。有助于了解他们的想法。

So here then, is how I understand the revised 发动机 theory:

1.不是听觉的
2. It's not 发动机
3. It is the perception of abstractly represented vocal tract "手势s"
4.系统是模块化的
5. The system is 先天

#5 of course is needed to explain how an individual who has never produced a speech 手势 in their life can nonetheless access the abstract neural representation of such 手势s. This is a bit odd given that even supporters of 先天 mental 模组s typically assume that the system needs some external environmental trigger to get them organized. (Note that if the representation is auditory, the problem goes away.)

So now the question boils down to what is an abstract vocal tract 手势? You (Karthik) suggest it is 声道空间中的抽象位置. Why can't it be abstract positions in auditory space? This is consistent with lesion evidence: damage to auditory cortex (bilaterally) produces profound speech sound recognition deficits; damage anywhere else, doesn't.

卡尔提克·杜尔瓦苏拉(Karthik Durvasula) said...

嗨,格雷格,

我猜的MTist不会't be opposed to "外部环境诱因"-我不清楚您的确切意思。我在这里猜测MTist的位置很危险:尽管他们确实说系统是"innate",我猜他们不会't be opposed to "fine-tuning" thru experience. So, while the original system is 先天, what experience does is fine tune the system (narrow ranges...).

关于"声道空间中的抽象位置"-这是标准的MT修订职位(不是我的个人解释)。这尤其体现在路易斯·戈德斯坦(Louis Goldstein)的工作中&凯瑟琳·布朗曼(Catherine Browman)"发音语音学"。我只是在澄清此问题的实际MT观点。

就我而言,我并没有以一种或另一种方式(抽象的听觉/声道空间/两者)来相信它,但是我从我自己的鼻腔理论语音学研究中得到的证据使我相信(至少)关于鼻段的抽象位置信息对于理解跨语言的(语音)行为至关重要。我认为,这一特定观点提出了一个更大的观点(至少对我而言),神经语言研究需要更认真地对待语音研究/结果。

我没有'以前没说过,但我喜欢阅读您的博客。到目前为止,对我来说,这一直是非常有教育意义的!

卡尔提克·杜尔瓦苏拉(Karthik Durvasula) said...

我还想着与您(格雷格)最近几天的最后评论相同的观点:

“这与病变证据一致:对听觉皮层的损害(双侧)会产生严重的语音识别缺陷;对其他任何地方的损害则不会。”

我想知道这是否必然表明听觉信息是主要信息。这是否也与听觉信息是最丰富的信息的说法不一致?因此,并不是说听觉信息被赋予了骄傲,这仅仅是听觉输入的本质,使得它比其他来源的信息丰富得多。因此,在存在此类信息的情况下,更可能推断出正确的表示形式(无论其性质是-手势/特征...),从而推断出正确的词汇表示形式。

因此,可以用以下方式解释病变的结果:存在巨大的缺陷不是因为您的主要来源(您求助的唯一来源)受到了损坏,而是因为您提供最多信息的来源受到了损害(而其他同样重要的来源却没有受到损害)那翔实的)。

我说的话有意义吗?如果是这样的话,那么我的意思可以归结为这一点-我认为证据并不像想象的那样强烈地支持纯听觉模型(而不是多感觉整合模型)。

格雷格希科克说过...

固有的模块注释基于此:在某些情况下,产生语音的能力无法发展。这些人从未发表过演讲姿态。但是他们仍然能够正常感知语音。如果语音感知依赖于抽象语音手势表示的激活,则该手势表示必须是先天的,因为它在从未有机会塑造其语音手势系统的人中发挥作用。如果您购买了它,那么您就不得不想知道龙猫如何以人类般的能力感知语音-当然,他们没有固有的语音手势表示系统。您可能会说,“好吧,他们对普通听觉感知系统的处理方式有所不同。”但是,如果听觉系统能够独自处理语音,那么什么进化的压力导致了先天语音手势模块的发展。对我来说,这一切似乎有些绵延。

您对音系学的观点既重要又有趣。是的,学习语言的神经科学家需要更多地关注语言学!您建议音系学的数据使您相信手势信息至关重要。我毫不怀疑。但这是重要的一点(如果我错了,因为我不是语音学家,请纠正我!):驱动语音理论的数据来自人们产生语音的方式。它不是来自人们如何听到语音。您假设通过生产研究发现的语音学也适用于语音感知中的“语音处理”。这可能是对的,但我不这么认为。我的猜测是,大多数语音感知都涉及识别音节范围内的语音块,而不是单个段。换句话说,虽然您显然需要在片段(甚至是featural)级别上表达语音以进行生产,但是您无需为了感知而执行此操作。因此,语音学家会发现与理解语音相关的手势或运动相关信息并不令我感到惊讶:它基于语音产生的数据!

考虑到我不是语音学家,这可能是一个完全幼稚的观点,如果我错了,请纠正我。但是我想最主要的一点是,我们不一定需要假设在感知方面,我们必须分析信号的全部细节,才能访问心理词典。像“整个单词”阅读一样,我们也许可以只处理较大的(音节)块中的语音。

格雷格希科克说过...

关于听觉皮层病变导致语言知觉缺陷的事实,您说:

“存在巨大的缺陷不是因为您的主要来源(您转向的唯一来源)遭到了破坏,而是因为您提供最多信息的来源受到了损害(而其他同等重要的来源却没有那么提供信息)。”

Hmm. If it is the more informative source, isn't that kind of like saying it is the primary source? How can a source be equally important if it is not that informative? Here's the facts that any theory of speech recognition has to explain. (1) damage to auditory areas produce profound speech recognition deficits. (2) damage to 发动机 cortex, 布罗卡's area, the entire left frontal lobe, the entire left hemisphere... don't produce significant speech recognition deficits. There is clearly an asymmetry here.

卡尔提克·杜尔瓦苏拉(Karthik Durvasula) said...

回覆:"您假设通过生产研究发现的音系也适用于"语音处理"在语音感知中。"

这必须是正确的(至少在某种程度上)。

如果您采用以下简化的交流观点。

演讲者1 ---------> Listener 2
| |
听众1<----X--- speaker 2
|
|
语音数据

是的,我们将在发言者2之后立即收集数据'的生产,但您确实希望数据能够"shaped"两位听众' perception.

显然,(至少)语音数据中的某些模式具有感知不对称的烙印。但是,数据中关于鼻腔的特定偏倚不能归因于感性原因。

卡尔提克·杜尔瓦苏拉(Karthik Durvasula) said...

错字:“语音数据”上方的垂直线必须连接到“ X”,而不是“监听器1”