2009年10月8日,星期四

言语感知的运动理论毫无意义

运动理论之所以诞生,是因为发现语音信号是模棱两可的。相同的声音(例如/ d /)可以通过不同的声学特征提示。另一方面,建议产生声音/ d /的语音手势不是模棱两可的,它总是涉及将舌尖放在嘴顶上。因此,我们必须通过访问产生语音的不变运动手势来感知语音。

不过,有一件事情对我来说毫无意义。如果声音信号不明确,电机系统如何知道要访问哪个电机手势?据我所知,没有运动理论家提出过解决这个问题的方案。我想念什么吗?

9条评论:

马特·戈德里克(Matt Goldrick)说过...

这个问题在 利伯曼和Mattingly 1985。 p。 26:

"考虑到声道配置和声音信号之间的多对一关系,从信号中恢复运动问题的纯解析解决方案似乎是不可能的…语音感知分析方法的另一种选择当然是合成方法,在这种情况下,模块会将输入信号的某些参数描述与候选信号描述进行比较。"

At least in this version of motor theory, then, a critical component of the implausibility of an acoustic theory of speech perception is the (reported) non-existence of a function mapping from acoustic signals to intended targets. The analysis-by-synthesis account assumes that there is a 格式正确 前锋 model (from articulation to acoustics) but no inverse.

格雷格希科克说过...

马特,感谢您为我引述这句话!因此问题至少得到了承认,这意味着电机理论没有'解决什么对不对?只是将问题转移到其他系统。

马特·戈德里克(Matt Goldrick)说过...

我不会't say this is "解决问题。"电机系统是什么'用于生成可能的声音信号。

Liberman + Mattingly声称它'仅凭声学无法识别声音。那'不是运动理论特有的问题;它'对于任何感知理论来说都是一个问题。电机理论着眼于一个结构良好的问题-清晰度与声学的映射,从而解决了这一问题。

格雷格希科克说过...

这是放置Matt的好方法。除了我仍然不知道之外,它还为我澄清了MT的位置't see how it helps.

首先-我'我不是这里的专家,请纠正我的错误-不要'看一下清晰度和声学之间的映射是如何形成的。产生/ d /的相同发音手势会在/ di /与/ du /的上下文中产生不同的声音。格式正确的映射是从清晰度到感知到的*音素*的映射。而且不是'难道要想获得一个可感知的音素,就必须通过令人讨厌的声音运行它?

Second, even if the mapping from articulation to acoustics is a 格式正确 problem, you still have to get from an ambiguous acoustic signal to one or another gesture.

我仍然必须缺少一些东西,所以请继续尝试Matt!一世'm sure I'最终会得到它。 :-)

马特·戈德里克(Matt Goldrick)说过...

希望这可以减少混乱!

By 'well-formed'我的意思是从发音状态到声音有一对一的映射。给我一个声道,我可以告诉你会产生什么声音。但是这种映射是不可逆的。给定声音,我可以'告诉您产生了哪种发音状态(无需做其他假设)。

回到语音类别,Liberman + Mattingly'我们的分析是,这些类别之间的区别可以用发音特征来表示。由于缺少从声学到这些特征的逆映射,因此无法从声学中恢复语音。

他们相信这一点对任何语音表示理论都成立。一对一'forward'从语音类别标签到声学的映射,但是从声学类别到语音类别没有一对一的逆映射。因此,不管您是如何表示声音类别区别的理论,声音信号都会带来一个困难的识别问题。

一个可能有用的类比是ERP生成中的逆问题。给定来源,我们可以确定头皮上的电位模式-但是我们不能从电位模式到来源明确地映射(没有其他约束信息)。

L&M's的解决方案是说清晰度为逆映射问题提供了正确的约束集。清晰度提供了一组候选手势(该人可能说了bi,di或gi)。这些手势然后用于生成潜在的声音信号;输入信号与此相匹配。但是,可以想象一下如何生成候选声音表示的替代理论(不基于电机系统)。这将与他们的解决方案(通过综合分析)的精神相同,但是依赖于不同的机制来生成(综合)新的候选人。一世'我肯定他们的回应是's simpler to just 're-use' one'的运动系统产生候选者。

It'重要的是要将此与另一种运动理论(福勒)区分开'直接现实主义的观点。这不涉及任何综合分析。 DR实际上否认(在某种程度上)L&M's声称声音信号确实是模棱两可的-它的支持者声称声音语音流中有足够的声音来执行对关节动作手势的逆映射。至少,我是这么认为的。我必须承认我对应该如何工作感到困惑。

格雷格希科克说过...

Matt非常清楚。谢谢!因此,尽管我们有一个模棱两可的声音信号,无法将其唯一地映射回语音手势,但我们仍然处在这种情况下。 MT没有'为了解决这个问题,它只是提供了一个可能的约束源,就像单词上下文或句子上下文提供了约束一样。我们都会同意这样的句子上下文"Hey, while you'休息,你会抓住我一个* er"会将模糊的声音*偏向/ b /。该信息对感知提供了约束。但这不'导致我们提出语音感知的对象是短语级别的命题。

我必须承认我不't understand Fowler's theory either.

弗雷德说过...

@Greg:有些人-即人们拥护以声学为基础的示例方法来学习语音/语音学/词典-他们确实认为感知对象(可能还有存储对象)是"短语级命题",或者说是短语级的声学轨迹,并给出了适当的定义"phrase-level"。很好的参考是杜兰德(Durand)所著的Coleman(2002)&此刻名不见经传的百灵鸟。

@Matt:你说"语音感知声学理论难以置信的关键因素是(从报告中)不存在从声学信号到预期目标的功能映射",但是仅当您假设目标是可发音的时才会出现问题,不是吗?如果您有声学目标,并设法以任何可能的方式击中/逼近目标,那么在我看来,'很好。在我看来,人们可以用咬合块做得很好,这一事实表明,我们获得了多种方法来打击声目标。

格雷格希科克说过...

很棒的讨论!弗雷德(Fred),我不知道有人真正声称过这种事情。有趣。一世'认为感知对象不是音素而是更高层次的概念。一世 'm not so sure about phrasal level though. My current favorite is the 音节.

我认为提出语音制作目标是什么的问题很重要。我相信它们确实是听觉上的目标。从这个角度来看,当非听觉理论家(例如MT和Fowler风格模型)说感知对象不是严格地运动,而是"intended 手势"说话者,我们可以反驳意图"gestures"(不是马达)实际上是声音。

弗雷德说过...

@格雷格:如果我们'认真对待感知对象(也许是存储对象)是声学的,然后我'我不确定音节如何完成您希望他们完成的工作。一世'我会承认并没有跟上当前的音节理论,但是我的印象是,音节通常是由发音来定义的,并且没有可靠的音节声学关联。除非你're using the term "syllable" to mean "大约这么毫秒".

还有,'我不清楚MT的观点。如果语音感知的对象(大概是允许我将语音感知为语音并对其进行响应)是某种准抽象的"intention",那么为什么我能准确地感知合成语音呢?我认为MTists不't want to 在 tribute "articulatory 意向s"到机器。但是也许(也许?)我'我只是对什么感到困惑'是运动理论所必需的。