2009年4月23日,星期四

言语感知的运动影响:格勒诺布尔的观点

过去一周,我们在TB West与格勒诺布尔自己的让·卢克·施瓦兹(Jean-Luc Schwartz)进行了愉快的访问。 让·吕克多年来一直致力于研究运动对语音感知的影响(甚至数十年来),并且对此问题具有非常深思熟虑和经验丰富的观点。这是我发现特别有趣且引人注目的一个论点的结构(Jean-Luc,我将窃取一些ppt文件图像;希望您不会介意。请更正我在总结时的错误)您的观点!):

1.语音感知研究中的一个经典问题(导致运动理论的发展)是由共发音引起的与各个音素相关的声学可变性:/ di /和/ du /中的/ d /具有不同的声学特征(但发音相同)。

2.但是,正如J-L所指出的那样,如果您整体看待声学空间 音节 (例如,我相信在F1与F2的关系图中),可以很好地捕捉到/ di /和/ du /之间的区别。换句话说,只需将时窗从片段扩展到音节,就可以在声学上解决缺乏不变性的问题。

3.但是,'-这是J-L的运动影响力论点-没有理由我们应该听到/ di /和/ du /包含相同的开始声音。如果只是听觉的话,为什么我们不听/ di / / da / / du /和/ bi / / ba / / bu /作为六个不同的声学类别,而不是下图所示的两个发作类别?答:分类来自音素的发音方式,而不是其声音后果。

他还使用来自世界语言的元音分布和语言转换效果的感知趋势,提出了类似结构的论点(即,可以对运动系统而不是对感知系统进行概括)。

让·卢克(Jean-Luc)并非在这里争论硬性运动理论。实际上,他认为纯粹的运动理论是不可辩驳的。相反,该主张是声学类别由电动机系统修改。我认为这是一个完全合理的结论,并且与我的基本立场一致-进入词典是从听觉语音系统中进行的。但是,我确实提出的一个问题是,虽然似乎语音分类(音素)受运动系统的影响很明显,但实际上没有任何证据表明此信息实际上会改变感知类别。例如,也许在我们的感知系统中,我们真正拥有的只是六种不同的类别?只有当您需要将这些声音映射到发音手势时,系统才需要了解前三个与后三个之间存在共性这一事实。

您可能要说这是不对的,因为我们显然会听到di da du都是以/ d /开头的。但是我不太确定。我认为这可能是由于我们为了学习阅读而被教导说单词是由各个音素组成的。再一次,我认为必须记住,当我们在生态上有效的条件下听语音时,我们听不到语音,而是听单词(即含义)。

这是让·卢克(Jean-Luc)及其同事最近发表的几篇论文。顺便说一句,为这个博客做贡献的Mark Sato也属于这些同事。这些人做得非常好,绝对值得关注。

Sato M,Schwartz JL,Abry C,Cathiad MA,Loevenbruck H.已确立的感知力的多稳态音节:言语转换效果中不对称偏差的来源。感知心理学。 2006年4月; 68(3):458-74。

MénardL,Schwartz JL,BoëLJ。声道形态在语音中的作用
发展:从出生到成年的合成法国元音的感知目标和感觉运动图。 J语音朗格听力研究。 2004年10月; 47(5):1059-80。

佐藤M,Baciu M,Loevenbruck H,Schwartz JL,Cathiard MA,Segebarth C,AbryC。语音形式的多稳态表示:言语转换的功能性MRI研究。神经影像。 2004年11月; 23(3):1143-51。

Rochet-Capellan A,Schwartz JL。一个明确的基础
唇对冠的作用:/ pata /似乎比/ tapa /更稳定的发音模式。 J Acoust Soc Am。 2007年6月; 121(6):3740-54。

Sato M,ValléeN,Schwartz JL,RoussetI。
阴顶冠状作用。 J语音朗格听力研究。 2007年12月; 50(6):1466-80。

Sato M,Basirat A,Schwartz JL。视觉对多稳态的贡献
言语感知。感知心理学。 2007年11月; 69(8):1360-72。

Basirat A,Sato M,Schwartz JL,Kahane P,Lachaux JP。言语形式的感知出现过程中的顶额伽玛带活动。神经影像。 2008年8月1日; 42(1):404-13。 EPUB 2008年4月16日。

12条评论:

马特·戈德里克(Matt Goldrick)说过...

但是,我确实提出的一个问题是,虽然似乎语音分类(音素)受运动系统的影响很明显,但实际上没有任何证据表明此信息实际上会改变感知类别。例如,也许在我们的感知系统中,我们真正拥有的只是六种不同的类别?只有当您需要将这些声音映射到发音手势时,系统才需要了解前三个与后三个之间存在共性这一事实。这似乎是一个可检验的主张。假设我们找到了一个范式,其中发生了感性学习而不是生产性学习(即,歧视增加了,但生产相对于基准而言却完全没有变化)。然后,我们在一个元音上下文中对某人进行对比训练,看看是否能推广到一种新颖(听觉上不同)的元音上下文。根据您的理论,这种概括不应该发生。

可能与该预测相反的一项数据是 坦妮娅·克拉里奇(Tanya Kraljic)的工作(与布伦南和塞缪尔一起)展示了感知变化,而没有生产变化。当然,在这种情况下,它是对现有类别的调整-在这种情况下,马达的影响已经有时间发挥作用了。

也许更好的情况是研究小说类别的学习。 杰西卡·梅(Jessica 可能e)丹·魏斯 已经表明,在学习新颖的对比时,您可以在各个关节处获得概括。尚未考虑的问题是这种范例是否涉及任何生产学习。幸运的是,有人在我的学生之上 梅利莎·贝斯·贝克(Melissa Baese-Berk)。因此,也许很快我们就会知道,孤立地进行感性学习是否可以导致在听觉上不同的上下文中推广到同一片段的其他出现。

格雷格希科克说过...

嗨,马特,我很高兴看到有人在调查这个问题。我以前曾考虑过要自己尝试按照这些方式进行操作,但从来没有精力去做。我相信,霍华德·努斯鲍姆(Howard Nusbaum)也在这些方面向我提到了一些现有的数据(也许尚未发布)。霍华德,如果您正在“收听”,请填写我们。

拉杰夫·赖扎达(Rajeev Raizada)说过...

/ du /,/ da /和/ di /都位于一条直线上的数字与Harvey Sussman的轨迹方程模型非常相似。这两个维度是F2元音和F2开始。例如 这个数字 由此 1998年BBS论文。 Sussman认为,不同的终止辅音位于不同的元音/起始线上这一事实意味着 毕竟是声学不变性,因此减少了假定获得某种电动机不变性的必要性。只是声学不变性是两个F2特征之间的关系,而不仅仅是一个特征的函数。

哈维·萨斯曼 said...

I have been working on the non-invariance 是 sue in stop + vowel perception for over 15 years. My algorithm derives 'locus equations' from CV productions (e.g. beat, bet, bought, boot bait ... deet, debt, dought, dote, date. doot,...geet, get, got, goat, gate, etc.). When F2 onsets (Hz) (y-axis) 和 their respective F2 vowel midpoints (x-axis)are plotted in a scatter plot for a given stop, uniquely linear 和 tight clusters of x,y data points emerge. A linear regression through these points characterizes each stop place 类别 by slope 和 y-intercept (100% correct classification in discriminate analysis!). The variable F2 transitions, that Motor Theorists have been agonizing over for 60+ years, no longer presents a problem because they have been normalized by virtue of displaying them as a phonetic equivalence class, not token by token as usually displayed.

哈维·萨斯曼说过...

近二十年来,我一直在研究停止+元音感知方面的不变性。我的算法从以[bdg]开头的单词产生,然后是10个不同的元音(例如,节拍,下注,位,日期,债务,溺爱,进门,得到,git,得到..),产生了“位置方程”(LE)。
Onset frequencies of the F2 transition are plotted on y-axis, 和 F2 midpoints of following vowel on x-axis, shown for each stop consonant. Resulting data points in scatterplot are linear, tightly clustered, with R-squared values usually exceeding .90. Slopes 和 y-intercepts of regression lines fit to the data points can correctly classify CVs into stop categories 在 100% accuracy. LEs demonstrate that the variable F2 transitions, that led Motor Theorists to abandon the auditory signal in favor of motor gestures, have been normalized in a self-organized fashion, 在 the level of the stop place 类别.
FM起始/偏移的这些有序和对比分布
提示了在输入信号的合法变化范围内对不变的紧急特征进行编码的神经柱(请参阅谷仓猫头鹰ITD柱)。
仅在F2转换中可见。借助爆破和F3信息,听觉信号足够丰富,足以说明没有运动理论家的“语音伏都教”
使问题蒙上阴影。

格雷格希科克说过...

谢谢拉杰夫和哈维!听起来很棒。 BBS文章是对此工作的最佳参考吗?您要发布参考书目吗?

哈维·萨斯曼说过...

格雷格:

除了BBS文章以外,这里还有对轨迹方程工作的引用:
苏斯曼(2002)"语音类别的表示:听觉列的功能作用" Brain & Language, 80, 1-13.

谢谢

哈维

丹尼尔·基斯柳克 said...

从Levelt的语音感知模型(例如 Cholin等人,2006年)似乎甚至在制作过程中也没有必要重拾音节之间的共同点,因为制作可能是由心理音节调解的。但是,如果关节网络以及大脑其他地方都存在提取模式的能力,则可能会在系统运行过程中提取出常见的运动模式,然后影响感知。即将/ bi /和/ bu /相对于/ di /和/ du /进行分组的能力可能不是条件,而是生产的自然结果。

马特·戈德里克(Matt Goldrick)说过...

Levelt中音节的假设's model doesn't排除亚音节级别的表示(涉及音节访问)。像所有现有的生产理论一样,WEAVER ++体系结构假定在词法检索期间访问分段表示形式。在其他模式中,这说明:单段错误交换(例如,仓门>破损孔)和单段启动效应(例如A.Meyer,1991,JML)。

格雷格希科克说过...

Matt指出,有充分的证据表明存在段级表示形式。这是一个公开的问题,在语音感知过程中该信息在多大程度上被使用。

让·卢克·施瓦兹说过...

大家好你们好,

对评论的一些评论(再次感谢Greg,让我们在这里讨论我们的论点)。

-关于马特’重点:这是很好的选择。那里有两个论点。一个是间接的,另一个是不完整的(对不起!)。第一个证据表明,您在生产中构建元音系统的方式会影响您在感知中构建元音系统的方式(与LucieMénard正在进行的工作)。只是表明资料会干扰。泛化问题有所不同,如果出现新数据,那就好了。另一个参数是功能性的。在我展示给Greg并在他的博客上展示的内容中,我提到如果您能够了解3个椭圆之间的联系,“b”,那么您将有望更好地确定一种新颖的刺激措施。例如,“bi”, “ba” 和 “di” (say “be”)在三个椭圆之间可能大致相等。但是,一旦您了解了全球“category”,识别度会提高,您会知道它是一个“b” rather than a “d”.

-这就是我与哈维的不同之处’的观点(我当然知道,并在我的演讲中引用了)。我发现“linearity”太具体的论点无法解决一般问题,即:如何将各种声学信息链接到一个通用类中?这是运动理论中感知的基本问题。它也是音素的基础,因此声称音素不能是感知运动对象。然后可以说,实际上感知不需要音素(马特’s point), hence my first comment. But the general problem of binding different instances of one single phoneme (variability due to coarticulation) needs in my view more than the 线性度-for-locus displayed by Sussman.

- 为了这“按生产约束”问题,我想我不会说与丹尼尔截然不同的话。

让·吕克

卡尔提克·杜瓦苏拉(Karthik Durvasula) said...

“也许在我们的感知系统中,我们真正拥有的只是六种不同的类别”

该假设可能是不必要的。尚不清楚仅凭听觉手段就不可能进行这种分类。这取决于您对Kluender等人的工作的理解程度:

"Japanese quail can learn phonetic categories." (http://www.citeulike.org/user/kapfelba/article/513490)

They argue that Japanese quail can extract the 类别 of 'd' or 'b' from 音节 presentations, 和 recognise them in novel 音节 contexts.

甚至Kluender等人也不确定鹌鹑正在使用什么声学特性/策略,并且除了“复杂映射”之外,也没有提出其他明确的建议。但是,重点是,仅通过听觉手段,至少在可能的情况下(在不同的元音中)对不同“ d”标记的分类。