2011年2月22日,星期二

Reflections on the syllable as the 感知单位 in speech perception by 唐·马萨罗(Dom Massaro)

鉴于有一些 关于会说话的大脑的有趣辩论 关于言语感知的基本单位,我问 唐·马萨罗(Dom Massaro),是这场辩论中长期的著名人物,他对这个话题发表了评论,并在此处发表。他亲切地同意为我们做到这一点,现在就在这里。谢谢唐!
格雷格

*************

Some reminiscences on how I was led to propose the syllable as the 感知单位 in speech perception. I relied mostly on my writings in the literature rather than undocumented memory.
唐·马萨罗(Dom Massaro)

在我的数学和实验心理学研究生学习期间以及在博士后期间,我开发了一种信息处理方法来研究行为(有关信息处理的品牌,请参见Massaro&Cowan,1993)。这种方法产生了两个重要的含义:1)对行为的近端影响; 2)处理的时间过程是对行为进行完整描述的关键(与简单的环境-行为关系相反)。语音和音乐处理过程中的记忆过程。研究产生了一种感知和记忆过程的理论,揭示了前知觉和知觉记忆存储的性质以及这些存储中的信息干扰规则和遗忘理论(Massaro,1970年)。

在开始我作为教师的职业生涯时,我希望将这种信息处理方法应用于行为的更实质性领域。我举办了为期三年的研究生研讨会,目的是将这种方法应用于语言处理。我们了解到,该领域的先前工作未能解决上述问题,并且自那时以来,我们的理论框架和实证研究就预见了心理学语言学的许多研究,因为当时的研究重点是实时在线处理(请参阅我们的题为《理解语言:言语感知,阅读和心理语言学的信息处理分析》的书籍,1975年)

我自己的研究兴趣也扩展到阅读和言语感知研究。先前的研究仅操纵了这些领域中的单个变量,而我们的经验工作操纵了自下而上和自上而下的信息的多个来源。我和格雷格·奥登(Gregg Oden)合作,建立了感知的模糊逻辑模型(奥登& Massaro, 1978;Movellan&McClelland,2001年),至今一直是我研究的框架。该模型固有的是内存中的原型,因此,重要的是要对语音和印刷中的感知单元采取立场。到那时,我的研究和其他研究表明,音节和字母分别以语音和印刷为单位。这是我使用的逻辑。

语音感知可以描述为模式识别问题。给定一些语音输入,感知者必须确定哪个消息最能描述输入。听觉刺激由听觉受体系统转换,并在知觉前的听觉存储中建立神经系统代码。根据我的反向掩蔽实验和其他实验范式,此存储以感知前的形式将信息保留了大约250毫秒,在此期间必须进行识别过程。识别过程将感知前的图像转换为合成的感知。给定该框架的一个问题是,在语音识别中起作用的模式是什么?这些声音模式称为感知单位。

一个合理的假设是,语音中的每个感知单元在长期记忆中都有一个表示形式,称为原型。该原型包含一系列声学特征,这些声学特征定义了声音模式的属性,就像它们在感知前的听觉存储中一样。呈现每种声音模式时,其相应的声学特征会保留在感知前的听觉存储中。识别过程用于在长期记忆中找到能最好地描述感知前听觉存储中声学特征的原型。识别过程的结果是将声音刺激的感知前听觉图像转换为合成听觉记忆中保持的合成感知。

根据此模型,知觉前的听觉存储一次只能在一个短暂的时间段内保持一种声音模式。向后识别掩盖研究表明,如果在识别第一个声音之前先显示第二个声音模式,则第二个声音模式可能会干扰较早模式的识别。语音中的每个感知单元必须在感知前听觉存储的时间范围内发生,并且必须在下一个发生之前进行识别,以进行准确的语音处理。因此,必须以连续且线性的方式一个接一个地识别语音中的感知单元序列。最后,每个感知单元必须具有相对不变的声音信号,以便可以可靠地识别它。如果与一个感知单元相对应的声音模式在不同的语音上下文中发生显着变化,则识别将不可靠,因为一组声学特征不足以表征该感知单元。已经提出了语音中的小到音素或大到短语的感知单位。

音素肯定是赢得选美演讲的最爱’的感知单位。语言学家将生命奉献给音素,当音素可以通过独特的功能彼此区分开时,音素就显得尤为突出。 Trubetzkoy,Jakobson和“布拉格学派”的其他成员建议,可以用一种独特的特征来区分一种语言的音素。例如,Jakobson,Fant和Halle(1961)提出,一小套正交,二元属性或特征足以区分语言的较大音素。 Jakobson等。只能基于9个独特功能对28个英语音素进行分类。虽然最初仅旨在捕获语言通用性,但独特的特征分析已被广泛用作人类语音感知的框架。该框架的吸引力在于,由于这些特征足以在不同音素之间进行区分,因此音素识别可能会简化为确定在任何给定音素中存在哪些特征的问题。这种方法在最初由Miller和Nicely(1955)提出的发现中赢得了信任,并且由于许多其他人的发现,两种声音共享的特征越多,彼此之间就感觉上混淆的可能性就越大。因此,我们考虑的第一个候选单位是音素。

考虑元音音素的声学特性。与某些音素随时间变化的辅音不同,元音的波形被认为是稳态或类音调。元音的波形以每秒75到200次的速度重复出现。在正常语音中,元音持续100到300毫秒之间,在此期间,元音保持相当规则和独特的模式。因此,根据我们的标准,元音可以充当语​​音中的感知单元。

接下来让我们考虑辅音音素。辅音比元音复杂,其中一些似乎不适合作为感知单元。我们已经注意到,在不同情况下,感知单元必须具有相对不变的声音模式。但是,某些辅音音素在不同的语音环境中似乎具有不同的声音模式。例如,停止辅音音素/ d /在不同的元音上下文中具有不同的声音表示。由于稳态部分对应于元音,因此第一部分(称为过渡)必须负责对辅音/ d /的感知。对应于/ d /声音的声学模式在音节/ di /和/ du /中有很大不同。因此,一组声学特征不足以识别不同元音上下文中的辅音/ d /。因此,我们必须修改我们对感官单位的定义,或者取消终止辅音音素作为候选音素。

辅音音素/ d /不能作为感知单位的另一个原因。在模型中,感知单位以连续和线性的方式识别。但是,研究表明,辅音/ d /在元音也被识别之前就无法被识别。如果在元音之前识别出辅音,那么我们应该能够减少音节中元音部分的持续时间,以便仅识别辅音。实验上,逐渐减小了辅音元音节(CV)中元音的持续时间,并在受试者仅听到停止的辅音时询问对象。在元音几乎被完全消除之前,CV音节被认为是完整的音节(Liberman,Cooper,Shankweiler,& Studdert-Kennedy, 1967). At that point, however, instead of the perception changing to the consonant /d/, a nonspeech whistle is heard. Liberman et al. show that the stop consonant /d/ cannot be perceived independently of perceiving a CV syllable. Therefore, it seems unlikely that the /d/ sound would be perceived before the vowel sound;相反,CV音节似乎被视为不可分割的整体或格式塔。

这些论点导致了这样一个想法,即音节起着感知单位的作用,而不是每个包含两个感知单位。测试该假设的一种方法是在识别掩盖任务中使用CV音节。 Liberman等人发现,当消除大部分元音部分时,受试者可以识别出CV音节的缩短版本。类似于我们对元音感知的解释,识别这些缩短的CV音节也需要时间。因此,如果第二个音节紧跟在第一个音节之后,它将干扰对第一个音节的感知。考虑三个CV音节/ ba /,/ da /和/ ga /(/ a /在父亲中发音),它们仅在辅音音素方面彼此不同。如果在这些声音中发现向后识别掩盖,则将表明在元音出现之前未识别出辅音,并且CV音节也需要时间来感知。

关于CV音节的向后识别掩盖,已经进行了一些实验(Massaro,1974,1975; Pisoni,1972)。 Newman and Spitzer(1987)在后向识别掩蔽任务中使用了三个CV音节/ ba /,/ da /和/ ga /作为测试项目。这些项目是持续40毫秒的合成语音刺激。该项目的前20 ms由CV过渡组成,后20 ms与稳态元音相对应。掩盖刺激是出现了40 ms的稳态元音/ a /。在一种情况下,将测试和掩蔽刺激物呈现给相对的耳朵,即二分法。其他所有程序细节均遵循原型识别掩盖实验。

随着测试和掩蔽CV之间静默间隔的增加,对8个观察者的正确识别百分比显着提高。这些结果表明,在CV转换结束时,甚至在短元音提示结束时,对辅音的识别都没有完成。相反,正确识别CV音节需要在刺激提示后进行感知处理。这些结果支持了我们的假设,即CV音节必须已作为感知单元起作用,因为该音节必须已经存储在感知前的听觉存储中,并且识别涉及将该感知前的存储转换为CV单元的综合感知。因此,识别所必需的声学特征必须定义完整的CV单元。 VC音节也可以用作感性单位(Massaro,1974)。

我们还必须询问,感知单位是否可以大于元音,CV或VC音节。 Miller(1962)认为,两个或三个单词的短语可能会作为一个感知单元。根据我们对于一个感知单元的标准,它必须与长期记忆中的原型相对应,该原型具有一系列描述该感知单元的感知前听觉图像中声学特征的特征。因此,知觉前的听觉存储必须持续一秒或两秒的量级,以保持短语大小的知觉单位。但是,识别掩盖研究通常估计感知前存储的有效持续时间约为250毫秒。因此,感性单位必须在此期间内出现,从而消除了短语“感性单位”。

The recognition-masking paradigm developed to study the recognition of auditory sounds has provided a useful tool for determining the 感知单位s in speech. If preperceptual auditory storage is limited to 250 ms, the 感知单位s must occur within this short period. This time period agrees nicely with the durations of syllables in normal speech.


本实验的结果证明了在两个时间间隔的强制选择任务,相同差异任务和绝对识别任务中的反向掩蔽。一种声音被第二种声音向后掩盖的解释是听觉感觉,在短声结束后仍会继续。短声音的表示形式保存在前感性听觉存储中,以便在刺激完成后声音的分辨率可以继续发生。第二种声音干扰了早期声音的存储,并干扰了其进一步的分辨率。当前的研究为通用信息处理模型的发展做出了贡献(Massaro,1972,1975)。

为了解决声学信号和音素之间的不变性问题,同时坚持大约250 ms的感知前听觉记忆约束,Massaro(1972)提出了音节V,CV或VC作为感知单元,其中V是元音C是辅音或辅音簇。这个假设是建立在FLMP(Oden& Massaro, 1978). It should be noted that CVC syllables would actually be two 感知单位s, the CV and VC portions, rather that just one. Assuming that this larger segment is the 感知单位 reinstates a significant amount of invariance between signal and percept. Massaro and Oden (1980, pp. 133–135)的证据表明,主要的发音影响发生在这些音节之内,而不是在音节之间。可以想象,语音流中的其他信息源可以消除这些音节上任何剩余的不变性。

参考文献
马萨罗(D.W.) (1970)。感知过程和记忆任务的遗忘。心理评论,77(6),557-567。

马萨罗(D.W.) (1972)。听觉感知中的感知前图像,处理时间和感知单位。心理评论,79(2),124-145。

Massaro,D.W。(1974)。语音识别中的感知单位。实验心理学杂志,102(2),349-353。

马萨罗(D.W.) (1975)。理解语言:语音感知,阅读和心理语言学的信息处理分析。纽约:学术出版社。

马萨罗(D.W.)和Cowan,N.(1993)。信息处理模型:心灵显微镜。心理学年度评论,第44卷,第383-425页。
http://mambo.ucsc.edu/papers/1993.html

Massaro,D.W。&Oden,G.C。(1980)。言语感知:研究和理论框架。在新泽西州拉斯(主编)的《言语与语言:基础研究与实践进展》中。卷3,纽约:学术出版社,129-165。

Movellan,J.和McClelland,J. L.(2001)。莫顿-马萨罗信息集成定律:对感知模型的影响。心理评论,108,113-148。

9条评论:

格雷格希科克说过...

那'这是一个非常不错的摘要,Dom。非常感谢!

您为什么认为一直以来都不愿接受音素不是基本单位的想法?

彼得说过...

真的很有趣。
您是否认为辩论中以音素为感知单位方面有令人信服的证据?

格雷格,这是否是NLC2011的一个很好的辩论主题?

认识到包括CVC音节会引起一些不变性问题,是否有实验证据证明它们被视为CV + VC结构?似乎基于您的模型,缩短CVC刺激中的元音长度应会破坏对初始辅音的感知,但这不应'如果将整个CVC音节视为一个单元,则不会发生。

格雷格希科克说过...

Hi 彼得,
是的,这将是一个有趣的辩论主题。但是,我们已经就语音感知进行了排定的辩论(Scott vs. Poeppel-应该很有趣!),因此这一过程必须等待。

我提出了一个问题:语音感知中的音素证据,随后进行了有趣的讨论-共有38条评论!我的基本结论:确实没有令人信服的证据。你可以看 这里.

出租精灵说过...

不错的文章,感谢您提供的信息。

未知说过...

对不起,我还没有’t对我所邀请的博客上的评论做出了较早的答复。格雷格问为什么为什么这么多人不愿意接受音素不是基本单位的想法?一世’不仅在生活中而且在科学探究中都是确认偏差的忠实拥护者列夫·托尔斯泰(Leo Tolstoy)有很好的观察结果,很好地总结了这一点。

我知道,大多数人,包括那些容易遇到最大复杂问题的人,即使强迫他们承认他们乐于向同事解释的结论的虚假性,也很少接受甚至最简单和最明显的真理。他们自豪地向他人传授知识,并将这些知识一步一步地编织到自己的生活中。

彼得’缩短CVC中的元音的想法是一个很好的考验。我不’尚不知道这样做是否成功,但可以预测的是,当元音长度很短时,第一个C将被第二个C破坏。我讨论了在VCCV语音中屏蔽C的类似实验(在我们的理解语言书,第134-136页)。在这种情况下,如果关闭时间非常短,则第二个C会干扰对第一个C的识别。

未知说过...

不错的文章,Dom。而且,这也是一张不错的图片!

依云说过...

第一个原因(在不同情况下声学效果不同)和第二个原因(/ d /'(在元音被识别之前不能被识别)因为不相信音素是一个感知单位,这似乎基本上是说对于模型中的一个感知单位来说,缺乏不变性是一个问题,在该模型中,感知单位需要被顺序地完全识别。所以也许更好的问题是,为什么我们会认为在语言上是连贯的"perceptual unit"?

mkv播放器说过...

Dom,谢谢您的这篇文章。
It'结构合理,非常有趣。

说过...

感谢他的详细文章Dom。作为一名语言学家,我读音素真的很有趣。