2009年8月25日,星期二

语音神经科学研究中的“分类感知”

旧的言语现象不会消失,它们只会变成神经科学研究。
-安德鲁·乐透

The phenomenon of categorical perception appears to be riding the coattails of the resurgence of interest in motor theories of 言语感知. Back in the motor theory heyday, categorical perception was all the rage. Listeners appeared to perceive speech sounds differently from non-speech sounds, i.e., categorically, and this was taken as evidence for the motoric nature of the 言语感知 process. The argument was something like this... Acoustic signals vary continuously. Articulatory patterns are categorical (/b/ is always produced bilabially). Perception mirrors the categorical nature of articulation. Therefore we perceive speech via our motor system.

这种观点很快出现了问题。发现非人类的动物,因此说不说话的动物,例如龙猫和鹌鹑,表现出对语音的绝对感知。尚未具备表达语音能力的婴儿也表现出绝对的感知力。还证实了对非语音声音的绝对感知。此外,如果要求听众评估刺激对给定类别的表现程度,而不是要求他们做出二元决策,那么语音感知将是连续的。

Interest in categorical perception (CP) faded -- except in neuroscience where the pace of CP studies seems to be accelerating. 这里's just a few from this year:

MöttönenR,沃特金斯大学。咬合架的运动表征有助于
对语音的绝对感知。神经科学杂志。 2009年8月5日; 29(31):9819-25。

Salminen NH,Tiitinen H,May PJ。建模语音的绝对感知
听起来:迈向生物学合理性的一步。认知影响行为神经科学。 2009年
9月; 9(3):304-13。

Clifford A,富兰克林A,Davies IR,HolmesA。7个月大婴儿的颜色分类感知的电生理标志物。脑认知2009年

普拉瑟·JF,诺维奇·S,安德森RC,彼得斯·S,穆尼·R。 Nat Neurosci。 2009年2月; 12(2):221-8。

我暗示 先前 未能在分类感知研究中使用信号检测分析方法可能污染了CP研究的整个领域。 洛里·霍尔特(Lori Holt) 最近为我指出了Schouten等人的论文。 2003年,标题为“我们所知的分类知觉的终结”。正是我在暗示该论文的要点:感知只是分类的,因为用于度量它的任务存在固有的偏见。

传统的分类感知实验测量歧视任务中固有的偏见
(Schouten et al.2003,p.71)


这里's another interesting quote from this paper:

尽管有一个明确的实验定义,这是一个吉利的开端。但实际上,分类感知仍然是一个定义不清,甚至未定义的概念,可用于支撑各种有时互斥的主张,例如支持或反对运动理论(第72页)


这是一篇有趣的论文,值得仔细研究。但是回到偏见...

让我用从文献中提取的一些分类感知数据非常简单地进行说明。下图显示了使用GA-DA连续体进行CP实验得到的真实数据。任务是明确分类的:要求受试者决定刺激是GA还是DA的示例。确定受试者是否感知语音听起来不是一件好事,因为它迫使他们进行语音分类。如Schouten等。简而言之,“ ...如果任务的性质迫使受试者使用标签策略,则类别感知将是已成定局的结论”(第77页)。尽管如此,使用d-prime量度显示出与标准量度大不相同的情况。垂直访问是GA响应的比例,水平轴是沿连续体的各种刺激。感知看起来很好分类。



Now plot the same data in d-prime units. To do this you can calculate d' for each pair of adjacent stimuli (how well are Ss discriminating Stim1 from Stim2, Stim2 from Stim3, etc.). Plotted 这里 是累积的'. We should see discontinuities in the cumulative d'. Instead we see a more continuous function.



看看Lori Holt和Andrew Lotto的论文,我在 以前的帖子 以及Schouten等。文章中对分类感知的本质提出了更为批判的观点。然后总会有长期的CP怀疑论者 多米尼克·马萨罗(Dominic Massaro)。他在该主题上的工作也值得一看。

What are the implications for neuroscience studies of 言语感知? Well, if CP is nothing more than 任务效果s and/or subject bias, then by using CP paradigms to map 言语感知 systems, all that is being mapped is task strategies and/or subject bias. No wonder all these studies find effects in the frontal lobe!

Schouten,B.(2003年)。我们所知道的分类感知的终结 言语交际,41 (1),71-80 DOI: 10.1016 / S0167-6393(02)00094-8

25条评论:

依云说过...

...也许我'我在这里误会你,但我们不't "确定对象是否感知到语音分类" from the shape of the identification curve, but rather from the degree to which the discrimination data match it (ie peak in discr. 在 cat. boundary). I guess you are right that you can infer something like discriminability from the id curve, but is there 真实ly an argument to be made from this? Schouten et al don'无论如何不要说那个话。他们的问题不在于id任务,而是'事实是,不同的歧视任务或多或少会带来分类错误。个人资料。但这至少在1973年就为人所知(例如Pisoni)。

格雷格希科克说过...

是的,Ewan完全正确。一世'我提出了与Schouten等人不同的观点。在CP世界中通常不会出现这种情况。正如您所指出的,CP并非由ID曲线的形状决定,因为ID曲线被认为是监听者的直接量度'的类别。歧视衡量这些类别之内和之间的刺激的听觉感受。如果ID和Disc匹配,则CP保留。 Schouten等。表明他们没有'与某些任务匹配。

我的观点支持一步。如果明确分类的ID曲线是连续的,则CP会被完全破坏。我说得通吗

拉杰夫·赖扎达(Rajeev Raizada)说过...

作为对/ ba /-/ da /连续体的分类感知的fMRI研究的一部分,我使用d-prime(图2)和正则百分比校正(图1)绘制了相同的不同曲线。它们看起来几乎完全一样。那里'真正提高了对跨越类别边界的差异的敏感性,'不仅仅是标准转变。我相信其他人也发现了类似的d-prime结果。本文表明,对fMRI信号反映出对类别边界的敏感性,尤其是在左上颌上回。该文件的PDF是 这里.

格雷格希科克说过...

嗨Raizada,
谢谢您指出我的论文。一世'我才刚刚开始研究这个CP的天堂'尚未详细查看最近的所有工作。一世'我很高兴看到您举报了d'. I'很快将仔细查看您的数据!

我发现这很有趣,尽管你不知道'在听觉皮层中看不到任何CP效应!这是为什么?我推测这是因为CP不是一种感觉现象,而是一种在更高层次上起作用的东西。

格雷格希科克说过...

我的意思是拉杰耶夫!抱歉。 :-)

拉杰夫·赖扎达(Rajeev Raizada)说过...

:-)
关于名字/姓氏混合没有问题。我的名字有点令人困惑。 :-)
人们通常称我为Raj。

我同意您的看法,即对语音的绝对感知可能是比主要听觉皮层通常处理的更高层次的过程。在本文中,我们绘制了受试者的神经测量曲线'解剖学上的赫氏'颞叶回旋区和ROI,而这些区域没有 '似乎对类别边界显示出很大的敏感性。它们确实显示出一点点,但比上弓回回少得多。

凯文·H said...

我认为您对数据的处理有点过分。你说这是一个'task effect',但是如果这两个不同的任务由两个独立的神经系统驱动,该怎么办?或同一基础组织的两种不同行为。然后呢's more of a question of which system is 真实ly doing 言语感知, which seems more analogous to to the CP task than the discrimination task.

格雷格希科克说过...

嘿拉吉,
我没有'还没有读过这篇论文(到目前为止只是略读了一下),但是我确实注意到听觉区域没有效果-一个有趣的结果。 SMG活动可能是颞后部区域的Spt。此激活通常会错误地定位到SMG。再次感谢您对我们非常好的论文的注意...

格雷格希科克说过...

凯文,你好
您触及了问题的核心。如果这两个不同的任务是由两个独立的神经系统驱动的,那又会怎样呢?我们怎么知道WHICH系统是"speech perception"我们都想了解的系统?这些年来,David P.和我一直争论的是"real" 言语感知 system is the one that we use in ecologically valid contexts -- when we are processing speech for comprehension. If we find that a different system is operating when we comprehend speech versus when we ask subjects to decide whether they heard a ba or a pa, then we should disregard the later as a task-induced process that is not relevant to the process we 真实ly want to understand. Of course, if you are interested in the neural basis of "pa vs. ba识别/歧视"然后一定要研究该系统。它'可能与阅读有关...

凯文·H said...

我想我只是不'我们看不到ba和pa之间的分类决定对于语音理解来说不是至关重要的。

如果有两个句子的含义截然不同,但被一个音节分隔,该怎么办?"I like the train" vs "I like the rain"是我能想到的最好的选择,但是我'm sure there'这是一个更好的例子。如果您想通过参数改变两个音节之间的差异,我敢打赌,理解力比判别模型更接近CP模型。

是否有任何研究试图将CP框架置于如此生态有效的环境中?

格雷格希科克说过...

这里'为何会有所不同:下一次您与某人交谈时,请停下来询问他们是否在最后一句话中说出了音节ba。他们不会知道的。他们会知道您说了什么,但不会知道声音是什么。现在请他们听您讲话中的ba。他们将能够做到这一点,但需要有意识的努力,即招募通常在语音理解中不使用的机制。我们认为单词不是声音。

因此,问题是,当我们使用标准方法测试CP时,是否要测量Ss对语音的声音感知?还是我们正在测量有意识地关注语音信息所涉及的其他机制。一世'我暗示可能是后者。

我喜欢你的实验。为什么不'你运行它吗?您将必须确保使用大量的句子和答案选项,以便主题不要't quickly learn that it is just a 言语感知 task and they only need to 在 tend to one speech sound.

洛里·霍尔特(Lori Holt) and 安德鲁·乐透 have done some work on 言语感知 in context. Not exactly comprehension (that I know of) but worth looking 在 .

未知说过...

不错的帖子,但是:

"Listeners appeared to perceive speech sounds differently from non-speech sounds, i.e., categorically, and this was taken as evidence for the motoric nature of the 言语感知 process."

并不是挑剔,而是CP实际上被解释为语音是'special',是原始MT的其他要求之一。它与语音处理(参见人脸处理)的模块化性质有关,而与该处理如何进行的细节有关。也许有关语音处理的模块化性质的讨论也会在某个时候返回;-)

拉杰夫·赖扎达(Rajeev Raizada)说过...

格雷格'关于上颌神经回激活是否实际上可能在颞颞平面中的问题:我确实通过手动追踪受试者来研究了一下' planum temporale ROIs, and then comparing the supramaginal ROI to them. From that comparison, it 真实ly does look like the activation was above the Sylvian fissure, although I agree that fMRI will always leave a fair bit of uncertainty about such things. That figure didn'不要进入纸张,但是有一张幻灯片 这里.

格雷格希科克说过...

嗨,帕蒂,
Nit picky is good! You are correct that CP was used to argue that speech is 特别, but it was also part of the argument for the idea that we perceive speech in terms of articulation. 这里'引自Liberman等人。 1967心理学评论74:431-461

"如本文前面所述,即使声音信号连续变化,对这些声音的感知也是绝对的或不连续的。很明显,所需的发音也将是不连续的。使用/ b,d,g /,我们可以沿连续体改变声音提示,实际上,这相当于在其长度上的各个点闭合声道。但是在实际的语音中,关闭是通过不连续或完全不同的手势完成的:通过嘴唇表示/ b /,用舌尖表示/ d /,用舌后部表示/ g /。在这里,知觉似乎也与发音有关。" (p. 453).

格雷格希科克说过...

感谢Raj的身影。一世'我仍然不确定。我认为您是在某个标准化的空间中进行的?我们发现的问题是,仅通过标准化单个主题即可'将数据发送到Talairach或MNI,激活重点可以从Sylvian裂缝内跳到其上方。归一化是问题,而不是组平均。一世'很快将发布一个示例。

拉杰夫·赖扎达(Rajeev Raizada)说过...

数据确实在空间上进行了标准化,这始终是一项不确定的业务。我想我们'同意:我对激活在西尔维安的哪一侧信心不足。那's why I didn'不要把那个数字放在纸上! :-)

本文的主要重点是进行哪种类型的信息处理,而不是信息的处理位置。什么'对我来说,关于SMG ROI的有趣之处在于它似乎专门放大了跨越类别边界的刺激差异。它's not 真实ly crucial which side of the fissure it'继续,尽管很有趣。 :-)

凯文·希尔 said...

经过更多考虑之后,我想我需要对您的论点进行澄清。

显然,语言(相对于语音)是绝对的。如果你想到一个'book' or a 'cook' you are thinking of two clearly defined objects with well defined boundaries. No one expects a 书 to run a restaurant.

很明显,在我们耳中传来的声音信号与完整的语言理解之间的某个时刻,必定会发生某种形式的分类,但是问题是在哪里/在什么水平上。

似乎可以在三个级别上进行此分类:音素,单个单词或整个句子。

因此,在我看来,从最保守的意义上讲,您的论点是,当我们理解完整的句子时,没有单个音素的分类。这是正确的吗?

格雷格希科克说过...

凯文,你好
你是对的。有语言类别。甚至有音素类别-就像植物或动物的类别一样。但是仅仅因为我们将橡树和枫树归为树木,'并不意味着视觉系统可以'告诉区别。我的建议是,音位类别和所谓的语音分类感知现象不是听觉系统的属性。即使在类别之间,我们也可以察觉到差异。您只需要正确的任务和正确的措施即可看到它。

凯文·希尔 said...

也许你的主张是'就像我想的那样极端。我以为您想说些有关我们如何从语音中提取含义的信息。我们可以感知到差异的想法是't 真实ly related to the transfer from speech to semantics.

您是否同意意义的任何传递都涉及将声音分组为音素?

更具体地讲,如果您要逐渐调整ga和ba之间的频谱差异,那么语音的感知含义将更像是分类任务,而不是鉴别任务?

格雷格希科克说过...

我的想法是,如果呈现一个从一个词到另一个词(例如,bin-pin)的连续体,主题将在连续体的末尾听到明确的词,并且随着朝向中间而不断变化。因此,如果允许他们以5分制对刺激进行评分(1 = bin,2 =模糊,3 = pin),您将获得一个不错的连续函数。

现在关于具体的音素类别,我实际上不知道'认为我们大部分时间都没有从感知中提取音素类别。相反,我认为一个更基本的单元是音节。

卡尔提克·杜尔瓦苏拉说过...

嗨,格雷格,

只是重新阅读了这个旧帖子。我注意到我不'不太了解以下内容:

1)d到底是多少'从Ga vs. Ba鉴定实验中计算出的刺激1与刺激2(刺激2与刺激3 ...)的可分辨性值是多少?

2)方法'值被绘制,我们是否可以理解刺激1和刺激2是"less discriminable"而不是刺激9和刺激10?如果是这样'结果很奇怪。它没有't来自任何两个相邻刺激之间的分类或简单声学差异。

显然,我在这里缺少一些关键信息:)。

格雷格希科克说过...

That 是累积的'因此,您需要查看1与2之间的差异,以及9与10之间的差异。在所有范围内,差异都是相同的(=线性增加)。这表明是非分类函数。

未知说过...

是累积的' just adding up d'从每个成对比较?即d'(stim1 vs stim2),然后按d'(stim1 vs.stim2)+ d'(stim2与stim3),等等?我只是使用单个主题数据集进行了此操作,但仍然获得了一个类似于VOT函数的比例的阶梯状函数。有点像Raj在他的论文中。

格雷格希科克说过...

嗨,阿里德,
对,那是正确的。我认为如果不这样做,您将获得类似阶梯的功能't非常密集地采样边界区域。如果您在该领域有很多步骤,则可能会连续。无论如何,这是我的猜测。

未知说过...

亲爱的格雷格,亲爱的大卫,
我喜欢神经科学领域对分类感知的新兴趣。
但我来自传统的实验语音学领域,对我而言,是否要进行分类感知的决定需要识别和判别实验,并需要计算"基于个人识别分数的歧视率".
刺激被认为是更加分类的,测量和计算的歧视之间的差异越强。
看我的论文:
Kroeger等。 2009年:
建立语音产生和感知的神经计算模型。语音通讯51:793-809