2007年5月17日,星期四

戴维斯&约翰斯鲁德的好评新

马特·戴维斯(Matt Davis)和英格丽德·约翰斯鲁德(Ingrid Johnsrude)在杂志上发表了一篇非常周到的新评论:“听声音:自上而下对试听和言语感知之间的关系的影响” 听力研究。该论文已经可以在该期刊的网站上找到。

Matt和Ingrid从感知研究和认知神经科学的角度回顾了语音感知的几个重要的自下而上和自上而下的方面。他们回顾了四种现象:分组,分割,知觉学习和分类感知。本文为自下而上的分析中自上而下的因素之间细微的相互作用提供了有说服力的案例。

确实,他们的评论与Hickok&Poeppel(2007)的评论以有趣的方式融合在一起,并且我(Poeppel),Bill Idsardi和Virginie van Wassenhove即将发表的另一篇评论:“在界面上的语音感知生物学和语言学研究”,在 皇家学会的哲学交易.

我认为在这三篇论文中都有相当多的报道-成功的模型将感知,计算和大脑联系起来 必须 解释了我们需要的自下而上过程(出于逻辑上的必要性)与我们(我们的大脑)带来问题的自上而下过程(通过运气该死)之间的微妙但有原则的相互作用。

这是新闻吗?好吧,尽管可能没有问题,但当然仍然存在争议……但是,在我看来,关于自动语音识别的研究并不是特别受人脑实际上在感知中执行的过程所了解。 (毋庸置疑,神经形态工程方法是一个例外。)

4条评论:

菲尔·莫纳汉说过...

“我们已经在听觉系统的各个级别之间记录了广泛的联系网络(...),可以支持一种机制,通过这种机制可以对语音进行更高级的解释。 经过测试 针对传入的听觉信息。”(第11页)

嗯...听起来像是一个综合分析模型...

“语音理解很可能会通过调和 多个时间尺度,...”(第13页)

多个时间范围...难怪你们对此评论这么舒适;-)

虽然,也许有人可以帮助我,因为我不确定在此段落之前,在结论之前的句子中,在语音感知/识别中他们提到过多个时间尺度的想法(或作用)的地方。

格雷格希科克说过...

实际上在很多方面都不那么舒适。行为证据审查非常好,因为它们为自上而下的影响对语音处理等提供了强有力的证明。但是我认为,强调正面系统是这种自上而下影响的主要来源。例如,在处理语音处理的自上而下的词汇和上下文约束方面,有很多空间是适当的。为什么这种自上而下的影响不能来自颞叶系统(很多人认为该系统支持词汇语义处理)而不是额叶系统?

意见分歧的另一点是语音感知与语音产生之间的联系。在这方面,我肯定有很强的联系,但是我认为语音生产系统在语音感知中起着重要作用的证据丝毫没有。如果您查看该部分提供的证据,那么所有这些都与语音对语音产生的影响有关:学习谈话,听觉反馈对语音产生的影响,言语工作记忆,调整生产模式以匹配环境中的说话者。我全心全意地购买了这些数据,证明了对生产的感性影响,但是对于反向影响的证据却很少。

同样,解剖部分过分强调了正面对语音感知的贡献。他们讨论的效果很有趣-语音下降会导致额叶和颞部的激活增加-但是我们怎么知道这不仅是注意力的影响,还不是他们在行为举止中讨论的那种自上而下的影响评论?

他们还引用了Hickok&Poeppel 2004的建议,即“语音感知过程中的运动活动反映了发音表达的激活,使听者可以得出说话者的预期手势。”不确定大卫,但我不相信。我们实际上所说的是“语音感知和语音产生之间存在紧密的关系……[但是]将语音的感觉表示映射到运动表示上可能不是语音感知的自动结果,并且对于听觉理解力。” (第91页)

刘爱玲说过...

I was struck by their discussion of an auditory echoic memory buffer, which I guess is part of the HP model too. I hadn't thought about it before, but the existence of that kind of buffer is relevant for the arguments for purely bottom-up models. In me and Phil's review of those arguments (http://ling.umd.edu/~ellenlau/LING621.Final.pdf), our impression was that one of the things that made the MERGE people most uncomfortable about top-down models like TRACE was the idea that there was no place in the system that preserved a record of the 'true' input. In the visual case, I think that is a real possibility, since there are a number of studies showing top-down impacts on activity as low down as V1. But in the auditory case, where you need a buffer for independent reasons because your signal is extended over time, maybe an interesting byproduct is that you do get to temporarily keep this record of the 'true' input.

如果是这样,它将使两种模态的综合分析计算真正不同,在一种情况下,b / c您可以继续更新顶部生成的候选集并与“底部”的实际输入进行比较,在另一个方面,例如TRACE,您将在顶层和底层同时更新活动,直到它们融合为止。除非有一些原始的视觉缓冲,否则我们还没有发现...

匿名 said...

当我听到功能性幻觉时,至少语音产生系统在语音感知中起主要作用,因为感觉结果(我的内在声音)用于引导对非言语外围声音的注意力,使我在替代它时听到我的内在声音我内在声音的音调。

如您所知,我不知道´我对语音感知了解不多,这更多是我的想法,因为我从听到这样的声音中获得的经验。

More about my experiences of functional auditory hallucinations and the need to understand...:http://www.freewebs.com/stefan661/

我的电子邮件地址:[email protected]

斯蒂芬·安德森(Stefan Andersson)