这项由斯坦福大学领导的研究发表于2023年的《自然·神经科学》期刊,论文编号为DOI: 10.1038/s41593-023-01468-4。研究团队将深度学习技术与神经科学结合,系统性地揭示了视觉皮层神经元如何对自然图像作出反应,为理解大脑视觉处理机制提供了一套全新的计算框架。

很多人都好奇一个问题:当你看到一只猫的时候,你脑子里究竟发生了什么?更具体一点——那些负责"看东西"的神经细胞,是怎么把眼睛接收到的光信号,变成"哦,这是一只橘猫"这样的认知的?这个问题困扰了神经科学家将近一个世纪。斯坦福大学的这支研究团队,选择用人工智能这把"钥匙",去撬开大脑视觉皮层的"锁"。

一、大脑的"收信室":视觉皮层神经元到底在做什么

要理解这项研究,得先搞清楚视觉皮层神经元这个概念。你的大脑后部有一大块区域,专门负责处理你眼睛看到的东西,这块区域叫做视觉皮层。其中的神经元,可以理解成一个个"收信员"——每个收信员只负责接收某种特定类型的信件。有的收信员只对水平线条感兴趣,有的只对运动的物体敏感,有的则对特定的颜色或形状有反应。

科学家们早就知道这件事,但问题在于:大脑里有几十亿个这样的收信员,每个人的"喜好"都略有不同,而且当你看一张复杂的自然图片时,到底是哪些图片特征触发了哪个收信员,实在难以捉摸。

传统研究方法有点像蒙着眼睛猜谜——研究者给动物或人看一张简单的条纹图案,记录神经元的反应,然后推测它的喜好。这种方法在实验室里还算凑合,但真实世界的视觉信息复杂得多,远不是几根条纹能代表的。斯坦福团队的切入点就在这里:他们决定用深度神经网络这个工具,来替神经元"画一幅自画像"——弄清楚每个神经元最喜欢的图像是什么样的。

二、借AI之眼:用深度神经网络当"翻译"

深度神经网络,可以理解为一种受大脑启发设计的计算机程序。它之所以叫"深度",是因为它有很多层——每一层负责处理不同层级的信息,从最基本的边缘、纹理,到复杂的物体形状,再到完整的物体概念,层层递进,有点像工厂里的流水线,每道工序处理完再传给下一道。

研究团队使用了一类特别的深度神经网络,叫做卷积神经网络(CNN)。这种网络在识别图像方面表现出色,更关键的是,它的内部结构和生物大脑视觉皮层的层级结构高度相似——这并非偶然,因为CNN本来就是受视觉神经科学启发而设计的。

团队的核心思路是这样的:既然CNN和大脑视觉皮层在结构上有相似之处,那么CNN内部某一层的某一个"计算节点",可能就对应着大脑里的某类神经元。如果能找到这种对应关系,就可以用CNN来预测真实神经元的反应,再反过来找到"最能激活某个神经元的图像"。

这个过程有点像找一把锁的配套钥匙:你先制作一把通用模型钥匙(CNN),通过大量测试发现它开某把锁特别顺手,然后再用这把模型钥匙反推出锁的内部结构。

三、实验设计:给猴子看图,记录神经元的"心跳"

为了验证这个思路,研究团队在真实动物的神经元上做了实验。他们在猕猴的视觉皮层中植入了精密的电极,这些电极能够记录单个神经元在受到视觉刺激时的放电情况——每当一个神经元"兴奋",就会产生一次电信号,研究者将其称为"脉冲"。

接下来,研究人员给猕猴展示了大量的自然图像和人工生成的图像,涵盖了各种类别:风景、动物、物体、面孔、随机纹理,种类繁多。与此同时,电极忠实记录下每幅图像对应的神经元反应强度。这个过程有点像做问卷调查:每给神经元看一张图,就问它"你有多喜欢这张图",然后把所有答案记录下来。

收集了足够多的数据之后,研究团队用这些数据来训练一个预测模型。这个模型的任务只有一个:给任意一张图像,预测目标神经元会有多强烈的反应。换句话说,他们在努力搭建一座"翻译机器",能把图像语言翻译成神经元语言。

四、"最爱图像"的生成:让AI替神经元说出心里话

有了这个预测模型,团队就进入了最令人兴奋的部分——找出每个神经元最喜欢的图像,即"最优刺激"(Optimal Stimulus)。

这里用了一种叫做"梯度上升"的技术。简单解释一下:如果你把神经元的反应强度看成一座山,图像的各种可能变化看成在这座山上的各个位置,那么"梯度上升"就是沿着山坡往最高处爬。每次调整图像的一点点像素,让预测出的神经元反应稍微变强一些,如此反复迭代,最终爬到山顶,生成一张能让该神经元最大程度兴奋的图像。

不过,直接对原始像素做梯度上升,往往会产生一些看起来非常奇怪的噪点图案,根本不像任何真实存在的东西。这就好比你让一个没见过世面的人画出"最美的风景",结果他画出一堆乱糟糟的色块。

为了解决这个问题,研究团队引入了一个额外的约束条件——他们用一个叫做生成对抗网络(GAN)的工具来规范生成图像的"真实感"。GAN可以理解为一个"艺术品真伪鉴定师",它一直在检查生成的图像是否看起来像真实存在的自然图像,只要不像,就会给出惩罚。通过这种方式,最终生成的图像既能最大程度激活目标神经元,又能保持真实自然图像的外观。

五、发现了什么:神经元的"审美偏好"超乎想象

当研究团队生成了大量神经元的"最爱图像"之后,他们得到了一系列令人着迷的发现。

首先,视觉皮层不同区域的神经元确实有着截然不同的"审美偏好"。位于视觉皮层较低层级区域(称为V1、V2区)的神经元,偏爱的图像相对简单,主要是特定方向的边缘、条纹、颜色对比等基础特征。而位于更高层级的IT区(下颞叶皮层)的神经元,则对复杂得多的图像模式感兴趣,比如特定的纹理组合、物体的局部形状,甚至有些神经元对面孔的某些特征有非常强烈的偏好。

这种层级差异验证了一个在神经科学界已有相当共识的理论:大脑处理视觉信息的方式是"从简到繁"的流水线模式。低层神经元负责检测基础特征,高层神经元则将这些基础特征组合成更复杂的概念。这和前面提到的CNN的工作方式几乎如出一辙,这种高度的结构对应性也从侧面证明了用CNN来模拟大脑视觉系统的合理性。

其次,研究发现了一个更微妙的现象:即便是同一个脑区内的相邻神经元,它们的"最爱图像"之间也存在相当大的差异。这说明视觉皮层的神经编码远比想象中精细。每个神经元都像是一个有独特审美的艺术鉴赏家,而不是一群品味雷同的路人。

六、模型预测能力的测试:AI翻译到底准不准

光有理论还不够,研究团队还对他们建立的预测模型进行了系统性的精度测试。他们的测试方法类似于"盲测":先用部分神经元反应数据训练模型,然后拿出模型从未见过的新图像,让模型预测神经元的反应,再和真实测量的神经元反应比对。

结果表明,对于视觉皮层较低层级的神经元,模型预测精度相当高。这好比一个学生背熟了简单课文,回答基础问题时表现优秀。但对于更高层级的神经元,预测精度有所下降——因为高层神经元处理的信息更复杂,偏好更难捉摸,就像考试题目突然变成了哲学辨析,学生就没那么游刃有余了。

不过整体来看,预测精度已经达到了令研究者满意的水平,足以支持后续的"最优刺激"图像生成实验。这意味着,至少在相当程度上,他们建立的AI模型已经能够"懂得"神经元在想什么。

七、反向验证:生成的图像真的能激活神经元吗

生成了"最爱图像"之后,研究团队做了一个关键的验证实验。他们把这些AI生成的"最优刺激"图像真正展示给猕猴看,同时记录目标神经元的实际反应,看看这些图像是否真的比普通自然图像更能激活该神经元。

验证结果是肯定的。对于大多数测试的神经元,AI生成的"最优刺激"图像确实引发了比随机自然图像更强烈的神经元反应,有时候强出一大截。这个结果相当于一次漂亮的"实战检验"——理论预测和现实相符,说明这套方法是真实有效的,而不只是纸面上的数字游戏。

这个验证环节的重要性不亚于发现本身。因为在神经科学研究中,理论和实验相符并不是理所当然的事情——大脑比任何人工系统都复杂得多。这次验证的成功,为后续更大规模地将AI工具应用于神经科学研究奠定了信心基础。

八、从猕猴到人类:这套方法能否迁移

自然地,读者可能会问:这些都是在猕猴身上做的实验,和人有什么关系?

这是一个合理的担忧,研究团队也认真对待了这个问题。猕猴的视觉皮层结构与人类高度相似,在神经科学研究中,猕猴一直是最常用的视觉研究模型动物。研究团队在论文中详细讨论了这种相似性提供的外推可能性,同时也明确指出了直接将结论推广到人类时需要谨慎的地方。

此外,团队还探索了在人类被试中应用类似框架的初步可能性。由于在人类身上植入电极有严格的伦理限制,他们主要借助功能性核磁共振成像(fMRI)来间接测量人类视觉皮层的活动。fMRI的时间和空间分辨率虽然不如电极记录精细,但它提供了一种无创的观测窗口。这部分工作还属于探索性质,结论相对初步,但方向已经指向了人类视觉神经科学研究的新可能性。

九、这项研究意味着什么:打开了一扇新的门

说到底,这项研究最重要的贡献不只是具体发现了哪些神经元喜欢什么图像,而是提供了一套可复用的、系统性的研究框架。

在此之前,神经科学家们研究神经元的偏好,基本上靠"碰运气"——设计一批图像刺激,看哪张更有效果,效率极低。现在有了这套AI驱动的框架,研究者可以更系统、更高效地探索神经元的特性,甚至可以针对特定神经元"定制"最有效的刺激图像,大大加速神经科学研究的进程。

从更长远的视角看,这种框架对于脑机接口技术、视觉假体(帮助盲人重获视觉的设备)的开发,以及理解视觉相关疾病的神经机制,都有潜在的应用价值。以视觉假体为例,如果能精确知道人工电信号如何激活视觉皮层神经元,就能更精准地设计假体的刺激模式,让盲人看到的"人工视觉"更接近真实视觉体验。

归根结底,这项研究讲述的是一个AI和神经科学"互相帮助"的故事。神经科学给了AI灵感——CNN的结构本来就是受大脑启发的;而AI反过来,帮助神经科学家更清晰地看懂大脑在做什么。两者在这里形成了一个美妙的闭环。

当然,大脑的奥秘远未被解开。这项研究就像在一片茂密森林里开出了一条小径——有了方向,有了工具,前路还很长,但至少再也不是漫无目的的摸索了。如果你对这些内容感兴趣,可以通过DOI: 10.1038/s41593-023-01468-4找到这篇发表在《自然·神经科学》上的完整论文,原文中有更多技术细节和丰富的实验数据值得深入探索。

Q&A

Q1:视觉皮层神经元"最优刺激"图像是怎么生成的?

A:研究团队先用真实神经元的反应数据训练一个预测模型,让AI学会预测任意图像对神经元的激活强度。然后通过一种叫做"梯度上升"的技术,不断调整图像像素,让神经元的预测反应越来越强,同时用生成对抗网络(GAN)保证图像看起来真实自然,最终找到能最大程度激活该神经元的图像。

Q2:用猕猴做实验得出的结论能适用于人类吗?

A:猕猴的视觉皮层结构与人类高度相似,因此研究结果具有一定参考价值。但研究团队强调,直接将结论推广到人类需要谨慎。他们也初步探索了用功能性核磁共振成像(fMRI)在人类身上应用类似框架的可能性,这部分研究还属于早期阶段,尚无完整定论。

Q3:深度神经网络为什么能模拟大脑视觉皮层的工作方式?

A:卷积神经网络(CNN)在设计之初就受到了大脑视觉皮层层级结构的启发,二者都是"从简到繁"地处理视觉信息——低层处理边缘和纹理,高层处理复杂形状和概念。这种结构上的相似性,使得CNN能够在一定程度上"模拟"神经元的反应规律,从而用于预测真实神经元对不同图像的反应强度。