中国科技核心期刊      中国指挥与控制学会会刊     军事装备类重点期刊
研究论文

AI+BCI硅基碳基融合新智能的开始

  • 尹奎英 1 ,
  • 遇涛 2
展开
  • 1 南京电子技术研究所, 江苏 南京 210000
  • 2 首都医科大学宣武医院功能神经外科, 北京 100053

尹奎英(1977—),女,研究员,博士,博士生导师,开创了雷达与脑机融合技术先河,创建人脑机实验室,提出并实现了脑电视觉重构、人脑机三体雷达技术、全脑神经导航、灵犀脑控序列等智能雷达新技术,发表论文80余篇,出版专著两本。

Copy editor: 张培培

收稿日期: 2024-03-10

  网络出版日期: 2024-05-29

Beginning of AI+BCI silicon-based carbon-based fusion new intelligence

  • YIN Kuiying 1 ,
  • YU Tao 2
Expand
  • 1 Nanjing Institute of Electronics Technology, Nanjing 210000
  • 2 Capital Medical University Xuanwu Hospital Functional Neurosurgery, Beijing 100053, China

Received date: 2024-03-10

  Online published: 2024-05-29

摘要

我们正迎来人类发展的第四次浪潮,正处于从信息社会向人类社会-物理世界-信息空间融合的智能社会的关键转型期。近年来,计算和信息技术飞速发展,深度学习的空前普及和成功将人工智能(AI)确立为人类探索机器智能的前沿领域。与此同时,得益于器件的革命性进展和人工智能(AI)的发展,脑机接口(BCI)植入技术同样快速落地,这意味着BCI+AI 碳基硅基融合的开始,然而,硅基和碳基运算的底层逻辑存在根本差异,脑的智能机制仍有待进一步探索。本研究提出的视觉认知引导的孪生AI深度网络,是由个人意识驱动的深度网络技术,通过捕捉并解析个体的思维模式和创意灵感,为每个用户量身打造独特的视觉世界。在这样的环境中,每个人都成为自己创造世界的视觉主导者,打破物质和意识的壁垒,得以展现丰富的个性和创造力。

本文引用格式

尹奎英 , 遇涛 . AI+BCI硅基碳基融合新智能的开始[J]. 指挥控制与仿真, 2024 , 46(3) : 1 -11 . DOI: 10.3969/j.issn.1673-3819.2024.03.001

Abstract

We are embracing the fourth wave of human development, which is a critical transition from the information society to an intelligent society integrating human beings, the physical world, and the cyberspace. In recent years, computing and information technology have developed rapidly. The unprecedented popularity and success of deep learning have established artificial intelligence (AI) as the frontier field of human exploration of machine intelligence. Meanwhile, thanks to the revolutionary progress of devices and the development of artificial intelligence (AI), brain-computer interface (BCI) implantation technology has also been rapidly implemented, which marks the beginning of the integration of BCI and AI, carbon-based and silicon-based. However, there are fundamental differences between the underlying logic of silicon-based and carbon-based computing, and the intelligent mechanism of the brain remains to be further explored. The visual cognition-guided twin AI deep network proposed in this study is a deep network technology driven by personal consciousness. It captures and analyzes individual thinking patterns and creative inspiration to create a unique visual world tailored for each user. In such an environment, everyone becomes the visual leader of their own created world, breaking the barriers between matter and consciousness, and expressing rich individuality and creativity.

1 Sora技术带来的冲击和思考

北京时间2024年2月16日凌晨,全球人工智能(Artificial Intelligence,AI)模型的领先者、AI时代的开创者OpenAI推出了一款能根据文字指令即时生成短视频的模型,并将之命名为Sora。Sora展示的全新影像画面让人瞠目结舌,其所公示的影像光影、细节等,让人直呼震撼,真可谓AI版的“神笔马良”。
Sora的核心是一种新的扩散Transformer模型[1-2],通过给定输入噪声patches以及文本提示信息训练出的模型来预测原始的视觉patches。如图12所示。
图1 图像生成网络基本框架

Fig.1 Basic framework of image generation network

图2 Sora的样片截图

Fig.2 Screenshots of Sora's demo

当前的OPEN AI技术代表了一种先进的视觉生成方式,它追求在意识形态、审美观念和概念上的高度统一,构建一个标准化的视觉世界。不论性别、年龄、民族或肤色,人们在统一的语言和视觉界面引导下,所生成的网络内容都遵循一致的规则和标准进行处理与呈现。这种现象就如同一位卓越的导演精心打造了一个普适性的、标准化的视觉宇宙。
然而,在看似强大先进的技术背后,却潜藏着一个巨大的问题。世界是极为复杂多样的,人是个体化的,每个人的认知不同,看待问题的角度不同,理解自然不同。将复杂的世界、多样的人性用统一的概率模式来表达,是可怕的,也是脱离现实的。事实上,主观意识的感知与客观实际的差异普遍存在,所谓“一千个人眼中就有一千个哈姆雷特”。这种现象在一些极端的例子中更为显著,例如美国著名经济学家约翰·纳什(奥斯卡最佳电影《美丽心灵》男主角原型),在患有精神分裂症后出现的视幻觉在他个人意识中真实存在,而他人却难以理解。那么我们需要认真思考:大模型之下个体意识如何表达?我们的脑信号是否能够像Sora演示的视频那样将个体主观的意识客观地表达出来?

2 脑信号视觉重构技术

在人类对于外界的感知中,视觉最为重要,但是,视觉感知到的世界并非真实的世界,它是一种大脑在外界视觉刺激与其内部信息处理框架之间的感知映射。大脑通过视觉感知,把检测到的信息源转化成大脑可以识别的光电信号,在数百亿个神经元构成的神经网络中以编码的形式传递处理,最终形成了人类对视觉信息的感知和记忆[3-4]

2.1 对人脑视觉表征的认识

神经表征被理解为大脑活动的模式,神经激活模式可以通过其与感知和精神状态的关系来表征,通过这种方式,对内部和外部世界的信息进行编码——感知输入特征以及内部生成的认知状态的神经代码。表征可以被大脑用来指导行为[2]。在过去的几十年里,公开文献中已经报道了不同抽象水平的特征神经模式,这些模式是对不同级别特征的反应,包括基本视觉特征(如方位和颜色)和高级视觉类别(如人脸和物体),以及更高认知状态(如准备注意力等)[3-7]。这些表征既可靠又复杂,表示形式可能因检查时的过程或精神状态、所使用的神经成像方法、所关注的大脑区域、用于刺激的作用时间或所执行的任务等诸多因素而产生差异[8],如图3所示。研究人员对测量和解释神经表征的方法进行了大量研究。近年来,使用解码和编码模型,神经模式与条件相关联的多变量模式分析(MVPA)方法得到了广泛应用,对视觉认知过程中神经反应的多变量研究分析取得了巨大的进展,提高了我们对大脑中视觉表征的认识。
图3 Koivisto对于视觉区功能的研究

Fig.3 Koivisto's research on the function of visual area

基于对人脑视觉表征的理解,本研究提出的人脑视觉解码技术基础理论是:“人脑的不同脑区负责不同的视觉感知和记忆功能,特定的视觉刺激表征会导致对应的区域产生相应的编码状态,借助智能计算与脑电溯源方法,可以实现高效神经解码与视觉重构”。

2.2 神经解码与视觉重构技术的演进

视觉重构技术也是一种通过采集视觉刺激引起的大脑活动数据,重建视觉图像的脑机接口(BCI)技术,该技术对大脑视觉响应机理和脑机接口领域研究都有重要的意义。

2.2.1 基于fMRI数据的视觉重构

视觉重构技术最早起源于针对MRI数据的研究。2006年,法国的Thirion等人[9]建立了著名的基于视觉皮层视网膜拓扑结构的逆模型,利用大脑的激活模式来推断真实或者想象的视觉内容,用不同的激活模式与看到的视频进行简单的对应(图4)。2008年,日本的Miyawaki等人[10]通过结合多尺度局部图像基的方法,利用稀疏逻辑回归模型实现了对字母和符号等简单图案的视觉重构(图5)。Kay等人用基于Gabor小波金字塔的方法对每一个体素进行剥离,利用简单的线性回归和梯度下降法训练大量局部方向、空间频率的感受野量化模型,测量特定图案的脑部活动,建立大量的图片数据库,根据预测的脑部活动选择数据库内最相近的图片[11](图6)。在2023年的CVPR会议上,日本研究学者提出了一项新的基于fMRI的视觉重构方法,重构了多项视觉刺激图片[11]
图4 不同视频/音频对应的fMRI激活区域图案

Fig.4 FMRI activation area patterns corresponding to different video/audio

图5 Miyawaki等人用fMRI数据对简单图形的重构结果

Fig.5 Reconstruction results of simple graphs using fMRI data by Miyawaki et al

图6 Kay等人实现fMRI图像分类的流程

Fig.6 The process of fMRI image classification of Kay et al

但是,基于fMRI数据的视觉图像重建方法存在显著缺陷。通常情况下,基于fMRI数据只能重建字母等简单图案,对于复杂的场景图像,只有分类能力而无法实现图像的重建。随着近些年脑科学研究的深入,研究发现大脑对视觉刺激的响应是一个动态过程[12],而基于MRI的视觉重构缺乏在时间尺度上的分辨能力,对图像的重构效果较差,难以重构较复杂的图案。同时,MRI测量设备价格昂贵且体积庞大,被试需躺在核磁设备内进行测量,不便于在日常场景下应用。

2.2.2 基于脑电信号的视觉重构

基于脑电信号(EEG)的视觉重构技术是一项近些年提出的前沿技术。EEG具有较强的时间分辨能力和一定的空间分辨能力,利用EEG能够重建较复杂的图形图像,使视觉重构的能力大幅提升。美国贝勒医学院的Beauchamp等人,利用植入的电极阵列对盲人和有视力者的视觉皮层进行了电刺激,研究发现静态的电刺激信号只能产生少数简单的视觉图形,而随时间变化的动态电刺激信号可以产生更多的视觉图案[13],这也从侧面证实了时间分辨率对于视觉重构的重要意义。2016年,Spampinato等人[14]结合深度网络的方法,让受试者对观测的图片进行想象,采集其想象过程中的脑电信号,结合深度网络技术尝试对图像进行重构,但其重构的效果较差。2017年,佛罗里达中央大学感知实验室 (PeRCeiVe Lab)研究人员通过变分自编码器 (Variational Auto-Encoder, VAE)和生成对抗网络(Generative Adversarial Networks, GAN)实现了基于EEG的图像重建,研究结果有力地证明了从脑电信号中解码出与视觉相关特征,可以有效地生成与视觉刺激语义一致的图像[15-16]。2019年,俄罗斯莫斯科物理与技术学院的研究人员实现了依靠人工神经网络和EEG分析大脑活动,实时重建人看到的人脸、场景等复杂图像[17](图7)。基于EEG的图像重构算法能够在一定程度上重建较复杂的图像,包括人脸、场景等,效果相比fMRI的重建结果有很大的提升。2021年,尹奎英团队利用循环卷积和原图像监督,国内首次实现了脑电的视觉重构[18](图8)。在此基础上,尹奎英团队又实现了对帕金森患者幻觉图像的重构[19]
图7 莫斯科物理与技术学院的研究人员利用EEG重构图像的效果

Fig.7 The researchers from Moscow Institute of Physics and Technology reconstructed images using EEG

图8 尹奎英等利用EEG重构图像的效果

Fig.8 The effect of image reconstruction by Yin Kuiying and others using EEG

然而,目前基于脑电信号的视觉重构技术的表征重建能力仍存在诸多不足,包括计算效率较低,重构准确率较差,类脑场景理解缺少生物学基础等。因此,视觉重构技术有待发展改进。很多研究人员正在以不同的方式探索如何增强基于脑电信号的视觉重构技术,例如,2023年,俄亥俄州立大学路子童博士提出一种IRBS方法[20],利用fMRI与EEG数据成功重建了精神疾病患者在静态视觉刺激中的二维图像。

2.3 立体定向颅内脑电图(SEEG)对视觉认知研究的帮助

近年来,立体定向颅内脑电图(SEEG)大量应用于癫痫患者的致痫灶定位诊断,为深入了解脑内电活动打开了新的窗口。颅内深部电极可以直接植入大脑组织中,采集目标脑区的神经电活动,包括高频的神经振荡,而且信号不需要穿过头皮、颅骨等组织,从神经活动的源头直接记录。理论上讲,SEEG电极可以精确植入脑内任何皮层区,采样频率可达2 000~4 000 Hz,甚至更高。这些颅内电极记录的局部场电位(LFP)按照不同波谱的功率变化,为不同种类的视觉信息进行定性编码提供了新的证据(图9)[21-24]。因此,这种高精准度、高信噪比的脑电信号采集方式可以为EEG解码带来重要的补充信息。
图9 应用颅内电极可覆盖枕叶及周围相关视觉认知皮质,在视觉认知过程中,准确反映不同脑区的高频信号随时间的变化,具有高时空分辨率特性

Fig.9 The intracranial electrodes can cover the occipital lobe and the surrounding visual cognitive cortex, accurately reflect the high-frequency signals in different brain regions during the visual cognitive process with time, and have the characteristics of high spatial and temporal resolution

3 视觉认知引导的孪生AI深度网络

基于视觉认知引导的孪生AI深度网络构建技术,将视觉刺激中所收集到的颅内深部EEG信息与磁共振信息进行视觉功能时序性定位,将所定位到不同脑区的神经工作机制转化为计算机可以计算的深度网络子网络结构模块,并引入光电耦合性刺激的脑信息与视觉刺激图像以及其相应的映射关系为数据计算监督,构建一种基于人脑认知引导的孪生AI新型网络结构。其技术路线主要包括视觉认知引导的网络结构设计和视觉认知引导的AI深度网络构建与验证两部分内容,如图10所示。
图10 视觉认知引导的孪生AI深度网络研究方案

Fig.10 Research scheme of twin AI deep network guided by visual cognition

3.1 光电耦合性脑信息数据智能计算模式分布转化

3.1.1 视觉认知脑区功能定位

选取合适的受试者,首先对其进行无创的磁共振实验,设计合适的视觉刺激,让受试者以舒适的姿势躺至磁共振机器中央,眼睛正对磁共振倒置镜内的刺激视频呈现区域,保证受试者的视距内可以将视觉刺激完整接收,保持受试者的水平视线、垂直视线与将要展示的视觉刺激水平一致。此外,由于磁共振采集时产生的巨大噪声,需为被试准备耳塞进行降噪,实验开始后让被试保持平静,全身放松的状态观看屏幕上的视频,并对视频进行同步录制,且在刺激中对具有因果性的视觉刺激进行同步标记。在磁共振实验结束之后,提取受试者在实验中具有因果性与时序性的磁共振数据,依据因果性标记回溯磁共振设备中的光电耦合性脑信息视觉刺激诱发数据,以磁共振T1结构像为脑结构的定位模版,将MRI结构像分割为头皮、头骨和脑组织三个部分,在不同类型组织的边界处创建三角网格曲面,然后将分割后的脑组织结构投射至磁共振fMRI功能像数据中,并同步构建具有因果性刺激的脑功能信息视觉刺激认知处理网络,定位时间序列过程中不同靶向脑区进行功能响应的中心种子节点以及其连接的其他枝叶响应脑区,解析大脑在视觉刺激中完成视觉认知整个时间序列下的功能定位。
临床选择适合的难治性癫痫患者,根据术前评估结果,需要植入颅内电极进一步定位致痫灶,重点选择在颅内电极植入方案中,有电极计划植入本研究关注的视觉认知相关脑区的患者,入组参与实验研究。(1)首先完成基于头皮EEG的实验采集。开展最简单的实验如运动想象、快速视觉序列刺激、视觉稳态诱发等传统的实验,实验过程中进行视频同步录制,并对具有因果性的视觉刺激进行同步标记,同时要保证刺激序列与磁共振实验中刺激的一致性。(2)对于进行深部电极植入的患者,经过术后电极位置重建,确认在枕叶、顶叶、额叶、颞叶等视觉接收、信息传递、图形整合、情景记忆与认知相关的感兴趣脑区有植入电极的患者,重复进行术前基于头皮EEG的实验范式,同步采集颅内脑电活动数据。实验后提取受试者在实验中具有因果性与时序性的颅内EEG数据,根据植入电极重建的位置信息,分析在具有因果性刺激的颅内神经电位响应数据。结合术前的头皮EEG实验数据,分析基于头皮EEG和颅内EEG的视觉认知过程的时空动态演化关系。(3)将不同患者的颅内电极在脑内皮层的位置关系进行叠加,形成完整的颅内电极在脑内感兴趣皮层的分布图谱,基于个体的头皮EEG和颅内EEG的视觉认知过程的时空动态数据,构建完整的人脑视觉认知EEG数据库。

3.1.2 仿生网络结构设计

在实验过程中,某一时间序列下被试观测由连续的多幅图片构成,以一定的帧率进行播放,以时间序列作为串联媒介形成的动态视频影像。将带有因果性与时序性的磁共振数据提取出,依据因果性标记回溯脑电与磁共振设备中的光电耦合性脑视觉刺激诱发数据,利用磁共振的高空间分辨率定位不同阶段下各脑区的功能响应,利用具有高时间分辨率的颅内EEG数据定位不同帧下各脑区诱发的功能响应并与磁共振的分析结果进行融合验证,完成对视觉刺激下大脑各脑区在不同阶段上相应的高时间空间分辨率下的视觉认知功能定位,筛选每一相应视觉功能阶段处理脑区以及其交互的其他功能响应脑区,解析靶向脑区在该阶段神经活动机制以及其与其他脑区交互工作机制,并将这一神经活动在该视觉认知阶段的工作机制进一步表征为可以进行计算机工作模式下的计算模式,然后对各个阶段的视觉认知脑区的工作机制进行逐一的AI模式网络子结构的仿生转化,进而获得受试者在外界视觉刺激下,大脑对于视觉认知不同阶段仿生的深度网络子结构群,为视觉认知引导的孪生AI深度网络结构提供计算结构与神经工作机制的计算模式基础。

3.2 视觉认知引导的AI深度网络构建与验证

3.2.1 视觉深度网络构建

在EEG对视觉信息的编码中,对于外界信息的感知与认知分为“自上而下”与“自下而上”两股视觉信息流,需要将初级、次级、高级等不同功能的仿生网络模块按一定的信息流传递方式组合为可计算的深度学习网络。因此,需要从脑电信号数据中抽取有效特征,并针对不同层次的特征构建分类器用于分类学习。组合不同仿生网络结构模块,一方面能够有效捕捉不同粒度的数据特征,另一方面采用多种度量进行分类器的构造,并进行进一步集成学习,增强模型分类能力。通过多度量方法实现了不同数据的不同层次特征抽取和模型集成,通过不同模型的预测结果自适应加权融合,从而强化对EEG数据的分类性能。
针对不同层次、不同功能的仿生网络结构模块组合问题,拟设计一种深度增量模型结构,在每个仿生网络结构模块的分类器增加额外的通用注意力机制网络,计算每个仿生网络结构模块的权重。增加仿生网络结构模块的权重参数,一方面可以实现不同深度的网络的动态自适应组合,在模型预测阶段,不同深度的仿生网络结构模块对应的分类器对样本给出脑电信号的预测结果,并将对应结果与对应的注意力权重进行加权集成,得到最终的视觉重构图像。这样的预测结果自适应地进行了多度量的特征抽取,并利用了多度量学到的特征信息进行自适应模型集成。二是计算加权的Fisher信息矩阵用于约束模型参数,在损失函数的构造方面,模型基于注意力权重加权得到的参数矩阵对模型中的相关参数最优值的偏移进行约束,从而有效地缓解训练中的遗忘现象。

3.2.2 视觉重构有效性验证

完成视觉深度网络构建后,需要采集EEG数据对视觉重构的有效性进行验证。在被试视觉重构实验过程中,拟对被试分别展示人脸、建筑、动物等多类图片,通过被试佩戴的高导联脑电帽同步采集EEG数据,并在脑电实时采集软件上对不同类别的视觉刺激做标记。将采集到的EEG数据按标记进行分段切割,经过预处理后输入AI深度网络,得到重构的图像。
视觉重构有效性验证还需要有效的定量评价,拟采用结构相似性指数SSIM(Structural Similarity)进行度量。SSIM是一种仿照人类的视觉系统实现结构相似性的度量,用于量化两幅图像间的结构相似性指标。该指标对图像局部结构的变化较为敏感,用均值估计亮度,用方差估计对比度,用协方差估计结构相似程度,从多维度衡量图像的相似性。SSIM值的范围为0至1,数值越大代表图像相似度越高。
SSIM计算公式为
SIM(x,y)= ( 2 u x u y + c 1 ) ( 2 σ x y + c 2 ) ( u x 2 + u x 2 + c 1 ) ( σ x 2 + σ y 2 + c 2 )
其中,uxx的平均值, σ x 2x的方差;uyy的平均值, σ y 2y的方差,σxyxy 的协方差;c1c2是两个用于维持稳定的常数,避免出现除零的情况。
利用SSIM指数作为AI深度网络重构的准确率,对模型的重构效果与泛化能力进行评估,进而迭代调整网络权重参数,优化网络性能。
本研究团队在面向精神障碍疾病患者的研究工作中,前期针对伴有视幻觉的帕金森病患者,利用视觉重构技术对脑电图解码,实时重构了患者的幻觉影像。该研究分别招募了伴有视幻觉的帕金森病患者(PD-VH)、无幻觉的帕金森病患者(PD-NH)和健康个体(HC),收集并分析患者的EEG和MRI数据,利用异常大脑区域的脑电图数据来训练机器学习模型,以确定异常脑电图数据是否与幻觉有关。结果发现:伴幻觉患者在αθ频段表现出较高的功率比,特别是在额叶、枕叶、额顶叶交界处和枕顶叶交界处;PD-VH患者的默认模式网络(DMN)表现出比HC组更大的连接复杂性,特别是在背内侧子系统中,反映注意网络和默认网络之间的相互作用失衡;PD-VH组纤维束与HC组相比,表现出较低的密度和更分散的排列,显示PD-VH的网络结构发生特异性改变(图11)。通过本研究我们推断:视觉处理相关脑网络的“自下而上”受损和“自上而下”激活与视幻觉病症的发生与发展密切相关,当“自下而上”通路产生模糊视觉信息,“自上而下”通路将其与内源性信息匹配产生错误视觉图像,后者未被现实监控系统识别,最终会产生视幻觉(图12),即患者背侧注意网络、腹侧注意网络以及默认网络三者的失衡导致幻觉病症。
图11 幻觉患者脑异常定位

Fig.11 Abnormal brain localization in hallucinatory patients

图12 实验场景重构。a)为真实的实验场景,图中的女士并没有看向患者,而图c)中患者大脑信号的视觉重构结果显示,患者在大脑中认为这位女士是看向他的,故而为视觉重构技术重构了患者的幻觉内容

Fig.12 The reconstruction of experimental scenarios. Figure a) is the real experimental scenario, in which the lady is not looking at the patient. However, the visual reconstruction result of the patient's brain signals in Figure c) shows that the patient believes in his brain that the lady is looking at him, so the visual reconstruction technology reconstructs the hallucination content of the patient

作为探究大脑对于视觉理解的新窗口,这些方法可能对揭示许多伴幻觉的精神障碍的机制至关重要,这些障碍由于所涉及的固有主观性而难以诊断和治疗。借助深度学习技术和神经影像大数据,以图像形式“可视化”大脑对于外界视觉理解内容的能力不再仅局限于科幻领域。这种模型不仅在理论上重构了患者大脑对于外界世界的客观理解,并将患者对视觉的错误性解读图像化,为临床患者幻觉相关症状的筛查提供有效手段。
图13中第一列为想象的原图,第二列为正常人对于图像的想象重构结果,而第三列为盲人的想象结果,可见盲人对于物体的想象能力已经开始退化,随着视觉功能的丧失,盲人大脑退化的不仅是其视觉处理功能,负责情景记忆相关的脑功能同样也在丧失。
图13 盲人实验的重构结果

Fig.13 Reconstruction results of the blind experiment

作为探究大脑对于视觉理解的新窗口,这一研究对揭示许多伴幻觉的精神障碍、视觉处理、情景记忆等大脑的神经工作机制至关重要,这些障碍由于所涉及的固有主观性而难以诊断和治疗。借助深度学习技术和神经影像大数据,以图像形式“可视化”大脑对于外界视觉理解内容的能力不再仅局限于科幻领域。这种模型不仅在理论上重构了患者大脑对于外界世界的客观理解,并将患者对视觉的错误性解读图像化,为临床患者相关症状的筛查提供有效手段。

4 视觉重构在临床诊疗与军事领域的应用探索

4.1 在临床诊疗领域的应用探索

随着视觉重构技术的不断进展,研究人员也在探索如何将视觉重构技术进行临床应用。事实上,视觉重构的实现为心理意象的研究敞开了一扇大门。一直以来,心理意象都是关于心理功能讨论的一个核心问题。人类是视觉生物,视觉感知是具体、生动的,几乎任何可能从感官模拟中获得的行为或认知过程都倾向于利用心理图像。因此,心理意象在许多精神障碍性疾病中起着重要作用。在疾病诊疗中,视觉重构技术的一个主要优势在于其提供了一种更直接和生动的方式,使患者的主观视觉体验得以可视化。一方面,重构技术可重现幻觉画面和幻觉影像,辅助判断其幻觉的内容和特点,解决患者口述和表达能力不足带来的差异性问题。另一方面,利用视觉重构中构建的EEG与脑功能皮层区的映射关系,有可能推断幻觉患者的主要异常脑区。这将大大改善疾病的诊疗模式,为幻觉病症的诊断和治疗提供新的思路和方法。
在创伤后应激障碍(Posttraumatic Stress Disorder, PTSD)中,个体会经历闪回或对创伤的插入性记忆,患者以非常清晰的、极端痛苦的方式进行这种“重复体验”,仿佛又完全身临创伤性事件发生时的情景。在此状态下,身不由己的插入性视觉图像是PTSD患者深陷其中、反复闪回、难以自拔的关键成分。研究显示,插入性意象的真实感,可以预测创伤后应激障碍症状和预后的严重程度;而通过观看相关图像触发这些插入意象的容易程度,也可以预测创伤应激障碍的严重程度,更生动的图像与更频繁的闪回有关[25]
此外,精神分裂症和帕金森病都与更强的感觉意象有关。在帕金森病患者中,个人视觉意象的强度可以预测他们视幻觉的严重程度。事实上,生动的意象被认为是精神分裂症的一种特质[26]。而在抑郁症中,患者很难形成积极的未来心理意象[27],而想象自杀行为可能会增加自杀的风险[28]。双相障碍患者也表现出心理意象和插入性意象的频繁出现[29]
然而,除了作为精神障碍的伴随症状或主要症状,视觉意象还可以在心理治疗中发挥。例如,认知行为疗法通常包括“想象暴露”,即患者反复想象一个令人恐惧的物体或环境,直到他们的焦虑水平下降[30]。针对PTSD的干预研究显示,在观看创伤性片段后,玩俄罗斯方块游戏会破坏视觉空间画面,从而减少随后的插入性意象[31]。理论上推测,玩俄罗斯方块占据了大脑的视觉区域(编码或表征的区域),这影响了个人在记忆巩固过程中回放事件的能力。“意象重写”在治疗PTSD、社交恐惧症、蛇恐惧症以及其他各种心理障碍方面也取得了一定的成功[32]。它通常涉及将视觉意象改写为更积极或更具适应性的结果。越来越多的证据表明,视觉意象比命题思维或象征思维能引发更大的情感反应。人们不仅对视觉意象的理解越来越深入,更将其视为一种成长性的治疗策略。因此,充分利用视觉重构的基础研究进展,可以客观呈现视觉意象,并有希望将操控视觉意象作为一种新的治疗干预措施应用于临床。

4.2 在军事领域的应用探索

BCI在增强人的认知感知和运动能力方面的潜力,引起了各国军方在武器装备研发上的广泛关注[33-36]。美国国防部先进研究项目局(DARPA)早在20世纪70年代就已经开始立项对BCI技术在军事上的应用展开研究。其中,在增强运动能力方面,DARPA开展了脑控外骨骼技术,以及通过意念实现对重武器、战车、无人飞机等装备的控制研究。为了提高战场上士兵之间的通信协调能力,DARPA计划通过“意念头盔”(Thought Helmet)实现士兵大脑之间的直连通信,进而取代通话和手语等传统的通信方式。在提高士兵感知能力方面,DARPA计划利用脑控高精度望远镜装置,将士兵的视角扩大到120°,距离10 km。此外,DARPA更是专门研究如何通过BCI技术调控士兵的情感,用于士兵训练和治疗战后出现的心理疾病。此外,美国宇航局(NASA)和欧洲太空总署(ESA)也已经将BCI技术作为未来空间任务战略性计划的重要部分之一,并于2012年合作投资47.3万欧元,用于BCI在太空中的应用技术研究,计划设计更加安全可靠的通信控制系统,用于适应太空的多变环境。2017年7月17日,美国国防部公布了一项6500万美元的“脑芯片”投资计划,希望开发一种BCI系统,在大脑和计算机之间提供精准的双向通信。该计划是通过先进的神经接口来并行接触超过100万个神经元,让高级神经元器件提供较高保真度、分辨率和精确度的感官界面。2018年9月,在DAPRA60周年纪念日上,DAPRA生物技术办公室负责人Justin Sanchez称“大脑信号现在已经能够用于下达命令,并同时操控三种类型的飞机,来源于飞机的信号直接反馈给志愿者,以便他们感知环境信息,从而实现了双向交流”。
2017年的一项公开研究,着重探索了BCI在飞行模拟环境中控制航天器的可用性。被试在运动皮层植入两个各有96个电极的微电极阵列,控制包括飞机种类、视角、方向、速度等参数。飞行评判的标准包括是否维持飞行路径、避免失控坠机等方式。实验结果表明,被试能够成功控制飞行器例如喷气机和直升机,证明了BCI系统可以控制复杂的飞行任务,如果上述系统设计思路能与视觉重构技术有机融合,将能够更加有效地提升航天器控制的稳定性和可靠性。此外,佛罗里达大学的开发人员在DAPRA的支持下,举办了第一次的BCI无人机竞赛。他们与亚利桑那大学的同事合作,首次在BCI驾驶飞行器与五角大楼Gremlins无人机群之间建立联系。在军事应用中,视觉重构技术可以实时重构前线士兵对于战场环境的理解,向后方提供其对战场环境更直接和生动的视觉体验,在冰冷的摄像图像加入带有参战经验的士兵感情的重构图像,帮助后方更好地理解前方的战争情况。

5 未来智能的发展思考

当前,OPEN AI(Sora)爆炸式发展,让人惊叹科技飞跃的同时,也带来了深深的不安。OPEN AI已经可以根据语义描述创造虚拟的视觉世界,然而这种虚拟视觉世界并非人类个体的主观意识,不受控的客观世界无序发展将会带来灾难性的后果。著名的计算机科学家、“人工智能教父”Geoffrey Hinton认为:“这就像外星人已经降临地球,而我们并未意识到”。因此,亟需探索人脑视觉信息编码与记忆提取的交互处理机制,研究更精准、高效、实时的视觉信息解码,形成双向交互的“脑联万物”,实现人类主体的视觉重构。只有在人类大脑与外界信息互联互通的基础上,才可能实现人脑智能与机器智能的取长补短、共融共生的人类科技夙愿,创造新的人机智能形态,从而避免人工智能的失控发展,如同勒马之用缰。我们基于视觉重构技术的研究力求构建视觉认知引导的孪生AI深度网络,探索基于个体视觉认知的AI图像生成技术,研究路径总结如下(见图14)。
图14 总体研究路径图

Fig.14 Overall research path map

6 致谢

本文写作时,刘川、曲良承、杜文韬、李绮雪、李振兴、喻超、王剑书、牛畅、张奕敏、徐宝鑫、高润石、薛岩松、闫浩、高颖、吴佳睿、刘孟林等同事和同学为文章的素材和相关调研工作付出辛勤工作,一并致谢。

7 伦理声明

涉及人类的研究已经得到首都医科大学宣武医院伦理委员会的批准。研究均按照当地法规和机构要求进行。所有参与者均已提供书面知情同意书,同意参与本研究。同时,本研究中涉及的任何可识别图像或数据的发布,均已从相关个体处获得书面知情同意。
[1]
RAMESH A, PAVLOV M, GOH G, et al. Zero-shot text-to-image generation[C]// Proceedings of the 38th International conference on machine learning, 2021.

[2]
RADFORD, ALEC, et al. Learning transferable visual models from natural language supervision[C]// International Conference on Machine Learning, PMLR, 2021.

[3]
CALVERT G A, HANSEN P C, IVERSEN S D, et al. Detection of audio-visual integration sites in humans by application of electrophysiological criteria to the BOLD effect[J]. NeuroImage, 2001, 14(2): 427-438.

DOI PMID

[4]
CALVERT G A. Crossmodal processing in the human brain: insights from functional neuroimaging studies[J]. Cerebral Cortex, 2001, 11(12): 1 110-1 123.

[5]
BAKER B, LANSDELL B, KORDING K P. Three aspects of representation in neuroscience[J]. Trends in Cognitive Sciences, 2022, 26(11): 942-958.

DOI PMID

[6]
HAXBY J V, HOFFMAN E A, GOBBINI M I. The distributed human neural system for face perception[J]. Trends in Cognitive Sciences, 2000, 4(6): 223-233.

DOI PMID

[7]
HAXBY J V, HOFFMAN E A, GOBBINI M I. Human neural systems for face recognition and social communication[J]. Biological Psychiatry, 2002, 51(1): 59-67.

DOI PMID

[8]
KAMITANI Y, TONG F. Decoding the visual and subjective contents of the human brain[J]. Nature Neuroscience, 2005, 8(5): 679-685.

DOI PMID

[9]
THIRION B, FLANDIN G, PINEL P, et al. Dealing with the shortcomings of spatial normalization: multi-subject parcellation of fMRI datasets[J]. Human Brain Mapping, 2006, 27(8): 678-693.

PMID

[10]
MIYAWAKI Y, UCHIDA H, YAMASHITA O, et al. Visual image reconstruction from human brain activity using a combination of multiscale local image decoders[J]. Neuron, 2008, 60(5): 915-929.

DOI PMID

[11]
TAKAGI Y, NISHIMOTO S. High-resolution image reconstruction with latent diffusion models from human brain activity[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, 2023.

[12]
VANRULLEN R, THORPE S J. The time course of visual processing: from early perception to decision-making[J]. Journal of Cognitive Neuroscience, 2001, 13(4): 454-461.

PMID

[13]
BEAUCHAMP M S, OSWALT D, SUN P, et al. Dynamic stimulation of visual cortex produces form vision in sighted and blind humans[J]. Cell, 2020, 181(4): 774-783.e5.

DOI PMID

[14]
SPAMPINATO C, PALAZZO S, KAVASIDIS I, et al. Deep learning human mind for automated visual classification[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2017.

[15]
KAVASIDIS I, PALAZZO S, SPAMPINATO C, et al. Brain2Image: converting brain signals into images[C]// Proceedings of the 25th ACM international conference on Multimedia, Mountain View California USA, 2017.

[16]
PALAZZO S, SPAMPINATO C, KAVASIDIS I, et al. Generative adversarial networks conditioned by brain signals[C]// 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 2017.

[17]
RASHKOV G., BOBE A., FASTOVETS D., et al. Natural image reconstruction from brain waves: a novel visual BCI system with native feedback[J]. bioRxiv, 2019,(10):787 101.

[18]
QU L C, CHEN D, YIN K Y. Research on EEG feature decoding based on stimulus image[C]//2021 IEEE 4th Advanced Information Management, Communicates, Electronic and Automation Control Conference (IMCEC). Chongqing,2021.

[19]
LIU C, QU L C, LI Q X, et al. Global brain analysis of minor hallucinations in Parkinson’s disease using EEG and MRI data[J]. Frontiers in Aging Neuroscience, 2023(15): 1 189 621.

[20]
LU Z T. Visualizing the mind’s eye: a future perspective on applications of image reconstruction from brain signals to psychiatry[J]. Psychoradiology, 2023(3): 022.

[21]
Li Y, BOSKING W, BEAUCHAMP MS, et al. Biased Orientation and Color Tuning of the Human Visual Gamma Rhythm[J]. Neurosci, 2022, 42(6):1054-1 067.

[22]
WINAWER J, PARVIZI J. Linking Electrical Stimulation of Human Primary Visual Cortex, Size of Affected Cortical Area, Neuronal Responses, and Subjective Experience[J]. Neuron, 2016, 92(6):1213-1 219.

[23]
HENIN S, TURK-BROWNE NB, FRIEDMAN D, et al. Learning hierarchical sequence representations across human cortex and hippocampus[J]. Sci Adv, 2021, 7(8):eabc4530.

[24]
ERVIN B, BUROKER J, BYARS A W, et al. A distributed network supports spatiotemporal cerebral dynamics of visual Naming[J]. Clinical Neurophysiology, 2021, 132(12): 2 948-2 958.

[25]
MORINA N, LEIBOLD E, EHRING T. Vividness of general mental imagery is associated with the occurrence of intrusive memories[J]. Journal of Behavior Therapy and Experimental Psychiatry, 2013, 44(2): 221-226.

DOI PMID

[26]
LINDEN D E, VAN DE VEN V, ETSCHENBERG S, et al. Enhanced vividness of mental imagery as a trait marker of schizophrenia?[J]. Schizophrenia Research, 2003, 60(1): 20.

[27]
BLACKWELL S E, BROWNING M, MATHEWS A, et al. Positive imagery-based cognitive bias modification as a web-based treatment tool for depressed adults[J]. Clinical Psychological Science, 2015, 3(1): 91-111.

[28]
CRANE C, SHAH D, BARNHOFER T, et al. Suicidal imagery in a previously depressed community sample[J]. Clinical Psychology & Psychotherapy, 2012, 19(1): 57-69.

[29]
HOLMES E A, DEEPROSE C, FAIRBURN C G, et al. Mood stability versus mood instability in bipolar disorder: a possible role for emotional mental imagery[J]. Behaviour Research and Therapy, 2011, 49(10): 707-713.

DOI PMID

[30]
FOA E B, STEKETEE G, TURNER R M, et al. Effects of imaginal exposure to feared disasters in obsessive-compulsive checkers[J]. Behaviour Research and Therapy, 1980, 18(5): 449-455.

PMID

[31]
HOLMES E A, JAMES E L, KILFORD E J, et al. Key steps in developing a cognitive vaccine against traumatic flashbacks: visuospatial tetris versus verbal pub quiz[J]. PLoS One, 2010, 5(11): e13706.

[32]
HUNT M, FENTON M. Imagery rescripting versus in vivo exposure in the treatment of snake fear[J]. Journal of Behavior Therapy and Experimental Psychiatry, 2007, 38(4): 329-344.

PMID

[33]
KOTCHETKOV I S, HWANG B Y, APPELBOOM G, et al. Brain-computer interfaces: military, neurosurgical, and ethical perspective[J]. Neurosurgical Focus, 2010, 28(5): E25.

[34]
RUDOLPH A. Military: brain machine could benefit millions[J]. Nature, 2003, 424(6947): 369.

[35]
HOAG H. Remote control[J]. Nature, 2003, 423(6942): 796-798.

[36]
FLESHER S N, COLLINGER J L, FOLDES S T, et al. Intracortical microstimulation of human somatosensory cortex[J]. Sci Transl Med, 2016, 8(361): 80-83.

文章导航

/