上海交通大学电子工程系义理林教授课题组(LIFE,Laboratory of intelligent fiber ecosystem)提出了基于模型-数据混合驱动的低复杂度超快脉冲非线性动态灵活预测,采用基于一维卷积网络(CNN)的特征解耦的建模方案,实现了不同脉冲传输场景的精准预测与灵活泛化,运行时间相比传统分步傅里叶方法降低了94%,与循环神经网络(RNN)相比,以使用不到其1%的参数量实现运行时间87%的减少。此外,在预测过程中,可以准确地对输入脉冲条件和传输条件进行泛化,包括脉冲长度、脉冲宽度、峰值功率和传播距离。本项工作显著改进了基于AI算法的超快非线性动态预测的各方面指标,也为其他领域中非线性特性的研究提供了模型-数据驱动相结合的新视角。相关成果以“Low-complexity full-field ultrafast nonlinear dynamics prediction by a convolutional feature separation modeling method” 为题于2022年10月发表于国际光学期刊《Optics Express》。杨航与赵浩辰为共同第一作者,义理林教授为通信作者。
光纤中超快非线性动态的建模和预测对于激光器设计、实验优化和其他基础应用的研究至关重要。基于非线性薛定谔方程(NLSE)的传统传输建模方案比较耗时,在参数设计和优化实验等方面应用受限。RNN已成为一种比较精确的脉冲幅度预测工具,具有较低的复杂性和良好的泛化能力。然而,针对更长输入脉冲长度的运算复杂度和神经网络结构的灵活性需要进一步优化,以适应更广泛的应用场景。
研究路径
有别于传统的分步傅立叶方法模型驱动思想,以及基于AI建模的纯数据驱动建模方案,本课题组探索模型-数据混合驱动的光纤信道建模方法,通过训练神经网络自主从波形传输过程中推测物理交互特性,并提出特征解耦的卷积神经网络作为新的机器学习建模模型,最终实现对超快脉冲光纤传输现象的仿真。这里,特征解耦方案是指光纤信道中线性-非线性分别采用不同思想进行建模。如图1a所示,线性效应由基于NLSE推导得出的模型进行线性建模,非线性特征从数据中提取特征,采用一维卷积神经网络进行非线性建模。基于此,蕴含非线性效应的数据中时间相关性大大缩短,可以大大减少神经网络的参数、规模与运算时间。同时,特征解耦可提供更强的模型可解释性与更好的预测精确度。
在数据驱动的非线性建模方面,本课题组从传统分步傅立叶方法物理方程的形式出发,分析了其分步求解的过程,最终确定了基于卷积结构的建模方法。网络结构示意图如图1b所示,设计了基于CNN的适用于超快脉冲光纤传输的新的神经网络结构,模型在设计时,考虑到非线性特征对不同脉冲点的运算逻辑一致,设计的CNN结构中实现了大量的参数共享,从而进一步降低参数量。
相比之前的纯数据驱动的方法,特征解耦的CNN结构与脉冲传输场景紧密结合,通过滑动卷积核可以适应输入脉冲长度的动态变化,提供更佳的泛化能力。此外,详细探讨了结构中各类超参数会对整体建模引入的影响,实验选定了最优值,在论文中进行了列举。
研究成果
图2展示了典型高阶孤子压缩场景下脉冲的传输建模效果,CNN与SSFM数值方法建模的波形瀑布图具有高度一致性,证明了CNN模型建模的精确性和有效性,足以完整建模孤子传输的全过程,同时也选定了几处距离进行进一步比较,两者频谱对应程度高。图3展示了CNN方法针对不同输入条件的泛化能力,展示了单一模型针对多种输入可传输至超出训练数据集距离的脉冲特性与传输距离泛化能力,相比于传统的数据驱动的建模方法实现较大提升。
图 2 基于特征解耦的CNN建模效果展示
图 3 基于特征解耦的CNN模型泛化性能展示
在验证了模型建模精确性及泛化性能的基础上,在理论分析两者运算量变化量级的基础上,实验比较了CNN与SSFM的运算时间,以说明本方案在降低复杂度方面的显著优势。限制仅使用CPU,从仿真点数及传输脉冲组数角度进行了比较,结果如图4所示。由结果可知相同条件下CNN的运行耗时相比SSFM和现有数据驱动长短记忆网络(LSTM)RNN方法均大幅降低,在超连续谱2048点场景下,仿真100组数据相比分步傅立叶方法加速94%,相比之前基于LSTM的方法使用不到其1%的参数量实现了同等精度和87%的运行速度提升,并可以灵活动态调整输入脉冲脉宽、强度、输入窗长与传输距离。
图 4 基于特征解耦的CNN方法与现有方法在不同数据量下的运行时间比较
特征解耦的CNN建模方案相较传统的数值仿真迭代方案大幅降低了复杂度及运行时间,而相比于其它数据驱动的模型又能够更好的利用物理系统特性,降低建模开销,实现了超快脉冲光纤非线性动态快速精准预测的目标。此外,模型还具有输入点数、输入脉冲参数及传输距离等泛化能力,可以涵盖超快脉冲传输建模的大部分场景。此项工作有利于推进基于AI算法的超快光脉冲传输现象的研究,也展现了模型-数据驱动相结合方法在具有先验知识的传统领域中的应用优势。
论文全文:https://opg.optica.org/oe/fulltext.cfm?uri=oe-30-24-43691&id=521706