欢迎访问智能光纤系统实验室

新闻动态

NEWS CENTER

当前位置:首页 > 新闻动态 >《对话吧》上海交大义理林:让A...

《对话吧》上海交大义理林:让AI真正读懂“光”,一场关于Optics GPT的深度对话

16
03月
2026

导语:《对话吧》是光电汇媒体平台策划的一档聚焦产业热点与技术核心的视频深度对话栏目。该栏目以“视频+文字”的双形式呈现,旨在搭建一个回归本质的沟通场域:从媒体的观察出发,向关键亲历者发起对话。通过与核心人物的深度对话,剖析事件背后的逻辑,厘清技术演进的路径,研判行业未来趋势的发展,直击技术与市场的本质,从而为行业提供有锐度的观察、有深度的思考。

本期的主题是AI+光学。AI如何真正深入一个硬核学科?如何让AI真正读懂“光”?上海交大近期给出了专业答案——自研的“光学大模型”Optics GPT。这背后是义理林教授团队的突破性探索。本期邀请到了义理林教授做客《对话吧》,跟我们聊聊这款全自研的“光学垂直大模型”背后的故事与思考。


从仿真软件到垂直大模型
研究契机
01

光电汇:义教授,您好。团队当初为何坚持从零开始打造一个光学领域的垂直大模型?是看到了通用模型在光学应用中的哪些根本性痛点吗?

义理林:其实,做研究最初并非一开始就有一个宏大的目标,学术研究往往就是这样,从一个具体的小需求切入,在解决问题的过程中不断延伸,最终汇聚成一个具有里程碑意义的成果。

故事的起点是20231月。当时,我们发布了一款光传输开源的仿真软件,在光通信领域引起了不小反响。这个仿真软件把整个光纤通信系统的发射、传输和接收等所有代码全部开源,包括底层用传统的分布式傅里叶方法求解非线性薛定谔方程的基础代码,以及AI增强代码,构成一个双模仿真平台。我们的初衷很简单——降低光通信研究的门槛,让更多研究者能够低成本地进入这个领域。代码体量约数万行,全部开源并配有详细文档。

但很快我们发现,对于编程基础薄弱的研究者来说,理解这些代码依然困难。于是我们萌生了一个想法:能否做一个智能化的编程助手,用户只需提出需求,仿真即可自动完成,比商用VPI软件还要方便我们并非想做商用软件,而是希望以更友好的方式服务学术界。

契机出现在2023年初,ChatGPT引发了国内广泛关注。我们思考,能否借鉴大模型的思路实现一个可视化的智能编程助手?初期进展很快,我们用当时开源的8B参数模型(如通义千问),输入团队的代码库、上千篇论文和数十篇博士论文,到2023年六七月份,已经初步实现了自动编程功能。从某种意义上说,那时它已可被称为一个“光学大模型”。

但我们并未就此止步,而是进一步检验它到底“懂不懂”光学。通过与其他通用大模型对比测试,我们发现了一个令人警醒的问题:它对光学的理解能力还达不到当时最强的通用大模型GPT-4o虽然在回答专业问题时看似全面详尽,但专业人士细察之下,会发现不少事实性错误——这正是通用大模型常见的“幻觉”现象。它看似懂,实则并未真正理解。

这个发现让我们意识到,现有的路径并未达到预期目标。于是我们做出一个关键决定:彻底重构。我们摒弃了简单的微调思路,重新设计了一套完整的训练方法论,希望培养出一个真正理解光学的模型,再将编程作为其附属能力——就像培养博士生一样,先打好本科基础,再经过硕士、博士阶段的专业训练,最后才能胜任科研工作。我们重新规划了训练路径,历经近两年时间,才最终完成了整个过程。

所以,我们并非一开始就判定通用模型“不行”,而是需求牵引,一步步走到今天,最终发布了符合我们心目中标准的“光学大模型”。

让大模型真正“懂光”
成果创新
02

光电汇:我们注意到Optics GPT是从专业数据中“成长”而来,而非简单微调。团队在数据、架构和训练方法上做了哪些根本性创新?

义理林:这是个好问题。当前,垂直领域大模型已成为业界关注的热点。通用大模型能力虽强,但其训练资源需求远超一般团队所能承担;加上通用模型在行业知识的深度上又存在天然短板。因此,各领域都渴望打造自己行业的垂直大模型。

从技术门槛看,垂直大模型似乎并不高——拿开源模型做一些微调,就能获得一定程度的行业理解和应用能力。但问题是,这种能力存在明显的层次差异。就像在光通信这个深度垂直领域,本科生可以做,硕士生可以做,博士生也可以做,但即便博士之间的能力差异可能天差地别。所以,虽然都可以称为垂直大模型光通信专家,但究竟哪个才是真正的专家?

我们系统梳理了垂直大模型的四个层次:

第一层次,就是简单地做文献调用,也就是通常说的RAG技术。用户通过用通用大模型调用专业数据库,模型基于检索结果给出答案。它其实不懂光通信,只是机械地调用文献。没有真正的理解,这是最低层次。

第二个层次,是加上强化学习,通过提示词工程提升输出文本的质量。通过不断交互,让模型对齐用户的理解偏好,看起来回答得很好,但仍然没有真正理解。

第三个层次,是加上监督微调(SFT。这一阶段需要大量行业语料,让模型理解领域知识。目前相对优秀的垂直大模型基本都达到这一层次,取决于数据质量和语料规模——数十万行语料。但它仍然没有形成知识根基,只是读了一堆文件,读没读懂无从验证。其实我们在两年前已经实现这一步,但它还是没有真正理解知识。

第四层次,也是我们所追求的深度理解真正培养一个专家,必须遵循人类学习的逻辑。一个光通信专家的成长路径,从高中数理化学起,到大学学习光学、物理、高等数学、计算机、通信等交叉学科知识。我们在构建数据集时,严格遵循这一逻辑。

大学阶段,我们让模型系统学习物理、数学等理科基础知识。大学高年级阶段,我们给它找了1000本经典教材,进行增量后训练Post-training)。读完书之后,进入硕士阶段:大量阅读论文,我们输入10万量级的专业文献,涵盖光学、通信、计算机、物理等领域。同时输入代码——我们自研的代码、开源代码、通信标准、ITU-T标准等。这样就形成了一个金字塔式的知识结构:根基扎实,越往上越专业。到了博士阶段,我们希望它懂整个光学领域,所以又增加了文献量,累计到100万篇。到了专家阶段,我们再让模型做实验,获取实验数据并分析。

整个过程形成了一个从基础到专业、从理论到实践的金字塔结构。我们认为,这样训练出的模型,是目前最懂光学的专家。这个过程不能颠倒——必须先读书,再读论文,最后实践。这种训练方法虽然耗时耗力,投入的算力资源远超简单的微调,但这是让模型真正“理解”知识的不二法门。我们走了两年弯路才回到正轨,现在发布它,也是希望为行业提供一个标准:只有这样扎根,才能做出真正懂行业的垂直大模型。


走过捷径,才知无捷径可走
技术障碍
03

光电汇:如何让模型真正“理解”光学原理与复杂计算?这个过程中遇到的最大技术障碍是什么?是如何解决的?

义理林:让模型理解光学原理的技术障碍,本质上就是我刚才描述的整个训练过程和数据收集过程。没有这个系统性的学习过程,它不可能真正懂光学。所以一定一步不能少,不能走捷径。

我们碰到的最大障碍就是一开始走了捷径。我们曾认为,拿通用大模型喂一些文献数据,它就应该懂了——事实证明,它不可能懂。这让我们不得不回头,重新构建数据、重新训练、重新搭建框架,耗费了整整两年时间。

这也是为什么我们两年前就准备发布,却拖了两年时间。这两年我们一直在干这个事情:数据收集、数据清洗、数据处理、网络训练框架搭建、训练资源整合。这个训练资源远远大于做微调所需。这是我们走的弯路,也是我们最想分享的教训

我们之所以现在发布,并公开这套方法论,就是希望同行们不要再走同样的弯路。当前,垂直类模型良莠不齐,用户很难分辨哪个好、哪个不好。我们希望构建一个标准:只有按照这种方式扎根训练,才是真正理解行业知识的大模型。

至于问答是否流畅,那只是表象。就像一个资深博士,他的表达力可能不是最好的,但他理解的准确性无可替代。而那些看起来完全符合预期的回答,只是表达层面的优化问题,属于浅层优化,不是我们的重点。


垂直大模型的核心价值:“轻”且“可控”
落地关键
04

光电汇:将大模型做得“轻”且“可控”,对于落地至关重要。团队在这方面做了哪些关键的技术权衡?

义理林:这非常关键。我们内部也反复思考:花费巨大代价做一个轻量级垂直大模型,价值何在?通用大模型越来越强,会不会轻易被其覆盖?

经过深入分析,我们得出结论:垂直大模型的价值在于解决行业的本质需求,而非比拼问答能力通用大模型(如国内的千问、国外的Gemini)能力虽强,但存在一个致命缺陷——难以本地轻量级部署。数千亿参数的模型只能上云,而大量垂直领域的数据涉及安全隐私,无法上传云端。

因此,必须做到安全可控、本地部署。现在虽有模型公司提供私有化部署服务,但仍需占用大量资源。我们能否用一个小规模模型,实现可控?这是我们追求轻量化的初衷。

用小模型实现超大模型的能力——这正是垂直类大模型最大的价值所在:应用于行业,甚至实现设备端侧部署、单卡端侧部署。我认为这一定是垂类大模型的必然趋势。

这就是为什么我们从一个小小的8B通用模型起步,通过大量知识注入、专属训练框架、智能体协同,让它能够实现整个实验室的自主控制。因为我是用户,我清楚自己想要什么样的模型,就按照这个目标去打造。目前已经实现单点突破,效果显著。所以,轻量可控,是垂直大模型最核心的特色。


边界在哪儿?超越人类
应用赋能
05

光电汇:义老师,我们非常好奇您如何定义Optics GPT的能力边界?在科研和工业中如何赋能?目前有具体的合作项目吗?

义理林:模型的边界,包括超大模型,大家都在探索。最终边界就是AGI(通用人工智能)——达到人类智能的程度。但我认为,垂直大模型的边界或目标,不应止于达到人类智能,而应是超越人类以前的通用大模型全是学习人类产生的知识,不可能超越人类。但是垂直大模型的特点是可以和实验系统结合起来产生新的可能。

第一步,它已能大幅提升工作效率。我们已经将光学大模型植入整个实验系统,建成了全球智能化程度最高的光学实验室——这一点我可以自信地说。来自欧洲、美国的研究人员参观后,都想复制这个模式。因为做实验太耗时了,现在模型可以辅助完成实验。这是第一步,已经实现,但尚未超越人类。

下一步,我们将充分利用实验数据的优势。我们的系统可以源源不断地产生数据——几乎是无限的。我可以设置海量参数,让模型观察输出结果,教它理解这些结果的含义。当它理解后,就可以自主调整参数、模型、链路,观察输出变化。

我可以给它一个目标(如提升通信容量),让它不断尝试直至达成。它可能从海量数据中总结出人类尚未掌握的规律,找到突破现有容量瓶颈的新方法、新算法。这才是做这个大模型的原始初衷——用它推动科学发现,探索未知边界

因为光通信领域存在一个容量瓶颈,卡了行业将近20年。我们至今束手无策。边界在哪里?无人知晓。但也许,这样一个真正理解光学模型,能帮我们找到答案。

在合作项目上,我们正在两个方向推进:

  • 光通信领域:我们现在与深圳“万里眼”合作,将大模型能力植入其高速示波器,实现从传统设备到“智能示波器”的升级,能自动完成波形采集、数据解调、报告生成等全流程。

  • 激光加工方面:我们还与激光加工公司合作,用大模型自动调试激光加工路径和程序。未来,用户只需下达加工指令,模型即可自动完成加工。

光学有很多子领域,每一个子领域都有落地合作的可能只是我本人主攻光通信和激光,所以优先在这两个方向布局。


从基座模型到商业的闭环:可持续发展的探索
商业目标
06

光电汇:Optics GPT的发布是一个里程碑。接下来在模型迭代、商业化和拓展方面,最优先的目标是什么?

义理林:又要回到最初的那个问题——当初要做光学大模型,是有一个宏大的目标?那个时候没有。但到了这个里程碑时刻,我们的规划就清晰了。

第一步,打造光学基座大模型我们已经做到这一点,模型已具备全面的光学知识。接下来,我们会在其基础上,通过与合作方共建,下沉到光通信、激光、传感、成像、光电子芯片等更细分的子领域,形成一系列专用模型。我们希望建立一个“学术生态联盟”,合作方提供数据,我们负责训练,数据贡献者共享模型。这样既能丰富基座模型,又能保护数据知识产权。我们也会通过API向学术界开放,让大家都能免费试用

第二步,平衡商业化与开源起初我们想模型完全开源,但后来发现几个问题:一是开源可能导致数据知识产权被蒸馏;二是开源模型不可控,难以持续迭代;三是我们在开源仿真软件时就发现,没有持续资源投入,项目难以维持。

因此,我们设计的模式是:通过商业落地,赋能产业,跟产业合作形成反馈,再投入到学术,让本体模型变得更加强大,再免费向学术界开放。我希望既能对自身有帮助,又能让能力不断进化,最终赋能整个学术界。通过这种方式,降低光学研究门槛,推动科研快速迭代。这是一个必然的趋势——AI进步太快,如果学术研究还按传统的方式去做,跟不上AI的发展速度。所以商业模式一定要是正反馈、可持续的。

第三步跨领域拓展未来半年到一年,我们可能会发布一个更具颠覆性的成果——通用的偏微分方程求解大模型为什么能拓展到这个方向?因为光学中的光通信系统设计、激光系统设计,本质上是求解非线性薛定谔方程。为求解这一方程,需要构建底层神经网络。这个方向我们已深耕5年。从几百、几千参数的微小神经网络起步,持续升级,包括底层架构创新。目前模型已扩展到数亿参数,在非线性薛定谔方程求解上表现出极高的精度和和泛化能力

下一步,我们将进一步提升规模、优化架构,让它可以求解其他偏微分方程——非线性薛定谔方程只是偏微分的一个特例还将拓展到泊松方程、流体力学方程、麦克斯韦方程等。这是一个更大的目标。如果实现,将对整个数学领域、工程领域产生深远影响——涉及流体力学、发动机设计、汽车空气动力学等众多应用场景。这将让我们的研究从光学领域跃迁到一个更广阔的工程领域,这是我们的下一步目标。


Optics GPT:专业执行者,而非聊天助手
垂直大模型定位
07

光电汇:此前我们报道了您团队的大模型成果,引发了评论区的高度关注与讨论。可能有观众在实际使用过程中觉得这个专用光学大模型比一些联网的通用大模型效果略微逊色。请问义教授对这个观点怎么看?

义理林:首先感谢光电汇报道我们的大模型发布以及大家的关注和讨论。对于这类反馈,我想借机澄清一下垂直大模型与通用大模型的本质区别

通用大模型是绝佳的“知识获取与聊天工具”。如果只是想问问题、获取知识,可使用通义千问、Gemini等,它们会做得更好。

但垂直大模型的定位完全不同,追求的是知识的准确性和执行力,而非回答的流畅性或全面性。它的价值在于:理解你的专业指令、理解你的实验系统、然后快速准确地执行任务——帮你做实验、调参数、写代码、分析数据、完成科研。

我们现在开放的基础模型,是为了让同行能基于它训练自己的专用模型。而通过API开放的、注入了海量知识的版本,在知识准确性上已足够。我们之所以没把它调优成一个“问答高手”,是因为那不是我们的重点。让输出对齐用户偏好,通过强化学习很容易实现,但那只是锦上添花。

借此机会,我希望大家能理解垂直大模型的真正发展方向。现在大模型领域,业界已不再单纯关注评分排名,而是关注它能“做什么”,能为你“解决什么实际问题”。这才是最关键的。