学校主页
Faculty

师资队伍

首页 / 师资队伍 / 特聘教授 / 正文
Faculty

特聘教授

张立朝

职称职务:
特聘副教授
所在学院:
人工智能研究院
邮箱:
zhanglichao@suat-sz.edu.cn
个人主页:
Google Scholar(https://scholar.google.com/citations?user=-MPXaHEAAAAJ&hl=en)
个人主页
职称职务 特聘副教授 前海外职称职务
所在学院 人工智能研究院 邮箱 zhanglichao@suat-sz.edu.cn
个人主页 Google Scholar(https://scholar.google.com/citations?user=-MPXaHEAAAAJ&hl=en)

个人简历

研究领域

研究聚焦机器学习与多模态大模型理论研究及其应用方向,包括多模态生成(如视觉生成)及多模态理解(如视觉目标定位)等任务。

个人简介

张立朝,山西运城人。2012年6月毕业于中国人民解放军空军工程大学,获计算机科学与技术学士学位。2014年12月获得空军工程大学信息与通信工程硕士学位,关注视觉目标跟踪表征研究。2015年10月-2019年11月,在西班牙巴塞罗那自治大学计算机视觉中心(Computer Vision Center)攻读博士学位,探索端到端多模态视觉跟踪网络训练。2019年12月留校空军工程大学任讲师。2023年-2024年访问西湖大学,2024年-2025年访问清华大学。曾获得VOT-RGBT 2019 Winner等奖项。于2025年9月加入深圳理工大学人工智能研究院任特聘副教授。

主要研究方向

视觉目标定位(跟踪)是视觉理解的重要内容,自深度学习普及以来,由于缺乏大规模训练数据、完备端到端训练架构,视觉目标跟踪未能真正实现端到端训练。
张立朝博士长期致力于多模态目标跟踪和视觉内容生成的研究。首次提出采用生成模型GAN生成大量的多模态跟踪数据,用于端到端训练多模态跟踪器,为提升多模态跟踪效果奠定数据基础;首次巧妙地利用不同视觉模态之间的天然对齐性,通过无监督训练方式,有效训练多模态跟踪器,而无需任何人工标注的训练数据。提出采用基于扩散模型的图像生成方法,结合大语言模型的文本处理能力,生成了大量个性化的多模态数据。同样,这些多模态数据能够促进多模态理解,比如多模态跟踪任务的发展。
在多模态跟踪的端到端训练架构方面,首次提出三种方式的多模态融合策略,即像素级别的融合、表征级别的融合和定位级别的融合,结合合成的多模态训练数据集,将多模态跟踪性能提升了6%以上,并获得VOT RGBT 2019冠军。为完善端到端架构,提出采用网络模型UpdateNet代替传统的线性插值方式,对跟踪器进行在线更新,利用少量训练序列通过多阶段训练,持续提升跟踪性能。目前,在深圳理工大学大模型研究中心,将会开展而不限于以下研究内容:
1.探索多模态大模型的理解和推理能力,比如多模态目标定位;
2.视觉内容生成,包括基于扩散模型、自回归模型等的图像生成和视频生成;
3.基于机器学习,如贝叶斯概率、随机过程等数学理论,探索大模型在不同学科中深入应用(AI for Science),比如生物医学、流体力学、机械设计等。


学习工作经历

学习经历

2015年10月至2019年11月,巴塞罗那自治大学,计算机科学,博士学位
2015年3月至2019年12月,空军工程大学,信息与通信工程,博士学历
2012年9月至2014年12月,空军工程大学,信息与通信工程,硕士
2008年9月至2012年6月,空军工程大学,计算机科学与技术,学士

工作经历

2019年12月-2025年9月, 空军工程大学,讲师
2024年9月-2025年3月, 清华大学,访问学者
2023年7月-2024年9月, 西湖大学,访问学者


学术成果

国际影响力

2019年,受邀ICCV 2019 Visual Object Tracking workshop,做“Multi-Modal Fusion for End-to-End RGB-T Tracking”学术报告。

所获荣誉

曾以第一作者身份,获得视觉目标跟踪领域VOT-RGBT 2019国际竞赛冠军。

科研成果

2021.01-2023.12:多模态视觉跟踪中端到端表征学习研究 (62006245),国家自然科学基金青年项目,主持
2022.04-2024.04:面向无人机多模态融合的目标表征与跟踪算法研究,高性能计算国家重点实验室(国防科技大学)开放课题,主持
2021-2022,建设研究生重点课程-《机器学习》,主持
2020.07-2020.12:面向XXX平台的无监督多模态视觉跟踪研究,军内科研,主持

Lichao Zhang, Abel Gonzalez-Garcia, Joost van de Weijer, Martin Danelljan, Fahad Shahbaz Khan. Learning the Model Update for Siamese Trackers. ICCV 2019.
Lichao Zhang, Martin Danelljan, Abel Gonzalez-Garcia, Joost van de Weijer, Fahad Shahbaz Khan. Multi-modal fusion for end-to-end RGB-T tracking. ICCV 2019 (VOT workshop).
Lichao Zhang, Abel Gonzalez-Garcia, Joost van de Weijer, Martin Danelljan, Fahad Shahbaz Khan. Synthetic data generation for end-to-end thermal infrared tracking. IEEE Transactions on Image Processing (TIP) 2018.
Zijie Chen*, Lichao Zhang*, Fangsheng Weng, Lili Pan, Zhenzhong Lan. Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting. CVPR 2024. (*共同一作)
Jingxian Sun*, Lichao Zhang*, Yufei Zha, Abel Gonzalez-Garcia, Peng Zhang, Wei Huang, Yanning Zhang. Unsupervised Cross-Modal Distillation for Thermal Infrared Tracking. In the 29th ACM International Conference on Multimedia (ACM MM), Chengdu, 2021. (*共同一作)
Lei Kang, Lichao Zhang, Dazhi Jiang. Learning Robust Self-Attention Features For Speech Emotion Recognition with Label-Adaptive Mixup. ICASSP, 2023.
Lichao Zhang*, Jia Yu*, Shuai Zhang, Long Li, Yangyang Zhong, Guanbao Liang, Yuming Yan, Qing Ma, Fangsheng Weng, Fayu Pan, Jing Li, Renjun Xu, Zhenzhong Lan. Unveiling the Impact of Multi-Modal Interactions on User Engagement: A Comprehensive Evaluation in AI-driven Conversations. arXiv, 2024.
Jia Yu*, Lichao Zhang*, Zijie Chen*, Fayu Pan, Miaomiao Wen, Yuming Yan, Fangsheng Weng, Shuai Zhang, Lili Pan, Zhenzhong Lan. Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design. arXiv, 2024. (*共同一作)
Lu Yu, Lichao Zhang, Joost van de Weijer, Fahad Shahbaz Khan, Yongmei Cheng, C Alejandro Parraga. Beyond eleven color names for image understanding. Machine Vision and Applications (MVAP) 2018.
Yaxing Wang, Lichao Zhang, Joost van de Weijer. Ensembles of generative adversarial networks. Advances in Neural Information Processing Systems Workshop on Adversarial Training (NeurIPS) 2016.