Ziyu Guo

Ziyu Guo

📝 Publications

CoT/CoF Reasoning for Visual Generation

arXiv 2026 MME-CoF-Pro: Evaluating Reasoning Coherence in Video Generative Models with Text and Visual Hints.
Yu Qi*, Xinyi Xu*, Ziyu Guo*, Siyuan Ma*, Renrui Zhang*, Xinyan Chen, Ruichuan An, Ruofan Xing, Jiayi Zhang, Haojie Huang, Pheng-Ann Heng, Jonathan Tremblay, Lawson L.S. Wong.
[PDF] [Code] [WebPage] [Benchmark]

CVPR 2026 Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation.
Ziyu Guo*, Renrui Zhang†*, Hongyu Li*, Manyuan Zhang†, Xinyan Chen, Sifan Wang, Yan Feng, Peng Pei, Pheng-Ann Heng.
[PDF] [Code] [WebPage]

CVPR 2026 Findings Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study on the MME-CoF Benchmark.
Ziyu Guo*, Xinyan Chen*, Renrui Zhang*, Ruichuan An*, Yu Qi*, Dongzhi Jiang, Xiangtai Li, Manyuan Zhang, Hongsheng Li, Pheng-Ann Heng.
[PDF] [Code] [WebPage] [Benchmark]

arXiv 2025 Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step.
Ziyu Guo*, Renrui Zhang*, Chengzhuo Tong*, Zhizheng Zhao*, Peng Gao, Hongsheng Li#, Pheng-Ann Heng#.
[PDF] [Code]

NeurIPS 2025 T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT.
Dongzhi Jiang*, Ziyu Guo*, Renrui Zhang*, Zhuofan Zong, Hao Li, Le Zhuo, Shilin Yan, Pheng-Ann Heng#, Hongsheng Li#.
[PDF] [Code]

NeurIPS 2025 Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO.
Chengzhuo Tong*, Ziyu Guo*, Renrui Zhang*, Wenyu Shan*, Xinyu Wei, Zhenghao Xing, Hongsheng Li#, Pheng-Ann Heng#.
[PDF]

CoT Reasoning for Visual Understanding

ACL 2025 SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems.
Ziyu Guo*, Renrui Zhang*, Hao Chen*, Jialin Gao*, Dongzhi Jiang, Jiaze Wang, Pheng-Ann Heng#.
[Webpage] [Benchmark]

ICML 2025 MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency.
Dongzhi Jiang*, Renrui Zhang*, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li#.
[PDF] [Code] [Webpage] [Benchmark]

ICLR 2025 MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine.
Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Ziyu Guo, Shicheng Li, Yichi Zhang, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Chunyuan Li, Hongsheng Li#.
[PDF] [Code]

ECCV 2024 MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?.
Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Yu Qiao, Peng Gao, Hongsheng Li.
[Webpage] [Benchmark]

ICLR 2025 MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines.
Dongzhi Jiang*, Renrui Zhang*, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li#.
[PDF] [Code] [Webpage] [Dataset]

3D Large Models

arXiv 2023 Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following.
Ziyu Guo*, Renrui Zhang*, Xiangyang Zhu, Yiwen Tang, Xianzheng Ma, Jiaming Han, Kexin Chen, Peng Gao, Xianzhi Li#, Hongsheng Li, Pheng-Ann Heng.
[PDF] [Code]

arXiv 2025 Exploring the Potential of Encoder-free Architectures in 3D LMMs.
Yiwen Tang*, Ziyu Guo*, Zhuhao Wang*, Renrui Zhang, Qizhi Chen, Junli Liu, Delin Qu, Zhigang Wang, Dong Wang, Xuelong Li, Bin Zhao.
[PDF] [Code]

Tech Report SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners.
Ziyu Guo*, Renrui Zhang*, Xiangyang Zhu*, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng#.
[PDF] [Code] [Webpage] [Demo]

CVPR 2022 PointCLIP: Point Cloud Understanding by CLIP.
Renrui Zhang*, Ziyu Guo*, Wei Zhang, Kunchang Li, Xupeng Miao, Bin Cui, Yu Qiao, Peng Gao, Hongsheng Li#.
[PDF] [Code]

NeurIPS 2022 Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud Pre-training.
Renrui Zhang, Ziyu Guo, Rongyao Fang, Bin Zhao, Dong Wang, Yu Qiao, Hongsheng Li, Peng Gao#.
[PDF] [Code]

3D & Multi-modality Learning

ICCV 2025 StyleMotif: Multi-Modal Motion Stylization using Style-Content Cross Fusion.
Ziyu Guo, Young Yoon Lee, Joseph Liu, Yizhak Ben-Shabat, Victor Zordan, Mubbasir Kapadia#.
[Webpage]

ICLR 2024 Personalize Segment Anything Model with One Shot.
Renrui Zhang, Zhengkai Jiang*, Ziyu Guo*, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li#.
[PDF] [Code]

ICCV 2023 ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance.
Ziyu Guo*, Yiwen Tang*, Renrui Zhang*, Dong Wang, Zhigang Wang, Bin Zhao.
[PDF] [Code]

AAAI 2023 CALIP: Zero-Shot Enhancement of CLIP with Non-Parametric Attention.
Ziyu Guo*, Renrui Zhang*, Longtian Qiu*, Xupeng Miao, Bin Cui#.
[PDF] [Code]

IJCAI 2023 Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training.
Ziyu Guo*, Renrui Zhang*, Longtian Qiu, Xianzhi Li#, Pheng-Ann Heng.
[PDF]

WACV 2023 Nearest Neighbors Meet Deep Neural Networks for Point Cloud Analysis.
Renrui Zhang, Liuhui Wang, Ziyu Guo, Jianbo Shi#.
[PDF]

© Ziyu Guo