H2-LLM: Hardware-Dataflow Co-Exploration for Heterogeneous Hybrid-Bonding-based Low-Batch LLM Inference

June 21, 2025·

Cong Li

,

Yihan Yin

,

Xintong Wu

,

Jingchen Zhu

,

Zhutianya Gao

,

Dimin Niu

,

Qiang Wu

,

Xin Si

Yuan Xie

,

Chen Zhang

,

others

· 0 min read

Type

Conference paper

Publication

Proceedings of the 52nd Annual International Symposium on Computer Architecture. 🏆Best Paper Award

Last updated on June 21, 2025

Yuan Xie

Authors

Chair Professor

Fang Professor of Engineering | Chair Professor | IEEE/ACM/AAAS Fellow

← MemTunnel: a CXL-based Rack-Scale Host Memory Pooling Architecture for Cloud Service August 20, 2025

TRACI: Network Acceleration of Input-Dynamic Communication for Large-Scale Deep Learning Recommendation Model June 21, 2025 →