HumanTOMATO
研究提出了一种新的文本驱动全身动作生成任务,通过给定的文本描述生成高质量、多样且连贯的面部表情、手势和身体动作。HumanTOMATO 通过使用 Holistic Hierarchical VQ-VAE 和 Hierarchical-GPT 确保动作生成与文本的精确对齐。实验显示,该模型在动作生成质量和文本匹配度上有显著优势。