在AI视频生成领域,一场关于技术路线的竞争正愈演愈烈。当行业普遍聚焦于画面质量的提升时,米哈游前董事长蔡浩宇创立的AGI公司Anuttacon却另辟蹊径,推出了LPM 1.0模型,将虚拟角色的交互能力推向了新的高度。
长期以来,AI视频生成领域面临着“表演三难困境”:表现质量、实时推理和长程稳定性难以同时实现。大多数模型在短视频领域表现优异,但一旦涉及长时间、实时交互,便会出现角色特征骤变、身份不一致等问题。LPM 1.0的出现,打破了这一僵局。它通过引入在线流式生成架构,实现了真正意义上的“无限时长”视频生成,甚至在官网演示中展示了长达45分钟的视频。
LPM 1.0的核心突破在于其独特的“主干-精炼器”结构。通过分布匹配蒸馏的四阶段训练方式,模型将170亿参数的大型扩散模型压缩为两个部分:主干网络负责稳定视频的粗略轨迹,精炼器则还原高保真的表情细节。这种设计使得模型在内存占用恒定的情况下,能够维持近乎永恒的身份一致性,解决了自回归漂移导致的误差累积问题。
除了长程稳定性,LPM 1.0还首次实现了全双工的音视频对话。模型能够同时处理两路音频流:一路驱动AI的口型同步,另一路根据用户的语音实时调整反应。这使得AI能够像人类一样,根据语气和停顿产生点头、挑眉等微表情,大大增强了交互的自然性。尽管在画面真实度上仍有提升空间,但这种实时交互能力已让虚拟角色从“复读机”进化为具有生命感的数字化存在。
蔡浩宇的背景为Anuttacon的技术路线提供了独特优势。作为米哈游的最大股东,他将游戏开发中积累的“人类表演学”经验带入了AI领域。与字节跳动依赖海量泛娱乐数据不同,Anuttacon更注重数据的结构化和精细化。例如,LPM 1.0的“身份感知参考图像管线”不仅需要照片,还需全局外观、多视角图像甚至表情范例。这种对表演逻辑的深度解构,使得模型在角色表现力上达到了电影级质感。
在商业策略上,Anuttacon选择了完全不开源的路线。LPM 1.0不仅不公开模型权重和源代码,也暂不提供API或产品服务。这一决策源于其技术壁垒的独特性——模型不仅是一套算法,更是一套完整的视觉引擎,能够生成稳定、实时、长效的交互式数字化角色。在当前竞争格局下,这种能力被视为掌握虚拟世界的“唯一门票”。
然而,高算力需求仍是LPM 1.0面临的挑战。尽管经过优化,单GPU约0.35秒可处理1秒视频,但在大规模并发场景下,硬件成本和运维压力依然巨大。Anuttacon此前推出的买断制游戏《星之低语》虽以AI实时交互为核心,但因对话上下文承接问题未能覆盖算力成本,33.99元的定价也难以支撑长期运营。这表明,C端市场的高价值产品策略仍需验证。
相比之下,B端场景对LPM的需求更为迫切。虚拟主播、AI导师、客服等领域对长时间稳定性有刚需,而LPM驱动的AI角色可7天24小时运行,且无需昂贵的动捕设备,综合成本优势显著。若将LPM作为UGC平台的基础设施,用户仅需提供照片和文本即可生成表演,将大幅降低内容创作门槛,可能催生全新的互动媒体形式。
LPM 1.0的推出,标志着AI视频生成领域从“画质竞争”转向“交互深度”的新阶段。蔡浩宇的商业野心不仅限于米哈游,更在于通过技术差异化在AI领域开辟新赛道。当行业还在追求更高像素时,Anuttacon已通过实时生成的呼吸感和微表情,开启了虚拟角色在线交互的新时代。


