谷歌新推多模态直播API，让AI音视频交互更自然流畅！-科技业界-发现者网

谷歌近期在科技界再次投下一枚震撼弹，伴随着Gemini 2.0版本的发布，一款名为多模态直播（Multimodal Live）的全新API也正式亮相。这款API旨在为开发者提供强大的实时音频与视频流功能，助力他们打造出更为先进的应用程序。

这款多模态直播API不仅实现了低延迟的双向文本、音频和视频交互，还通过音频和文本形式的输出，为用户带来了前所未有的自然流畅对话体验。用户可以随时随地打断模型，并通过摄像头输入或屏幕录像与模型进行互动，提出自己的疑问或分享见解。

多模态直播API的视频理解功能进一步拓展了通信的边界，用户现在可以使用摄像头实时拍摄或共享桌面内容，并基于此提出相关问题。这种创新的功能使得用户与模型的互动更加直观和高效。

为了推动这一技术的普及和应用，谷歌已经向开发者全面开放了这款API，并提供了一个多模态实时助手的演示应用。这一演示应用充分展示了API的强大功能和便捷性，为开发者提供了宝贵的参考和灵感。

这款API还支持集成多种工具，大大简化了开发过程。开发者只需进行一次API调用，就能轻松实现复杂的用例，从而大大提高了开发效率和用户体验。