在多哈网络峰会上,ElevenLabs联合创始人兼首席执行官马蒂·斯坦尼谢夫斯基接受TechCrunch采访时提出,语音交互正在成为人工智能领域的关键发展方向。随着技术突破文本与屏幕的限制,语音有望成为人类与机器沟通的主要方式。他预测,未来人们将减少对手机屏幕的依赖,转而通过语音指令沉浸于现实世界,实现更自然的技术控制。
斯坦尼谢夫斯基指出,当前语音模型已突破单纯模仿人类语音的阶段,开始与大语言模型的推理能力深度融合。这种技术协同不仅赋予语音系统情感表达能力,更使其具备上下文理解能力,从而推动人机交互向智能化方向演进。ElevenLabs本周完成的5亿美元融资(估值达110亿美元)印证了这一趋势,OpenAI、谷歌等科技巨头均将语音作为下一代模型的核心战略,苹果则通过收购Q.ai等公司加速布局语音交互技术。
行业共识正在形成。Iconiq Capital普通合伙人赛斯·皮埃尔庞在峰会上表示,尽管屏幕在游戏娱乐领域仍具价值,但键盘等传统输入方式已显落后。随着AI系统智能化程度提升,交互模式将发生根本性转变——模型通过内置规则、数据集成和上下文分析,能够在用户未明确提示时自主响应,这种演变将重塑人机交互的底层逻辑。
斯坦尼谢夫斯基特别强调"智能体化"趋势对语音系统的颠覆性影响。未来的语音交互将摆脱指令式操作,转而依赖持续记忆和动态上下文,使系统能够主动理解用户需求。例如,用户无需逐字拼写指令,系统可根据历史交互记录和当前场景自动补全信息。这种进化正推动ElevenLabs调整技术架构,从纯云端处理转向混合部署模式,以支持耳机、智能眼镜等可穿戴设备的实时语音交互需求。
商业合作已展开实质性布局。ElevenLabs与meta达成战略合作,将其语音技术植入Instagram和Horizon Worlds等平台。斯坦尼谢夫斯基透露,公司正探索与meta的Ray-Ban智能眼镜进行深度集成,使语音成为贯穿虚拟与现实世界的持续交互媒介。这种技术渗透正引发新的社会争议——当语音系统成为日常硬件的标配,其持续监听特性可能带来隐私泄露、数据滥用等风险,谷歌等公司已因此面临监管审查。
技术演进与伦理挑战的碰撞,使语音AI成为行业焦点。从改变交互方式到重塑硬件形态,这场变革既蕴含着解放人类双手的潜力,也暴露出数字时代的新型治理难题。随着技术加速渗透至可穿戴设备、智能汽车等领域,如何平衡创新与监管,将成为决定语音交互能否真正普及的关键因素。