合成数据新框架：突破传统认知，解锁AI发展新场景与新挑战-产业经济-发现者网

在人工智能技术迅猛发展的当下，真实数据在成本、隐私、质量及可控性等方面面临的限制，正逐渐成为制约AI进一步突破的关键因素。特别是在医疗等高价值领域，真实数据获取难度极大，传统依赖数据自然产生的模式已难以满足需求。在此背景下，合成数据正从真实数据的补充角色，转变为构建高质量训练与评估数据的核心机制。

近期，南洋理工大学、清华大学、四川大学及中山大学的研究人员，基于对300余篇代表性文献的系统梳理，提出了一个全新的合成数据分类框架——How / Why / Where框架。该框架突破了“生成模型=合成数据”的传统认知，将反演、仿真与数据增强等方法纳入合成数据范畴，并从应用层面勾勒出更完整的发展路径。

传统观念中，合成数据常被等同于“用生成模型制造数据”，但新框架明确指出，合成数据的方法边界远不止于此。研究人员通过分类框架，将合成数据方法划分为反演、仿真、增强及生成模型四大类，并详细梳理了各类方法的特点与适用场景。例如，反演方法通过逆向工程从输出反推输入，适用于数据稀缺但模型可解释性要求高的场景；仿真方法则通过构建虚拟环境生成数据，在自动驾驶、机器人训练等领域具有显著优势。

在应用层面，新框架将合成数据的作用组织为一条逐步演进的能力路径，涵盖数据中心AI、模型中心AI、可信AI及具身AI四个层次。数据中心AI作为最基础层次，旨在解决真实数据稀缺、获取成本高及隐私受限等问题，通过合成数据扩展训练集并提升数据质量。模型中心AI则进一步利用合成数据提升模型推理、编码与对齐能力，并构建可控的评测基准。可信AI阶段，合成数据被广泛应用于隐私保护、安全防护、公平性提升及模型可解释性分析。最终，在具身AI层次，合成数据支持智能体在复杂物理环境中进行感知、交互与泛化，推动AI从数字空间走向现实世界。

为更系统地指导实践，研究人员将上述四类应用场景细化至30余个具体机器学习任务层级。例如，在数据中心AI中，涵盖零/少样本学习、联邦学习、无数据学习及数据蒸馏等任务；在模型中心AI中，细分为模型通用能力提升、推理能力增强及基于合成数据的模型评测等任务；可信AI则聚焦于隐私保护、模型攻击防护及可解释性分析等；具身AI则延伸至感知、交互及跨场景泛化等面向真实环境的任务。

尽管合成数据在方法体系与应用落地方面已取得显著进展，但其发展仍面临诸多挑战。模型坍塌是其中之一，当模型反复在自身生成的数据上迭代训练时，可能导致数据分布收缩、多样性下降，进而影响模型性能与泛化能力。数据效用与隐私保护的权衡也是长期存在的问题，过强的隐私约束可能降低数据可用性，而过高的数据保真度则可能带来隐私泄露风险。当合成数据用于模型评测时，还可能引入生成-评测偏差，导致评估结果失真。

在方法层面，主动式数据合成与多模态数据合成等前沿方向仍有待探索。主动式数据合成强调根据模型需求动态生成最有价值的数据，以提升数据利用效率；多模态数据合成则关注如何生成语义一致、跨模态对齐的高质量数据，这对多模态模型的发展尤为关键。同时，如何系统性评估合成数据的质量仍是基础但尚未完全解决的问题，目前仍缺乏统一且标准化的评测体系。