高品质、多样化数据集的可用性是机器学习快速发展的关键。然而,现实世界数据的收集和流通存在与成本、收集偏差和数据隐私相关的重大挑战。面对这些挑战,人工合成数据的概念作為一种有前途的解决方案而备受关注。透过建立与真实数据的统计属性和模式高度相似的合成数据集,研究人员可以试验不同的数据集,模拟罕见或极端场景,并在不损害隐私的情况下增强模型泛化能力。 该项目旨在探索人工数据合成技术,并开发具有可编程功能的整合数据合成软体工具,產生与真实数据非常相似的表格和时间序列数据,同时确保敏感资讯的保护。该软体工具将為希望利用合成资料进行创新和保护隐私的机器学习建模的组织提供低成本一站式解决方案。这将有利於包括技术解决方案供应商、行业数据持有者、模型审核服务机构和公眾在内的各种利害关係人。