高品質、多樣化數據集的可用性是機器學習快速發展的關鍵。然而,現實世界數據的收集和流通存在與成本、收集偏差和數據隱私相關的重大挑戰。面對這些挑戰,人工合成數據的概念作為一種有前途的解決方案而備受關注。透過建立與真實數據的統計屬性和模式高度相似的合成數據集,研究人員可以試驗不同的數據集,模擬罕見或極端場景,並在不損害隱私的情況下增強模型泛化能力。 該項目旨在探索人工數據合成技術,並開發具有可編程功能的整合數據合成軟體工具,產生與真實數據非常相似的表格和時間序列數據,同時確保敏感資訊的保護。該軟體工具將為希望利用合成資料進行創新和保護隱私的機器學習建模的組織提供低成本一站式解決方案。這將有利於包括技術解決方案供應商、行業數據持有者、模型審核服務機構和公眾在內的各種利害關係人。