用於防止資料洩露和不良回應的大語言模型訪問護盾 (ARD/320)

項目名稱:

項目編號:

ARD/320

項目類型:

種子

項目推行期:

17 / 05 / 2024 - 16 / 05 / 2025

Funds Approved (HK$’000):

2799.100

項目統籌人:

藍苾峰博士

副項目統籌人:

交付項目:

研究團隊:

贊助:

匯卓科技有限公司

描述:

這個項目旨在應對因大語言模型（LLM）的使用在各個行業迅速擴散而帶來的安全問題。我們的目標是幫助機構開發可定制的保護措施，以促進安全使用LLM，特別是在防範敏感數據洩露和防止生成不良回應方面。該項目將開發一個大語言訪問護盾（LLM Access Shield）系統，這是一個用於在用戶提示和LLM回應中檢測敏感數據和不良內容的輸入輸出安全防護框架，主要由訓練數據生成模塊，針對安全的特定領域大語言模型（DLMS）和敏感數據匿名化模塊組成。訓練數據生成模塊用於根據用戶可配置的敏感類別和提示模板產生訓練數據。DLMS旨在獲取特定領域的詞彙和上下文，通過模型微調提高其識別潛在違反數據政策的行為和不良LLM回應的能力。敏感數據匿名化模塊在使用者提示中實施原位格式保留加密 (FPE)，有助於在所提供的回應中保持上下文意義。 LLM訪問護盾幫助機構安全地使用LLM，減少法律和財務風險，遵守數據保護法規，並提高對LLM生成內容的整體信任。

共同申請人:

關鍵字: