用於防止资料洩露和不良回应的大语言模型访问护盾 (ARD/320)

项目名称:

项目编号:

ARD/320

项目类型:

种子

项目推行期:

17 / 05 / 2024 - 16 / 05 / 2025

Funds Approved (HK$’000):

2799.100

项目统筹人:

蓝苾峰博士

副项目统筹人:

交付项目:

研究团队:

赞助:

汇卓科技有限公司

描述:

这个项目旨在应对因大语言模型（LLM）的使用在各个行业迅速扩散而带来的安全问题。我们的目标是帮助机构开发可定制的保护措施，以促进安全使用LLM，特别是在防范敏感数据洩露和防止生成不良回应方面。该项目将开发一个大语言访问护盾（LLM Access Shield）系统，这是一个用於在用户提示和LLM回应中检测敏感数据和不良内容的输入输出安全防护框架，主要由训练数据生成模块，针对安全的特定领域大语言模型（DLMS）和敏感数据匿名化模块组成。训练数据生成模块用於根据用户可配置的敏感类别和提示模板產生训练数据。DLMS旨在获取特定领域的词汇和上下文，通过模型微调提高其识别潜在违反数据政策的行為和不良LLM回应的能力。敏感数据匿名化模块在使用者提示中实施原位格式保留加密 (FPE)，有助於在所提供的回应中保持上下文意义。 LLM访问护盾帮助机构安全地使用LLM，减少法律和财务风险，遵守数据保护法规，并提高对LLM生成内容的整体信任。

共同申请人:

关键字: