基於语义信息和非语义信息的智能音频检索 (ART/323CP)

基於语义信息和非语义信息的智能音频检索 (ART/323CP)

基於语义信息和非语义信息的智能音频检索 (ART/323CP)
ART/323CP
平台
22 / 04 / 2021 - 21 / 04 / 2022
5,779.893

芦运照 博士

廉政公署 (赞助机构)


廉政公署会记录大量採访,投诉,电话等录音内容。录音记录不是结构化良好的数据,并且难以搜索信息满足调查需求。该项目将利用混合语言的语音识别,并扩展对声学场景分类,语音索引和声纹索引的研究,帮助廉政公署运用多重标準从中高效地搜索信息。 智能音频索引器的研究将使用声学场景分类技术建立主题自适应模型进行语义索引,并使用说话人识别模型建立声纹索引。基於这些研究,廉政公署将提供100个小时的初步培训数据,以训练机器学习模型。 声学场景分类研究的设计流程是準备音频数据,将音频转换為时频域的梅尔频谱图,并使用卷积神经网络进行深度神经网络训练,并将输出完全连接起来作為全局分类器。然后,使用全局分类器将传入的音频分类為特定主题。声纹索引的研究的设计流程為準备音频数据,将音频特徵编码為说话者隐层特征以及使用i-vector进行时间深度神经网络训练以建立打分模型。 项目的交付将包括具有主题自适应模型的语音转录,并且具有声学场景分类,基於语义信息和非语义信息(声纹信息)的音频索引器以及相关服务器服务程序作為整体解决方案。