基於語義信息和非語義信息的智能音頻檢索 (ART/323CP)

基於語義信息和非語義信息的智能音頻檢索 (ART/323CP)

基於語義信息和非語義信息的智能音頻檢索 (ART/323CP)
ART/323CP
平台
22 / 04 / 2021 - 21 / 04 / 2022
5,779.893

蘆運照 博士

廉政公署 (贊助機構)


廉政公署會記錄大量採訪,投訴,電話等錄音內容。錄音記錄不是結構化良好的數據,並且難以搜索信息滿足調查需求。該項目將利用混合語言的語音識別,並擴展對聲學場景分類,語音索引和聲紋索引的研究,幫助廉政公署運用多重標準從中高效地搜索信息。 智能音頻索引器的研究將使用聲學場景分類技術建立主題自適應模型進行語義索引,並使用說話人識別模型建立聲紋索引。基於這些研究,廉政公署將提供100個小時的初步培訓數據,以訓練機器學習模型。 聲學場景分類研究的設計流程是準備音頻數據,將音頻轉換為時頻域的梅爾頻譜圖,並使用卷積神經網絡進行深度神經網絡訓練,並將輸出完全連接起來作為全局分類器。然後,使用全局分類器將傳入的音頻分類為特定主題。聲紋索引的研究的設計流程為準備音頻數據,將音頻特徵編碼為說話者隱層特征以及使用i-vector進行時間深度神經網絡訓練以建立打分模型。 項目的交付將包括具有主題自適應模型的語音轉錄,並且具有聲學場景分類,基於語義信息和非語義信息(聲紋信息)的音頻索引器以及相關服務器服務程序作為整體解決方案。