自然語言處理

自然語言處理

  • 自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。應科院已經建立了NLP的核心競爭力和技術,並將其應用於各種應用。

    技術亮點

    1. 中文自然語言處理器

     

    香港人獨特的書寫習慣--在書面語夾雜一些英語詞彙、表情符號、地方俚語、口語詞彙、行業術語,以及有意或無意的錯別字等等,進一步塑造具特色的語言系統。這種前所未有的「混合」表達方法,令分析語言以及相關情緒和情感的過程變得複雜。因此應科院研發了一套中文自然語言處理器(NLP)技術,以便分析這些書面段落內所蘊藏的真正含意。系統除配備內置的廣東話口語詞庫及「混淆詞彙集」,來辨別及更改常見的錯別字,以便詮釋箇中的語意。此技術可應用於社交媒體的大數據分析,包括情緒/情感分析、主題分析和語境分析,並可應用於協助教師評估小學生的書寫中文,並糾正常見的錯誤。

    若把自然語言處理器連接到語音識別引擎和對話系統時,即可化身成聊天機械人的應用程式或其他語音互動工具。

     

    1. 智能手機上的多種語言地址識別

    應科院團隊成功在智能電話上建構了能夠識別多種語言(英、法、德、意、西、葡)短消息中地址信息的正則表達式。團隊對每種語言均作了數十萬條句子測試,表達式的準確率和召回率均超過85%。有了此項技術,用戶可簡易地點擊智能電話上藏於短訊中的地址資料,並於地圖中搜尋。