歡迎您光臨本站 註冊首頁

Mozilla 開源語音收集計劃 Common Voice 擴大支持漢語普通話

←手機掃碼閱讀     admin @ 2019-05-11 , reply:0

開發開源 Firefox 瀏覽器的非營利組織 Mozilla 宣布,其所推動地最大語音數據收集計劃——Common Voice 平台已正式支持漢語普通話。在廣大的 Mozilla 社群及語言專傢伙伴的辛勤努力下,從現在開始,網友可到 Common Voice 的簡體中文網站(https://voice.mozilla.org/zh-CN錄製音頻。

 

●     Mozilla 開始收集大陸地區漢語語音數據,更進一步充實其公開語音數據集

●     現已收集 27 種不同語言的語音文件,並將再擴大支持 72 種語言

●     Common Voice 是史上最大的開源語音轉錄文字數據集,其最新發布的資料庫包括來自超過 4.2 萬貢獻者的 18 種語言錄製的語音文件,總長近 1,400 小時

 

語音介面是互聯網未來的大勢所趨。車載語音助理、智能手錶、智能燈泡等等……內建語音識別技術的設備可謂與日俱增。然而,相關技術的創新仍面臨著重大阻礙:有意打造語音輔助方案的創新公司、研究人員或各種開發者都需取得大量轉錄為文字的語音數據,才能訓練機器學習的演算法。但現有公開語音數據集的語音數據量與支持語種數都極其有限,而私有的語音數據不但僅掌握在少數幾家公司手中,其費用還很高。

 

因此,Mozilla 自 2017 年 6 月起展開 Common Voice 計劃,希望建立全球化的開源語音資料庫,以應對語音介面的發展需求並突破現階段的市場局限。Mozilla 認為,此類介面不該只把持在少數幾家握有語音服務技術的廠商手中,而且,希望能讓用戶以自己的語言和熟悉的腔調來吸收和了解信息。

 

已收集包括漢語(普通話)在內的 27 種語音數據

 

Common Voice 在 2018 年 6 月開始收集多語言語音數據。從那時起,此項目便不斷壯大,變得更全球化、更具包容性。在過去 10 個月間,大批的熱血貢獻者踴躍響應,已在 Common Voice 網站上發起 27 種語言的語音文件收集計劃,另外還有高達 72 種語言的錄音計劃正在進行中。

 

最新加入的語言是漢語(普通話)。現在,世界各地的網友都可以到 https://voice.mozilla.org/zh-CN 網站「捐獻聲音」,或驗證其他人的錄音。

 

語音貢獻者可以選擇保留項目記錄,以掌握自己的錄音記錄。此外,還可以選擇提供人口特徵信息,以協助 Mozilla 改善用以訓練語音識別引擎的語音數據。

 

如 Common Voice 收集的其他語言數據,Mozilla 對於漢語(普通話)的目標是要累積約 1 萬小時的通過驗證的音頻,因為 1 萬小時的音頻量才足以訓練出完備的語音識別系統,這樣大家才能共同推動語音識別技術的進展。無論在上班途中、公交車上、午休時間、家裡,還是與親朋好友齊聚一堂時,都可以通過 voice.mozilla.org 網站或 iOS 應用,只要有手機或計算機,你就能捐出聲音或驗證其他人的音頻。

 

Mozilla 開源創新計劃總監 George Roter 表示:「就算一個人只錄或聽幾秒鐘的音頻,但如果貢獻者多達數十萬,加起來的數據量就會非常驚人!當更多人都願意出一份力時,這套語音數據集的價值就能更快提升。」

 

發布多語言語音數據集

 

Mozilla 將不忘初衷,繼續充實語音數據集的內涵,使其成為人人可用的公共資源。並已於今年二月發布第一批的多語言語音數據集,其中共涵蓋 18 種語言的錄音文件,包括:英語、法語、德語和漢語(台灣地區)等廣泛通行的語言,以及威爾士語及卡比爾語等較為冷門的語言。Common Voice 至今已收集超過 4.2 萬人貢獻的錄音,總長度約 1,400 小時,且語音數據量仍在持續增長中。

 

在此數據集發布后,Common Voice 的規模已超越其他同類型的語音數據集,並已將數萬人的錄音文件及對應文字開放給公眾使用(采 CC0 授權)。任何人都可到 Common Voice 網站下載完整的語音數據集。

 

George Roter 進一步表示:「Mozilla 致力於促進更加多元化的創新語音科技生態系的發展。我們不但希望能自行推出語音技術的產品,也立志傾力支持研究人員及小型企業的發展,在建立全球最大公共的多語言語音數據集的過程中,我們很榮幸得到越來越多人的幫助,也很感謝志願者們的熱情相挺,讓我們成功開展對於漢語普通話的支持。」


[admin ] Mozilla 開源語音收集計劃 Common Voice 擴大支持漢語普通話已經有210次圍觀

http://coctec.com/news/all/show-post-205242.html