語料申請
本語料庫來源為「教育部閩南語語音語料庫建置計畫」之成果(計畫主持人:廖元甫教授)。語料內容包含:(1)57位作者、各6000字文章,共約30萬字的台語原生文章資料;(2)約400位錄音員,每句有4~6位發音人,共計208小時,同時6支麥克風錄製的音檔。
可供申請的資料如下:
1.「教育部完整語料庫(TAT_MOE)」為上述原始成果,包含完整語音及所有文字JSON檔案,較適用於訓練電腦模型。(103GB)
2.「教育部完整語料庫-lavalier」為上述原始成果,但音檔僅一隻領夾式麥克風,檔案較小,較適用於測試。(17GB)
3.「國教院整理文字檔」為本院刪除重複資料後重新整理之EXCEL檔,較適用於文字資料應用。(2.2MB)
請視需求勾選欲申請之語料類型,填畢以下欄位並送出後,請至您所提供之電子郵件信箱收信,並依信中說明完成申請,待本院審核通過後,會將語料下載連結位址寄送至您所提供之電子郵件信箱,請於 7 日內下載,逾期將失效。
本語料庫引用方式:Liao, Y.-F. (2022). TAT_MOE Corpus [2022]. Ministry of Education. (Available online at https://tggl.naer.edu.tw. Retrieved on [使用者自填取得日期])