![]() ![]() |
語料庫的分類 |
作者:admin 文章來源:本站原創(chuàng) 點擊數(shù) 更新時間:2011-11-16 文章錄入:admin 責任編輯:admin |
|
語料庫的分類 語料庫根據(jù)收錄語料的內容和屬性不同,通?煞譃橐韵滤姆N類型: ■異質型語料庫 異質型語料庫(Heterogeneous corpus)指沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料。如英國牛津大學計算中心的OTA文本檔案庫。 ■同質型語料庫 同質型語料庫(Homogeneous)指只收集同一類內容的語料。例如收集與軍事的文本的美國TIPSTER語料庫。另外,還有國內的新華社“新聞語料庫”、北京大學計算語言學所與富士通公司合作開發(fā)的“日報語料庫”、香港城市大學語言資訊中心的中文五地區(qū)共時語料庫(Linguistic Variety in Chinese Communities)等。 ■系統(tǒng)型語料庫 系統(tǒng)型語料庫(Systematic)指根據(jù)預先確定的原則和比例收集語料,使語料具有平衡性和系統(tǒng)性,能夠代表某一范圍內的語言事實。如:北京語言大學的“現(xiàn)代漢語語料庫系統(tǒng)”、北京語言大學與香港理工大學合作的“現(xiàn)代漢語語料庫”、北京語言大學與清華大學合作的“現(xiàn)代漢語語料庫”、清華大學中文系的“清華TH語料庫”、語言文字工作委員會語用所的“現(xiàn)代漢語語料庫”等。 ■專用型語料庫 專用型語料庫(Specialized)指只收集用于某一特定用途的語料。如:美國卡耐基-梅隆大學為兒童心理語言學而的CHILDES語料庫、為珍藏人文科學著作和資料而的美國北美人文科學語料庫等。 |
![]() ![]() |