精品在线视频无吗|成人H免费片日另类诱惑|中文字幕一区二区无码视频|性爱亚洲中文欧美亚洲韩国爱|免费看无码一级A片放|人妻AⅤ一区二区三区A片|黄片网站观看视频|中文视频精品综合激情成人|看亚洲特黄片亚洲超碰|丁香五月在线视频

中華人民共和國最高人民檢察院主管 檢察日報社主辦
 
首頁>>裝備頻道>>行業(yè)動態(tài)

2027年要初步建立的“國家關鍵語料庫”是什么 怎么建

時間:2025-05-28 16:18:53  作者:楊潔  新聞來源:中國青年報

評論投稿 打印 轉發(fā) 復制鏈接  |  |  字號

“當前,隨著新一輪科技革命和產(chǎn)業(yè)變革,大語言模型、人工智能技術快速發(fā)展,語料庫的建設規(guī)模與應用范圍也經(jīng)歷了大幅度完善和拓展!鼻安痪,教育部語言文字信息管理司相關負責人提到,決定實施國家關鍵語料庫共建共享計劃,擴展關鍵領域,支持共建共享,推進應用轉化,為全方位釋放語言文字在經(jīng)濟社會發(fā)展中的數(shù)據(jù)要素價值奠定更加寬厚基礎。

近期,教育部、國家語委、中央網(wǎng)信辦印發(fā)《關于加強數(shù)字中文建設 推進語言文字信息化發(fā)展的意見》(以下簡稱《意見》)。其中提到,到2027年,國家數(shù)字中文建設行動取得重要成效,語言文字數(shù)據(jù)要素價值有效釋放;拘纬伞罢鲗、部門協(xié)同、社會參與、共建共享”的語言文字信息化工作機制;基本建成國家語言文字大數(shù)據(jù)中心,初步建成國家關鍵語料庫和國家戰(zhàn)略語言資源信息庫;語言文字信息化標準、前沿語言技術、優(yōu)質語言資源、新型語言服務等基礎支撐能力顯著增強。

“國家關鍵語料庫”是什么

《意見》提出,推動基礎性語言資源建設,實施國家關鍵語料庫共建共享計劃,重點支持建設大規(guī)模中文語料庫及高質量民族語言文字語料庫、手語盲文語料庫、行業(yè)領域語料庫、語言監(jiān)測動態(tài)語料庫等。

教育部語言文字信息管理司相關負責人在接受中青報·中青網(wǎng)記者專訪時提到,語料庫是自然語言處理、大語言模型、人工智能技術創(chuàng)新應用的重要支撐,是經(jīng)濟社會信息化建設、數(shù)字化賦能和智能化發(fā)展的基礎要素,促進語言數(shù)據(jù)賦能信息技術創(chuàng)新與信息技術賦能語言文字資源使用的雙向賦能。

以文化傳承領域為例,目前已經(jīng)建設了中華思想文化術語庫、中華精品字庫、甲骨文數(shù)據(jù)庫、中國語言資源保護數(shù)據(jù)庫等。

其中,中華思想文化術語庫包括了中華民族所創(chuàng)造或構建,凝聚、濃縮了中華哲學思想、人文精神、思維方式、價值觀念,以詞或短語形式固化的概念和核心詞。該語料庫中包括1200余條思想文化術語、中醫(yī)文化關鍵詞、典籍譯本、典籍譯名、博雅雙語詞等。

教育部語言文字信息管理司相關負責人提到,2024年,智能化學習工具“AI小語”正式上線!癆I小語”是以中華思想文化術語庫為基礎訓練語料、以大語言模型技術為核心技術的高交互感智能平臺,對賦能中華優(yōu)秀傳統(tǒng)文化對內(nèi)傳承和對外傳播具有重要意義。

截至目前,教育部、國家語委通過組織開發(fā)、集成匯聚、動態(tài)更新等方式,組織高校、企業(yè)、科研院所等,建設大規(guī)模高質量語料庫30余項,相關語料庫已廣泛應用于經(jīng)濟社會發(fā)展的關鍵領域。

“國家關鍵語料庫”怎么建

“信息技術深刻融入經(jīng)濟社會發(fā)展各領域,需要推動語言文字與信息技術的深度融合,找準兩者的結合點、融合點、發(fā)力點。”教育部語言文字信息管理司相關負責人說。

長期以來,國家語委會同有關部門研制并發(fā)布了《信息技術中文編碼字符集》等國家通用語言文字和民族語言文字信息化規(guī)范標準100多項,為自然語言處理技術在人工智能、數(shù)字產(chǎn)品和信息產(chǎn)業(yè)領域的應用創(chuàng)新奠定規(guī)范基礎。

面向人工智能時代,該負責人介紹,要開展語言資源建設、管理、應用、共享標準研究,重點推進語料庫、數(shù)據(jù)標注、數(shù)據(jù)評價等規(guī)范標準的制訂;服務教育教學,研制大語言模型能力素養(yǎng)(師生版),引導師生有效、安全使用大語言模型等人工智能技術;助力文化傳承,研制甲骨文數(shù)字化共享技術標準。

此外,既要支持語言文字信息處理基礎標準研究,也要鼓勵高校、企業(yè)開展行業(yè)標準、企業(yè)標準研制。加強與工信部、國家民委、國家標準委等部門單位合作。推動已有語言文字信息化相關規(guī)范標準的修訂工作,加強已有規(guī)范標準的宣傳推廣等。

在專業(yè)化人才隊伍培養(yǎng)上,教育部語言文字信息管理司相關負責人提到,推動高校增設語言智能、計算語言學等交叉學科方向,增設“語言文字+人工智能”核心課程。此外,鼓勵企業(yè)建設產(chǎn)教融合實訓基地,開展中文信息處理、多語種機器翻譯、語料加工處理、數(shù)據(jù)標注等技能培訓,提升中文專業(yè)以及相關專業(yè)學生的職業(yè)技能,擴大就業(yè)范圍和就業(yè)渠道。

“今年是落實《教育強國建設規(guī)劃綱要(2024-2035年)》的關鍵之年,語言文字信息化發(fā)展將展望十年、謀劃五年、立足三年,把握賦能全局高度,加快試點先行進度,激發(fā)協(xié)同創(chuàng)新力度,在落實重點任務上下功夫、見實效!痹谇安痪门e行的教育部新聞發(fā)布會上,教育部語言文字信息管理司司長劉培俊說。

[責任編輯:黃汐]
電子報
北京正義網(wǎng)絡傳媒有限公司 版權所有 未經(jīng)授權 嚴禁轉載 Copyright © 2026 JCRB.com Inc. All Rights Reserved.

京ICP備13018232號-3 | 互聯(lián)網(wǎng)新聞信息服務許可證10120230016 | 增值電信業(yè)務經(jīng)營許可證京B2-20203552
信息網(wǎng)絡傳播視聽節(jié)目許可證0110425 | 廣播電視節(jié)目制作經(jīng)營許可證(京)字第10541號
網(wǎng)絡出版服務許可證(京)字第181號 | 出版物經(jīng)營許可證京零字第220018號 | 京公網(wǎng)安備11010702000076號
網(wǎng)站違法和不良信息舉報電話:010-8642 3089