當前位置：首頁 >知識 >國內多數AI模型訓練使用的中文數據占比已超60% — 新京報正文

國內多數AI模型訓練使用的中文數據占比已超60% — 新京報

時間：2025-11-30 17:05:43 來源：素昧平生網

據新華社消息，國內中文數據在國內AI大模型的多數的中訓練性能提升方面發(fā)揮著重要作用。國家數據局近日發(fā)布的模型數據顯示，目前國內多數AI模型訓練使用的訓練中文數據占比已經超過60%，有的使用模型達到80%。中文高質量數據的文數開發(fā)和供給能力持續(xù)增強，推動我國人工智能模型性能快速提升。據占京報

國家數據局局長劉烈宏表示，比已我國人工智能的超新快速發(fā)展，與我國高度重視數據工作是國內密不可分的。作為人工智能發(fā)展的多數的中核心要素之一，數據在推動“人工智能+”過程中發(fā)揮著關鍵作用，模型高質量數據集的訓練建設至關重要。

“在人工智能時代，使用Token，文數也就是大家通常所說的詞元，是處理文本的最小數據單元，如同互聯(lián)網時代大家所說的‘流量’?！眲⒘液杲榻B，2024年初，我國日均Token的消耗量為1000億，到今年6月底，日均Token消耗量已經突破30萬億，一年半時間增長了300多倍，反映了我國人工智能應用規(guī)模的快速增長。

據介紹，截至今年6月底，我國已經建設高質量數據集超過3.5萬個，總體量超過了400PB（1PB可存儲約5億張2MB大小的高清照片），400PB的總量相當于中國國家圖書館數字資源總量的140倍左右。

人工智能模型的訓練也推動了數據交易需求的攀升。截至今年6月底，各地高質量數據集累計交易額近40億元，數據交易機構掛牌的高質量數據集總規(guī)模達到了246PB。

下一步，國家數據局將通過體系化布局持續(xù)推進高質量數據集建設，加快打造具身智能、低空經濟、生物制造等重點領域數據高地，推動全社會強化數據要素價值認同，加快推進數據要素價值共創(chuàng)，培育“為優(yōu)質數據買單”的市場共識。

編輯劉佳妮

來源：新華社

美國暫停向持有阿富汗護照的個人簽發(fā)簽證

國際皇冠杯澳大利亞隊戰(zhàn)勝美國隊奪冠中國隊T7

中國油畫學會原副主席韋爾申逝世

鄭智化的“連滾帶爬”：一場公共批評的“內爆”

競彩大勢：霍芬海姆主場值得信任巴薩大勝可期

超12億元！富力奉賢萬達廣場被拍賣，廊坊等地的酒店資產也將再被拍

武漢市委原書記郭元強，新職明確

未來10年再造一個中國高技術產業(yè)

馬英九：賴清德形同宣布臺灣進入“準戰(zhàn)爭狀態(tài)”

美國賓夕法尼亞州大學槍擊事件已致1死6傷

上一篇：寒武紀：選舉陳天石為公司第三屆董事會董事長
下一篇：寒武紀：選舉陳天石為公司第三屆董事會董事長

亚洲天堂不卡,国产亚洲精品v,午夜97,av网站在线播放,999久久精品,久久久久久天堂,午夜欧美福利

國內多數AI模型訓練使用的中文數據占比已超60% — 新京報