中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数据局近日发布的数据显示,目前国内多数AI模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。
国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。
“在人工智能时代,Token,也就是大家通常所说的词元,是处理文本的最小数据单元,如同互联网时代大家所说的‘流量’。”刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,到今年6月底,日均Token消耗量已经突破30万亿,一年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。
据介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片),400PB的总量相当于中国国家图书馆数字资源总量的140倍左右。
人工智能模型的训练也推动了数据交易需求的攀升。截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。
下一步,国家数据局将通过体系化布局持续推进高质量数据集建设,加快打造具身智能、低空经济、生物制造等重点领域数据高地,推动全社会强化数据要素价值认同,加快推进数据要素价值共创,培育“为优质数据买单”的市场共识。(记者高亢)
1月28日晚,中央广播电视总台2025春节联欢晚会上,40名来自全国林草基层的代表共同献唱《我的家》,用歌声传达对绿水青山的热爱,深情歌颂美丽中 ...
在9日进行的英超足球联赛中,利物浦在先丢两球的情况下以2:2逼平阿森纳,延缓了“领头羊”的前进速度。水晶宫凭借奥利塞的助攻“帽子戏法”,以5:1 ...
2022-2023赛季法甲足球联赛9日结束了第30轮的全部比赛,积分榜排名第三的马赛在客场被洛里昂以0:0逼平,错失了追赶联赛“领头羊”的机会。 ...
葡萄牙体育队9日晚在葡超足球联赛第27轮比赛中客场以4:3险胜“升班马”卡萨皮亚队,继续排名联赛第四,距离欧冠区还有5分的差距。
2022-2023赛季中国男子篮球职业联赛(CBA)季后赛12进8附加赛10日晚继续进行,北京和广厦分别在主场轻松获胜,在三场两胜的赛制中占得先 ...
当日,中国女足在西班牙伊维萨岛进行赛前训练。作为备战今年女足世界杯的热身赛之一,中国女足与西班牙女足的热身赛将于11日举行。
这位不满26岁的年轻人是否还能更进一步?对于这一疑问,无论王嘉男的中方主管教练还是田径界专家都显示出信心,认为他还有不小的上升空间。
世界乒乓球职业大联盟(WTT)冠军赛布达佩斯站18日在布达佩斯奥林匹克中心拉开战幕,中国选手马龙轻松晋级,陈梦逆转胜出。
2023女足世界杯是该赛事第一次扩大为32支球队参加,由澳大利亚和新西兰联合举办。根据赛程,揭幕战将于7月20日在奥克兰上演,决赛将于8月20日 ...
国家体育总局排球运动管理中心10日发布了《体育总局排球中心关于选聘国家女排主教练的公告》,中国女排新任主帅的选聘工作正式启动。
智库邀请权威学者和知名医师加入,以公益、医疗和科研为三个抓手,旨在充分发挥专家的社会影响力和专业权威性,倡导科学的健身理念,以体育促进大众身心全 ...
第18届建桥杯中国女子围棋公开赛本赛27日在浙江长兴大唐贡茶院揭开战幕。不久前刚获得全运会混双冠军的老将芮乃伟九段首轮爆冷不敌赵贯汝,被淘汰出局 ...
哈萨克斯坦奥林匹克委员会国际司司长阿利姆然·阿卡耶夫24日表示,针对北京2022年冬奥会和冬残奥会的备战工作正在哈萨克斯坦全面展开,希望哈国运动 ...


16c9d167-f677-4eed-9cad-e16ef31b0ae6.png)
46337498-6baa-4da3-9cf2-97cf0440552f.png)
48168272-adc2-44c7-8a3b-80ea46331acf.png)








