标签: 中文互联网

  • 中文互联网语料资源平台与中文互联网基础语料2.0发布

    中文互联网语料资源平台与中文互联网基础语料2.0发布

    1月9日,中文互联网语料资源平台正式面向社会发布。该平台在中央网信办指导下,中国网络空间安全协会会同国家互联网应急中心,协同人工智能产、学、研、用单位,面向社会提供中文互联网基础语料展示下载服务。平台支持行业领域、内容模态、体量规模等多种标签分类,便于用户下载与使用。目前平台共入驻27个语料数据集,数据总量约2.7T,主要分三类:一是中国网络空间安全协会会同国家互联网应急中心等建设的中文互联网基础语料;二是人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料;三是中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位贡献的优质中文基础语料样本。同日,中文互联网基础语料2.0对社会发布,规模120GB,数据3800万条。

    —— 网信办 1, 2

  • 中文互联网正在加速崩塌

    中文互联网内容逐年消失 十年间下降了70%

    这两天有篇文章很火,刷屏了社交媒体,文章标题叫《中文互联网正在加速崩塌》。文章内容主要讲的是,以前那个年代曾经红火过的中文网站的内容正在消失,中文互联网正在迅速崩塌,移动互联网出现之前的中文互联网内容,已经几乎消失殆尽。

    那么,事实到底是不是这样呢?下面,我们通过各种具体数据来分析一下。

    有个名为“Web Techmology Surveys”的网站,根据全球网站使用的语言,统计了从2013年到2024年这些年来,主要网站页面内容语言使用的历史趋势,从这个表格可以看出,中文网页的数量从2013年的4.3%降低到2024年的1.3%,十年间下降了70%,目前,全球的中文网页数量仅仅略高于印尼语和越南语,而低于波兰语和波斯语。

    从CNNIC发布的《中国互联网络发展状况统计报告》的数据上看,从2018年12月到2023年12月,中国的网站数量从544万个下降到388万个,五年时间内下降近30%,这一数据反映了中文网站数量减少的严峻形势。中国网民规模达10.92亿人,互联网普及率达76.4%,网民数占全球的19%,而中文网页的数量却在10年间下降了70%,中文网站数量在5年间下降了30%,这的确说明,中文内容网站正在迅速减少,并逐步消亡。

    —— 月光博客