【MNBVC】数据发布小组 2025年终总结

项目开展情况

数据发布小组承担了MNBVC数据集与用户之间的最后一公里。2025年期间，数据发布小组持续在 Hugging Face Dataset Hub 上发布清洗好的高质量数据，通过自动化脚本和 MarK 的努力，上传了大量前期的积压数据，成功将 Hugging Face 上的 MNBVC 项目中的数据扩增了一倍以上。

在此特别感谢 MarK 的辛勤付出，他几乎以一己之力承担了上述数据的上传工作。

主要工作内容和成果

代码贡献与数据包发布：

2025年期间，小组在 MNBVC 项目中提交 62个PR，新增数据包约 50多个

下载量与社区影响力：

2025年期间，MNBVC语料集每月在 Hugging Face 有近 20万下载量
2025年12月份在 Hugging Face 所有数据集单月下载中排 第48名，在 Hugging Face 最受喜欢的数据集中排 第44名
比 MNBVC 单月下载量多且更受欢迎的数据集，仅有 5个（详见附录）

数据覆盖范围与规模

总体数据规模：

总共处理：225个数据包
上传数据量：2383.15 GB

数据内容分布详情：

数据类别	具体内容	数据包数量
平行语料	UPRPRC联合国文件级别多语种对齐数据、chinadaily、usembassy-china、shooter.cn、stellaris	多个
游戏平行语料	饥荒、文明6、霍格沃茨之遗、原神、星穹铁道、黑暗之魂3、Ib、荒野大镖客2、如龙、杀戮尖塔、魔女之泉、鸣潮、cyberpunk2077、DetroitBecomeHuman、hades、sekiro、EldenRing	多个
论文语料	arxiv 学术论文	50个
代码语料	github 开源代码	118个
代码语料	游戏相关代码	1个
多模态网页语料	qiushibaike（糗事百科）	50个
博客语料	IT技术博客、AI技术博客、163博客	1+1+2个
百科知识	MBAwiki、wiki	各1个
垂直领域	网络安全、金融、药品说明书	各1个

2025年数据发布工具建设工作

（一）操作流程

序号	操作流程	是否已自动化	备注
1	接受数据发布信息	否	–
2	到 dupan/README.md、dupan/README2.md 获取下载链接	否	–
3	通过百度网盘下载数据文件	否	–
4	解压数据文件	半自动	–
5	单独压缩各个数据文件	自动	–
6	在 Hugging Face/mnbvc 工程开启一个新 [PR:XXX]	否	–
7	将所需数据文件上传到 Hugging Face 不同分类目录	否	–
8	修改 meta.py	自动	–
9	修改 README.md 文件	否	–
10	meta.py、README.md 文件上传 Hugging Face/mnbvc 工程	自动	–
11	通知 [PR:XXX] 合并	否	–

（二）耗时情况分析

当前流程存在以下 三个主要耗时环节：

第一，百度网盘下载（非会员情况下）：每个数据包下载时长基本是 按周计算
第二，解压数据文件再进行单独压缩操作：每个数据包处理时间基本 3-4个小时
第三，上传数据包：若网络顺畅，1-2小时基本可以完成

（三）优化建议

基于以上情况，提出以下建议：

提高自动化程度，可加快整体速度
拥有百度网盘会员可显著提升下载速度（可达 70MB/s 甚至更快），此时瓶颈转为操作人员家中的网络速度
提供单独压缩各个数据文件的程序（若硬件允许，可按照 CPU 核数进行多线程并发操作），由数据清洗组完成相关操作，简化数据发布组的操作流程

人工分工

成员	职责
silver	统筹数据发布，审核数据发布PR
MarK	上传（几乎所有）数据

总结与展望

MNBVC数据集已经在 Hugging Face 乃至整个 LLM 社区取得了较为深远的影响。在接下来的工作中，除了持续稳定地更新数据外，会考虑提供 “标准化评测” 和 “特定领域的高质量数据子集” ，以进一步提升 MNBVC 的影响力。

附录

Hugging Face 上比 MNBVC 月度下载更多且 like 更多的五个数据集：

Hugging Face 官方推出的 Fineweb
Hugging Face 官方推出的 Fineweb-Edu
Salesforce 的 Wikitext（维基百科数据）
OpenAI 的 GSM8K（纯数学题数据集，目前所有模型的数学能力评测基准之一）
CAIS 的 MMLU（语言理解能力评测集，目前所有模型语言能力评测基准之一）

目录