数据发布小组2025年度总结
目录
【MNBVC】数据发布小组 2025年终总结
项目开展情况
数据发布小组承担了MNBVC数据集与用户之间的最后一公里。2025年期间,数据发布小组持续在 Hugging Face Dataset Hub 上发布清洗好的高质量数据,通过自动化脚本和 MarK 的努力,上传了大量前期的积压数据,成功将 Hugging Face 上的 MNBVC 项目中的数据扩增了一倍以上。
在此特别感谢 MarK 的辛勤付出,他几乎以一己之力承担了上述数据的上传工作。
主要工作内容和成果
代码贡献与数据包发布:
- 2025年期间,小组在 MNBVC 项目中提交 62个PR,新增数据包约 50多个
下载量与社区影响力:
- 2025年期间,MNBVC语料集每月在 Hugging Face 有近 20万下载量
- 2025年12月份在 Hugging Face 所有数据集单月下载中排 第48名,在 Hugging Face 最受喜欢的数据集中排 第44名
- 比 MNBVC 单月下载量多且更受欢迎的数据集,仅有 5个(详见附录)
数据覆盖范围与规模
总体数据规模:
- 总共处理:225个数据包
- 上传数据量:2383.15 GB
数据内容分布详情:
| 数据类别 | 具体内容 | 数据包数量 |
|---|---|---|
| 平行语料 | UPRPRC联合国文件级别多语种对齐数据、chinadaily、usembassy-china、shooter.cn、stellaris | 多个 |
| 游戏平行语料 | 饥荒、文明6、霍格沃茨之遗、原神、星穹铁道、黑暗之魂3、Ib、荒野大镖客2、如龙、杀戮尖塔、魔女之泉、鸣潮、cyberpunk2077、DetroitBecomeHuman、hades、sekiro、EldenRing | 多个 |
| 论文语料 | arxiv 学术论文 | 50个 |
| 代码语料 | github 开源代码 | 118个 |
| 代码语料 | 游戏相关代码 | 1个 |
| 多模态网页语料 | qiushibaike(糗事百科) | 50个 |
| 博客语料 | IT技术博客、AI技术博客、163博客 | 1+1+2个 |
| 百科知识 | MBAwiki、wiki | 各1个 |
| 垂直领域 | 网络安全、金融、药品说明书 | 各1个 |
2025年数据发布工具建设工作
(一)操作流程
| 序号 | 操作流程 | 是否已自动化 | 备注 |
|---|---|---|---|
| 1 | 接受数据发布信息 | 否 | – |
| 2 | 到 dupan/README.md、dupan/README2.md 获取下载链接 | 否 | – |
| 3 | 通过百度网盘下载数据文件 | 否 | – |
| 4 | 解压数据文件 | 半自动 | – |
| 5 | 单独压缩各个数据文件 | 自动 | – |
| 6 | 在 Hugging Face/mnbvc 工程开启一个新 [PR:XXX] | 否 | – |
| 7 | 将所需数据文件上传到 Hugging Face 不同分类目录 | 否 | – |
| 8 | 修改 meta.py | 自动 | – |
| 9 | 修改 README.md 文件 | 否 | – |
| 10 | meta.py、README.md 文件上传 Hugging Face/mnbvc 工程 | 自动 | – |
| 11 | 通知 [PR:XXX] 合并 | 否 | – |
(二)耗时情况分析
当前流程存在以下 三个主要耗时环节:
- 第一,百度网盘下载(非会员情况下):每个数据包下载时长基本是 按周计算
- 第二,解压数据文件再进行单独压缩操作:每个数据包处理时间基本 3-4个小时
- 第三,上传数据包:若网络顺畅,1-2小时基本可以完成
(三)优化建议
基于以上情况,提出以下建议:
- 提高自动化程度,可加快整体速度
- 拥有百度网盘会员可显著提升下载速度(可达 70MB/s 甚至更快),此时瓶颈转为操作人员家中的网络速度
- 提供单独压缩各个数据文件的程序(若硬件允许,可按照 CPU 核数进行多线程并发操作),由数据清洗组完成相关操作,简化数据发布组的操作流程
人工分工
| 成员 | 职责 |
|---|---|
| silver | 统筹数据发布,审核数据发布PR |
| MarK | 上传(几乎所有)数据 |
总结与展望
MNBVC数据集已经在 Hugging Face 乃至整个 LLM 社区取得了较为深远的影响。在接下来的工作中,除了持续稳定地更新数据外,会考虑提供 “标准化评测” 和 “特定领域的高质量数据子集” ,以进一步提升 MNBVC 的影响力。
附录
Hugging Face 上比 MNBVC 月度下载更多且 like 更多的五个数据集:
- Hugging Face 官方推出的 Fineweb
- Hugging Face 官方推出的 Fineweb-Edu
- Salesforce 的 Wikitext(维基百科数据)
- OpenAI 的 GSM8K(纯数学题数据集,目前所有模型的数学能力评测基准之一)
- CAIS 的 MMLU(语言理解能力评测集,目前所有模型语言能力评测基准之一)
数据发布小组2025年度总结.txt · 最后更改: 由 MNBVC项目组
