目录

【MNBVC】数据发布小组 2025年终总结

项目开展情况

数据发布小组承担了MNBVC数据集与用户之间的最后一公里。2025年期间,数据发布小组持续在 Hugging Face Dataset Hub 上发布清洗好的高质量数据,通过自动化脚本和 MarK 的努力,上传了大量前期的积压数据,成功将 Hugging Face 上的 MNBVC 项目中的数据扩增了一倍以上。

在此特别感谢 MarK 的辛勤付出,他几乎以一己之力承担了上述数据的上传工作。

主要工作内容和成果

代码贡献与数据包发布:

下载量与社区影响力:

数据覆盖范围与规模

总体数据规模:

数据内容分布详情:

数据类别 具体内容 数据包数量
平行语料 UPRPRC联合国文件级别多语种对齐数据、chinadaily、usembassy-china、shooter.cn、stellaris 多个
游戏平行语料 饥荒、文明6、霍格沃茨之遗、原神、星穹铁道、黑暗之魂3、Ib、荒野大镖客2、如龙、杀戮尖塔、魔女之泉、鸣潮、cyberpunk2077、DetroitBecomeHuman、hades、sekiro、EldenRing 多个
论文语料 arxiv 学术论文 50个
代码语料 github 开源代码 118个
代码语料 游戏相关代码 1个
多模态网页语料 qiushibaike(糗事百科) 50个
博客语料 IT技术博客、AI技术博客、163博客 1+1+2个
百科知识 MBAwiki、wiki 各1个
垂直领域 网络安全、金融、药品说明书 各1个

2025年数据发布工具建设工作

(一)操作流程

序号 操作流程 是否已自动化 备注
1 接受数据发布信息
2 到 dupan/README.md、dupan/README2.md 获取下载链接
3 通过百度网盘下载数据文件
4 解压数据文件 半自动
5 单独压缩各个数据文件 自动
6 在 Hugging Face/mnbvc 工程开启一个新 [PR:XXX]
7 将所需数据文件上传到 Hugging Face 不同分类目录
8 修改 meta.py 自动
9 修改 README.md 文件
10 meta.py、README.md 文件上传 Hugging Face/mnbvc 工程 自动
11 通知 [PR:XXX] 合并

(二)耗时情况分析

当前流程存在以下 三个主要耗时环节

(三)优化建议

基于以上情况,提出以下建议:

人工分工

成员 职责
silver 统筹数据发布,审核数据发布PR
MarK 上传(几乎所有)数据

总结与展望

MNBVC数据集已经在 Hugging Face 乃至整个 LLM 社区取得了较为深远的影响。在接下来的工作中,除了持续稳定地更新数据外,会考虑提供 “标准化评测”“特定领域的高质量数据子集” ,以进一步提升 MNBVC 的影响力。

附录

Hugging Face 上比 MNBVC 月度下载更多且 like 更多的五个数据集:

  1. Hugging Face 官方推出的 Fineweb
  2. Hugging Face 官方推出的 Fineweb-Edu
  3. Salesforce 的 Wikitext(维基百科数据)
  4. OpenAI 的 GSM8K(纯数学题数据集,目前所有模型的数学能力评测基准之一)
  5. CAIS 的 MMLU(语言理解能力评测集,目前所有模型语言能力评测基准之一)