用户工具

站点工具


数据发布小组2025年度总结

【MNBVC】数据发布小组 2025年终总结

项目开展情况

数据发布小组承担了MNBVC数据集与用户之间的最后一公里。2025年期间,数据发布小组持续在 Hugging Face Dataset Hub 上发布清洗好的高质量数据,通过自动化脚本和 MarK 的努力,上传了大量前期的积压数据,成功将 Hugging Face 上的 MNBVC 项目中的数据扩增了一倍以上。

在此特别感谢 MarK 的辛勤付出,他几乎以一己之力承担了上述数据的上传工作。

主要工作内容和成果

代码贡献与数据包发布:

  • 2025年期间,小组在 MNBVC 项目中提交 62个PR,新增数据包约 50多个

下载量与社区影响力:

  • 2025年期间,MNBVC语料集每月在 Hugging Face 有近 20万下载量
  • 2025年12月份在 Hugging Face 所有数据集单月下载中排 第48名,在 Hugging Face 最受喜欢的数据集中排 第44名
  • 比 MNBVC 单月下载量多且更受欢迎的数据集,仅有 5个(详见附录)

数据覆盖范围与规模

总体数据规模:

  • 总共处理:225个数据包
  • 上传数据量:2383.15 GB

数据内容分布详情:

数据类别 具体内容 数据包数量
平行语料 UPRPRC联合国文件级别多语种对齐数据、chinadaily、usembassy-china、shooter.cn、stellaris 多个
游戏平行语料 饥荒、文明6、霍格沃茨之遗、原神、星穹铁道、黑暗之魂3、Ib、荒野大镖客2、如龙、杀戮尖塔、魔女之泉、鸣潮、cyberpunk2077、DetroitBecomeHuman、hades、sekiro、EldenRing 多个
论文语料 arxiv 学术论文 50个
代码语料 github 开源代码 118个
代码语料 游戏相关代码 1个
多模态网页语料 qiushibaike(糗事百科) 50个
博客语料 IT技术博客、AI技术博客、163博客 1+1+2个
百科知识 MBAwiki、wiki 各1个
垂直领域 网络安全、金融、药品说明书 各1个

2025年数据发布工具建设工作

(一)操作流程

序号 操作流程 是否已自动化 备注
1 接受数据发布信息
2 到 dupan/README.md、dupan/README2.md 获取下载链接
3 通过百度网盘下载数据文件
4 解压数据文件 半自动
5 单独压缩各个数据文件 自动
6 在 Hugging Face/mnbvc 工程开启一个新 [PR:XXX]
7 将所需数据文件上传到 Hugging Face 不同分类目录
8 修改 meta.py 自动
9 修改 README.md 文件
10 meta.py、README.md 文件上传 Hugging Face/mnbvc 工程 自动
11 通知 [PR:XXX] 合并

(二)耗时情况分析

当前流程存在以下 三个主要耗时环节

  • 第一,百度网盘下载(非会员情况下):每个数据包下载时长基本是 按周计算
  • 第二,解压数据文件再进行单独压缩操作:每个数据包处理时间基本 3-4个小时
  • 第三,上传数据包:若网络顺畅,1-2小时基本可以完成

(三)优化建议

基于以上情况,提出以下建议:

  • 提高自动化程度,可加快整体速度
  • 拥有百度网盘会员可显著提升下载速度(可达 70MB/s 甚至更快),此时瓶颈转为操作人员家中的网络速度
  • 提供单独压缩各个数据文件的程序(若硬件允许,可按照 CPU 核数进行多线程并发操作),由数据清洗组完成相关操作,简化数据发布组的操作流程

人工分工

成员 职责
silver 统筹数据发布,审核数据发布PR
MarK 上传(几乎所有)数据

总结与展望

MNBVC数据集已经在 Hugging Face 乃至整个 LLM 社区取得了较为深远的影响。在接下来的工作中,除了持续稳定地更新数据外,会考虑提供 “标准化评测”“特定领域的高质量数据子集” ,以进一步提升 MNBVC 的影响力。

附录

Hugging Face 上比 MNBVC 月度下载更多且 like 更多的五个数据集:

  1. Hugging Face 官方推出的 Fineweb
  2. Hugging Face 官方推出的 Fineweb-Edu
  3. Salesforce 的 Wikitext(维基百科数据)
  4. OpenAI 的 GSM8K(纯数学题数据集,目前所有模型的数学能力评测基准之一)
  5. CAIS 的 MMLU(语言理解能力评测集,目前所有模型语言能力评测基准之一)
数据发布小组2025年度总结.txt · 最后更改: MNBVC项目组