数据发布小组承担了MNBVC数据集与用户之间的最后一公里。2025年期间,数据发布小组持续在 Hugging Face Dataset Hub 上发布清洗好的高质量数据,通过自动化脚本和 MarK 的努力,上传了大量前期的积压数据,成功将 Hugging Face 上的 MNBVC 项目中的数据扩增了一倍以上。
在此特别感谢 MarK 的辛勤付出,他几乎以一己之力承担了上述数据的上传工作。
代码贡献与数据包发布:
下载量与社区影响力:
总体数据规模:
数据内容分布详情:
| 数据类别 | 具体内容 | 数据包数量 |
|---|---|---|
| 平行语料 | UPRPRC联合国文件级别多语种对齐数据、chinadaily、usembassy-china、shooter.cn、stellaris | 多个 |
| 游戏平行语料 | 饥荒、文明6、霍格沃茨之遗、原神、星穹铁道、黑暗之魂3、Ib、荒野大镖客2、如龙、杀戮尖塔、魔女之泉、鸣潮、cyberpunk2077、DetroitBecomeHuman、hades、sekiro、EldenRing | 多个 |
| 论文语料 | arxiv 学术论文 | 50个 |
| 代码语料 | github 开源代码 | 118个 |
| 代码语料 | 游戏相关代码 | 1个 |
| 多模态网页语料 | qiushibaike(糗事百科) | 50个 |
| 博客语料 | IT技术博客、AI技术博客、163博客 | 1+1+2个 |
| 百科知识 | MBAwiki、wiki | 各1个 |
| 垂直领域 | 网络安全、金融、药品说明书 | 各1个 |
| 序号 | 操作流程 | 是否已自动化 | 备注 |
|---|---|---|---|
| 1 | 接受数据发布信息 | 否 | – |
| 2 | 到 dupan/README.md、dupan/README2.md 获取下载链接 | 否 | – |
| 3 | 通过百度网盘下载数据文件 | 否 | – |
| 4 | 解压数据文件 | 半自动 | – |
| 5 | 单独压缩各个数据文件 | 自动 | – |
| 6 | 在 Hugging Face/mnbvc 工程开启一个新 [PR:XXX] | 否 | – |
| 7 | 将所需数据文件上传到 Hugging Face 不同分类目录 | 否 | – |
| 8 | 修改 meta.py | 自动 | – |
| 9 | 修改 README.md 文件 | 否 | – |
| 10 | meta.py、README.md 文件上传 Hugging Face/mnbvc 工程 | 自动 | – |
| 11 | 通知 [PR:XXX] 合并 | 否 | – |
当前流程存在以下 三个主要耗时环节:
基于以上情况,提出以下建议:
| 成员 | 职责 |
|---|---|
| silver | 统筹数据发布,审核数据发布PR |
| MarK | 上传(几乎所有)数据 |
MNBVC数据集已经在 Hugging Face 乃至整个 LLM 社区取得了较为深远的影响。在接下来的工作中,除了持续稳定地更新数据外,会考虑提供 “标准化评测” 和 “特定领域的高质量数据子集” ,以进一步提升 MNBVC 的影响力。
Hugging Face 上比 MNBVC 月度下载更多且 like 更多的五个数据集: