跳至内容
MNBVC-Wiki
用户工具
登录
站点工具
搜索
工具
显示页面
过去修订
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
数据发布小组2025年度总结
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
====== 【MNBVC】数据发布小组 2025年终总结 ====== ===== 项目开展情况 ===== 数据发布小组承担了MNBVC数据集与用户之间的最后一公里。2025年期间,数据发布小组持续在 [[https://huggingface.co/datasets/liwu/MNBVC|Hugging Face Dataset Hub]] 上发布清洗好的高质量数据,通过自动化脚本和 MarK 的努力,上传了大量前期的积压数据,成功将 Hugging Face 上的 MNBVC 项目中的数据扩增了一倍以上。 在此特别感谢 **MarK** 的辛勤付出,他几乎以一己之力承担了上述数据的上传工作。 ===== 主要工作内容和成果 ===== **代码贡献与数据包发布:** * 2025年期间,小组在 MNBVC 项目中提交 **62个PR**,新增数据包约 **50多个** **下载量与社区影响力:** * 2025年期间,MNBVC语料集每月在 Hugging Face 有近 **20万下载量** * **2025年12月份**在 Hugging Face 所有数据集单月下载中排 **第48名**,在 Hugging Face 最受喜欢的数据集中排 **第44名** * 比 MNBVC 单月下载量多且更受欢迎的数据集,仅有 **5个**(详见附录) ===== 数据覆盖范围与规模 ===== **总体数据规模:** * 总共处理:**225个数据包** * 上传数据量:**2383.15 GB** **数据内容分布详情:** ^ 数据类别 ^ 具体内容 ^ 数据包数量 ^ | **平行语料** | UPRPRC联合国文件级别多语种对齐数据、chinadaily、usembassy-china、shooter.cn、stellaris | 多个 | | **游戏平行语料** | 饥荒、文明6、霍格沃茨之遗、原神、星穹铁道、黑暗之魂3、Ib、荒野大镖客2、如龙、杀戮尖塔、魔女之泉、鸣潮、cyberpunk2077、DetroitBecomeHuman、hades、sekiro、EldenRing | 多个 | | **论文语料** | arxiv 学术论文 | 50个 | | **代码语料** | github 开源代码 | 118个 | | **代码语料** | 游戏相关代码 | 1个 | | **多模态网页语料** | qiushibaike(糗事百科) | 50个 | | **博客语料** | IT技术博客、AI技术博客、163博客 | 1+1+2个 | | **百科知识** | MBAwiki、wiki | 各1个 | | **垂直领域** | 网络安全、金融、药品说明书 | 各1个 | ===== 2025年数据发布工具建设工作 ===== ==== (一)操作流程 ==== ^ 序号 ^ 操作流程 ^ 是否已自动化 ^ 备注 ^ | 1 | 接受数据发布信息 | 否 | -- | | 2 | 到 dupan/README.md、dupan/README2.md 获取下载链接 | 否 | -- | | 3 | 通过百度网盘下载数据文件 | 否 | -- | | 4 | 解压数据文件 | 半自动 | -- | | 5 | 单独压缩各个数据文件 | **自动** | -- | | 6 | 在 Hugging Face/mnbvc 工程开启一个新 [PR:XXX] | 否 | -- | | 7 | 将所需数据文件上传到 Hugging Face 不同分类目录 | 否 | -- | | 8 | 修改 meta.py | **自动** | -- | | 9 | 修改 README.md 文件 | 否 | -- | | 10 | meta.py、README.md 文件上传 Hugging Face/mnbvc 工程 | **自动** | -- | | 11 | 通知 [PR:XXX] 合并 | 否 | -- | ==== (二)耗时情况分析 ==== 当前流程存在以下 **三个主要耗时环节**: * **第一**,百度网盘下载(非会员情况下):每个数据包下载时长基本是 **按周计算** * **第二**,解压数据文件再进行单独压缩操作:每个数据包处理时间基本 **3-4个小时** * **第三**,上传数据包:若网络顺畅,**1-2小时**基本可以完成 ==== (三)优化建议 ==== 基于以上情况,提出以下建议: * 提高自动化程度,可加快整体速度 * 拥有百度网盘会员可显著提升下载速度(可达 70MB/s 甚至更快),此时瓶颈转为操作人员家中的网络速度 * 提供单独压缩各个数据文件的程序(若硬件允许,可按照 CPU 核数进行多线程并发操作),由数据清洗组完成相关操作,简化数据发布组的操作流程 ===== 人工分工 ===== ^ 成员 ^ 职责 ^ | silver | 统筹数据发布,审核数据发布PR | | MarK | 上传(几乎所有)数据 | ===== 总结与展望 ===== MNBVC数据集已经在 Hugging Face 乃至整个 LLM 社区取得了较为深远的影响。在接下来的工作中,除了持续稳定地更新数据外,会考虑提供 **"标准化评测"** 和 **"特定领域的高质量数据子集"** ,以进一步提升 MNBVC 的影响力。 ===== 附录 ===== Hugging Face 上比 MNBVC 月度下载更多且 like 更多的五个数据集: - Hugging Face 官方推出的 [[https://huggingface.co/datasets/HuggingFaceFW/fineweb|Fineweb]] - Hugging Face 官方推出的 [[https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu|Fineweb-Edu]] - [[https://huggingface.co/datasets/Salesforce/wikitext|Salesforce 的 Wikitext]](维基百科数据) - [[https://huggingface.co/datasets/openai/gsm8k|OpenAI 的 GSM8K]](纯数学题数据集,目前所有模型的数学能力评测基准之一) - [[https://huggingface.co/datasets/cais/mmlu|CAIS 的 MMLU]](语言理解能力评测集,目前所有模型语言能力评测基准之一)
数据发布小组2025年度总结.txt
· 最后更改:
2026/02/02 10:48
由
MNBVC项目组
页面工具
显示页面
过去修订
反向链接
回到顶部