目录

一、项目开展情况

数据发布小组主要负责将MNBVC语料上传和发布至Huggingface,并维护大家在Huggingface上看到的MNBVC项目。日常任务就是潜水在群中,收集其他小组的数据整理进度,并将可以发布的数据重新打包压缩,上传到Huggingface。因为小组成员较少,并且对Huggingface服务器的访问不稳定,所以数据的发布会有所滞后。目前已经在通过自动化脚本缓解这一问题。

二、主要工作内容和成果

1. 完成了约15个语料子集的发布,涵盖了所有MNBVC所提供的6类语料类型,总数据量超2TB。

2. 构建自动化数据处理脚本。

3. 帮助MNBVC在Huggingface和Github社区关于语料使用技术问题进行答疑。

三、团队

银河(silver):统筹数据分发任务。

子轩:提供存储空间、带宽等资源。

map和jiaming:负责子数据集的打包和上传。

四、未来

2025年持续努力,做好MNBVC数据分发工作。让大家可以更加方便地访问MNBVC数据集。