====== 一、项目开展情况 ====== 数据发布小组主要负责将MNBVC语料上传和发布至Huggingface,并维护大家在Huggingface上看到的MNBVC项目。日常任务就是潜水在群中,收集其他小组的数据整理进度,并将可以发布的数据重新打包压缩,上传到Huggingface。因为小组成员较少,并且对Huggingface服务器的访问不稳定,所以数据的发布会有所滞后。目前已经在通过自动化脚本缓解这一问题。 ====== 二、主要工作内容和成果 ====== 1. 完成了约15个语料子集的发布,涵盖了所有MNBVC所提供的6类语料类型,总数据量超2TB。 2. 构建自动化数据处理脚本。 3. 帮助MNBVC在Huggingface和Github社区关于语料使用技术问题进行答疑。 ====== 三、团队 ====== 银河(silver):统筹数据分发任务。 子轩:提供存储空间、带宽等资源。 map和jiaming:负责子数据集的打包和上传。 ====== 四、未来 ====== 2025年持续努力,做好MNBVC数据分发工作。让大家可以更加方便地访问MNBVC数据集。