跳至内容
MNBVC-Wiki
用户工具
登录
站点工具
搜索
工具
显示页面
过去修订
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
数据发布小组2024年度工作总结
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
====== 一、项目开展情况 ====== 数据发布小组主要负责将MNBVC语料上传和发布至Huggingface,并维护大家在Huggingface上看到的MNBVC项目。日常任务就是潜水在群中,收集其他小组的数据整理进度,并将可以发布的数据重新打包压缩,上传到Huggingface。因为小组成员较少,并且对Huggingface服务器的访问不稳定,所以数据的发布会有所滞后。目前已经在通过自动化脚本缓解这一问题。 ====== 二、主要工作内容和成果 ====== 1. 完成了约15个语料子集的发布,涵盖了所有MNBVC所提供的6类语料类型,总数据量超2TB。 2. 构建自动化数据处理脚本。 3. 帮助MNBVC在Huggingface和Github社区关于语料使用技术问题进行答疑。 ====== 三、团队 ====== 银河(silver):统筹数据分发任务。 子轩:提供存储空间、带宽等资源。 map和jiaming:负责子数据集的打包和上传。 ====== 四、未来 ====== 2025年持续努力,做好MNBVC数据分发工作。让大家可以更加方便地访问MNBVC数据集。
数据发布小组2024年度工作总结.txt
· 最后更改: 2025/03/14 16:35 由
MNBVC项目组
页面工具
显示页面
过去修订
反向链接
回到顶部