这是本文档旧的修订版!
一、工作概述
语料标准化小组的目标是构建一套标准的语料格式,并保证所有数据格式统一,确保语料库的通用性和一致性。
二、工作内容与成果
2024年,语料标准化小组主要进行了四项工作: - 各类语料格式标注的统一和更新、DataChecker更新优化 - 历史数据格式标准化 - mnbvc语料格式统一库 - 解压程序
具体工作进展如下:
1. DataChecker
DataChecker用于在语料入库前进行格式检查,确保其满足对应的语料格式标注,如不满足则会提示修改。 Datachecker工具通过持续更新与优化,提升了多源语料的检查效率与准确性,具体的工作如下: - 新增字段与语言支持: - 为各类语料新增“扩展字段”字段。 - 平行语料新增印尼语、越南语和繁体中文支持。 - 新增多模态语料的格式检查功能。 - 更新多模态语料格式。 - 新增代码语料 commit 格式检查功能。 - 更新平行语料格式版本。 - 格式规则优化: - 对时间字段格式更清晰定义(yyyymmdd,不可为空)。 - 多轮对话扩展字段的固定格式修改为不固定。 - 对于多模态 parquet 文件(含图片、音频等),跳过语种比例检查。 - 文件与语种检查优化: - 增加文件大小检查功能,限制单文件不超过500MB。 - 增加语种比例检查功能。 - 优化语种比例检查的日志记录,更改英文日志为中文。 - Bug修复: - 修复 log_dir 不存在导致保存失败的问题。 - 性能优化: - 对平行语料跳过语种比例检查,提升处理效率。 - 初步解决速度过慢问题,通过随机10%概率采样检查,后续计划优化为均匀采样,并设定最大与最小采样比例。
2. 历史数据格式标准化
对于MNBVC项目建立初期的历史语料,由于格式不统一,需要重新读取并转换成对应的语料格式。 目前已完成以下数据包的转换: - 狗头人完成20221224数据包 - 万朝完成20221225数据包 - 夏月完成20230101数据包 云翳计划统一历史数据格式,但当前暂时搁置。 此项任务还有很多数据包待处理,目前在逐步推进中。
3. mnbvc语料格式统一库
此工作主要是统一各种格式数据处理脚本,并提供示例代码。 目前项目处于启动状态,已完成repo的基本架构,具体工作如下: - 笑将负责,已完成基本架构构建,完成通用语料格式的编写,其他语料格式待处理。 - Zehan参与mnbvc语料格式统一仓库。
4. 解压程序
此程序用于批量解压目录中的压缩包文件,为数据处理提供便利。此项目由前组长花火火完成,并在今年完成了项目更新。24年主要进展: - 花火火:处理解压代码的一些bug。 - Messi(测试小组支援):解压程序测试及代码review,完成部分功能更新。
三、主要成员贡献
- 狗头人:历史数据格式标准化:20221224,重新整理为对应数据格式。 - 万朝:历史数据格式标准化:20221225,重新整理为对应数据格式。 - 夏月:历史数据格式标准化:20230101,重新整理为对应数据格式。 - 云翳:统一历史数据格式(待处理)。 - Messi(测试小组支援):解压程序测试及代码review,完成部分功能更新。 - 花火火:处理解压代码的一些bug。