现有语料格式
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版 | |||
现有语料格式 [2024/12/06 16:24] – MNBVC项目组 | 现有语料格式 [2024/12/06 16:56] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 440: | 行 440: | ||
} | } | ||
</ | </ | ||
+ | |||
+ | 如果语料格式与平行语料小组的github主仓库有差异,**以仓库内的README所展示的为准**。https:// | ||
+ | |||
+ | 字段说明: | ||
+ | |||
+ | **文件名**: | ||
+ | |||
+ | **是否待查文件**: | ||
+ | |||
+ | **是否重复文件**: | ||
+ | |||
+ | **段落数**: | ||
+ | |||
+ | **去重段落数**: | ||
+ | |||
+ | **低质量段落数**: | ||
+ | |||
+ | **行号**: 段落下标,是一个取值范围在 `[1, 段落数]` 之间的整数 | ||
+ | |||
+ | **是否重复**: | ||
+ | |||
+ | **是否跨文件重复**: | ||
+ | |||
+ | **时间**: `yyyymmdd` 格式的日期字符串,表示这份语料被转换为本文所定义的标准平行语料格式的时间。可以参考样例 | ||
+ | |||
现有语料格式.1733473442.txt.gz · 最后更改: 2024/12/06 16:24 由 MNBVC项目组