用户工具

站点工具


现有语料格式

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
现有语料格式 [2024/11/24 03:58] – 平行语料格式更新 MNBVC项目组现有语料格式 [2024/12/06 16:56] (当前版本) MNBVC项目组
行 432: 行 432:
     "ko_text": "",     "ko_text": "",
     "th_text": "",     "th_text": "",
-    "other1_text": "", 
-    "other2_text": "", 
     "id_text":"",     "id_text":"",
     "cht_text":"",     "cht_text":"",
行 442: 行 440:
 } }
 </code> </code>
 +
 +如果语料格式与平行语料小组的github主仓库有差异,**以仓库内的README所展示的为准**。https://github.com/mnbvc-parallel-corpus-team/parallel_corpus_mnbvc
 +
 +字段说明:
 +
 +**文件名**: 建议和输出的 jsonl 文件名保持一致。对于每份独立的语料,以文件名为唯一依据。每份文件独立计算的 `时间`, `是否待查文件`, `是否跨文件重复`, `是否重复`, `是否重复文件`, `段落数`,  `低质量段落数`,  `去重段落数` 会随文件名冗余多份,保证文件名相等的情况下这几个字段结果相等。所以建议取一个**能够精确描述这份语料来源**的文件名。
 +
 +**是否待查文件**: 如果是 True 就是不怎么靠谱,告诉大家尽量别用,平行语料小组收录的语料的此字段若无特殊情况将**全部给 False**
 +
 +**是否重复文件**: 留给其它小组的进行去重工作的字段,平行语料小组收录的语料的此字段将**全部给 False**
 +
 +**段落数**: 等于整份文件中jsonl的行数
 +
 +**去重段落数**: 以 `zh_text` 为依据,“重复了的段落”的个数,注意**不是去重后不同的段落个数**
 +
 +**低质量段落数**: `zh_text` 或者 `en_text` 有缺(为空字符串)的段落数量
 +
 +**行号**: 段落下标,是一个取值范围在 `[1, 段落数]` 之间的整数
 +
 +**是否重复**: 由 `zh_text` 是否重复来决定,每个非重复段落第一次出现时是 False, 此后再次出现发现已重复时是 True
 +
 +**是否跨文件重复**: 留给其它小组的进行去重工作的字段,平行语料小组收录的语料的此字段将**全部给 False**
 +
 +**时间**: `yyyymmdd` 格式的日期字符串,表示这份语料被转换为本文所定义的标准平行语料格式的时间。可以参考样例
 +
  
  
现有语料格式.1732391913.txt.gz · 最后更改: 2024/11/24 03:58 由 MNBVC项目组