现有语料格式
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
现有语料格式 [2024/06/13 17:17] – MNBVC项目组 | 现有语料格式 [2024/12/06 16:56] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 37: | 行 37: | ||
- 公元前则在前面加上负号,如公元前5000年记为 ' | - 公元前则在前面加上负号,如公元前5000年记为 ' | ||
- | 补充:补零4位python代码只需要加上: | + | 补充:补零4位python代码只需要加上: |
==== 通用文本输出jsonl格式说明 ==== | ==== 通用文本输出jsonl格式说明 ==== | ||
行 219: | 行 219: | ||
} | } | ||
</ | </ | ||
+ | |||
+ | ==== 代码commit语料输出jsonl格式说明 ===== | ||
+ | 1.每行是一个文本的数据,对应一个代码仓库里的一个文本文件的变更。 | ||
+ | |||
+ | 2.对于每一行数据,其最高层次结构如下。 | ||
+ | < | ||
+ | { | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | This is the first line. | ||
+ | -This is the second line. | ||
+ | +This line has been modified. | ||
+ | @@ -5,2 +6,3 @@ | ||
+ | +This line has been modified again. | ||
+ | +This is another new line added.", | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | ' | ||
+ | } | ||
+ | </ | ||
==== 多轮对话输出jsonl格式说明 ===== | ==== 多轮对话输出jsonl格式说明 ===== | ||
行 377: | 行 404: | ||
==== 平行语料输出jsonl格式说明 ==== | ==== 平行语料输出jsonl格式说明 ==== | ||
- | 1.对于每一个文件,他的json结构层次如下: | + | 语料文件是多行 jsonl 格式,这是其中一行的样例(实际上一行即为一个json,不需要缩进打印): |
< | < | ||
{ | { | ||
- | | + | |
- | | + | |
- | | + | |
- | | + | |
- | | + | |
- | | + | |
- | | + | " |
- | '扩展字段' | + | " |
- | | + | " |
+ | | ||
+ | | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | "扩展字段": " | ||
+ | | ||
+ | " | ||
} | } | ||
- | </ | + | </ |
- | **注意:**所有语种字段的双字母缩写优先参考[ISO 639-1](https://en.wikipedia.org/ | + | 如果语料格式与平行语料小组的github主仓库有差异,**以仓库内的README所展示的为准**。https://github.com/mnbvc-parallel-corpus-team/ |
- | 2.将每一行为一个段落,段落的json结构层次如下: | + | 字段说明: |
- | < | + | **文件名**: 建议和输出的 jsonl 文件名保持一致。对于每份独立的语料,以文件名为唯一依据。每份文件独立计算的 `时间`, `是否待查文件`, |
- | { | + | |
- | ' | + | |
- | '是否重复': False, # 用zh_text全等进行判断,第一次出现的是False,后面重复的就是True | + | |
- | '是否跨文件重复': | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | ' | + | |
- | } | + | |
- | </ | + | |
- | **段落** | + | **是否待查文件**: |
- | < | + | **是否重复文件**: 留给其它小组的进行去重工作的字段,平行语料小组收录的语料的此字段将**全部给 False** |
- | { | + | |
- | other_texts: { | + | |
- | {lang1_iso}: | + | |
- | {lang2_iso}: | + | |
- | }, | + | |
- | ... | + | |
- | } | + | |
- | </ | + | |
- | **文件** | + | **段落数**: 等于整份文件中jsonl的行数 |
- | < | + | **去重段落数**: 以 `zh_text` 为依据,“重复了的段落”的个数,注意**不是去重后不同的段落个数** |
- | { | + | |
- | other_texts_iso_map: { | + | |
- | {lang1_iso}: | + | |
- | {lang2_iso}: | + | |
- | } | + | |
- | } | + | |
- | </ | + | |
- | 如果没有别的需要收录的语种,并且也没有其它信息需要用扩展字段记录时,扩展字段这里约定填{}来保证json.loads不会出问题。 | + | **低质量段落数**: |
+ | |||
+ | **行号**: 段落下标,是一个取值范围在 `[1, 段落数]` 之间的整数 | ||
+ | |||
+ | **是否重复**: | ||
+ | |||
+ | **是否跨文件重复**: | ||
+ | |||
+ | **时间**: `yyyymmdd` 格式的日期字符串,表示这份语料被转换为本文所定义的标准平行语料格式的时间。可以参考样例 | ||
- | 3.一份样例语料数据(注意,扩展字段直接用json.dumps(obj, | ||
- | < | ||
- | { | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | { | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | " | ||
- | \" | ||
- | \" | ||
- | \" | ||
- | \" | ||
- | \" | ||
- | \" | ||
- | }, | ||
- | }", | ||
- | " | ||
- | " | ||
- | } | ||
- | ], | ||
- | " | ||
- | \" | ||
- | \" | ||
- | \" | ||
- | \" | ||
- | \" | ||
- | \" | ||
- | } | ||
- | }", | ||
- | " | ||
- | } | ||
- | </ | ||
现有语料格式.1718270262.txt.gz · 最后更改: 2024/06/13 17:17 由 MNBVC项目组