差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- 现有语料格式 [2024/05/18 13:02] – MNBVC项目组
+++ 现有语料格式 [2025/06/02 15:17] (当前版本) – 外部编辑 127.0.0.1
@@ 行 30: / 行 30: @@
 对于语料格式的每个jsonl文件，其大小略大于500MB。
-关于时间，统一采用字符串的 yyyymmdd 格式，具体规则如下：
+==== 关于“时间” ====
+时间字段所有语料格式中都有，必填，代表本语料出现的最早时间，统一采用字符串的 yyyymmdd 格式，具体规则如下：
   - 年份固定为4位，月份和日固定为两位，例如2024年1月1日记为 '20240101'；
   - 年份不足4位需要在前面补0至4位，如738年3月3日记为 '07380303'；
@@ 行 36: / 行 37: @@
   - 公元前则在前面加上负号，如公元前5000年记为 '-50000101'；
-补充：补零4位python代码z只需要加上:4d为 f'{$year:4d}'，如需将补零4位字符串转换为int，python中 int() 函数会自动识别转换
+补充：补零4位python代码只需要加上:04d为 f'{$year:04d}'，如需将补零4位字符串转换为int，python中 int() 函数会自动识别转换，如 int('0001') 则为整数 1。
 ==== 通用文本输出jsonl格式说明 ====
@@ 行 54: / 行 55: @@
     '低质量段落数': 0,
     '段落': [],
-    '拓展字段': json_str,
+    '扩展字段': json_str,
     '时间': str(yyyymmdd)，
 }
@@ 行 68: / 行 69: @@
     'md5': md5,
     '内容': line,
-    '拓展字段': json_str
+    '扩展字段': json_str
 }
 </code>
@@ 行 92: / 行 93: @@
                 'md5': 'md5hash1',
                 '内容': '这是第一段文字。',
-                '拓展字段': json_str
+                '扩展字段': json_str
             },
-        '拓展字段': json_str，
+        '扩展字段': json_str，
         '时间': str(yyyymmdd)，
         ]
@@ 行 218: / 行 219: @@
     }
 </code>
+==== 代码commit语料输出jsonl格式说明 =====
+.每行是一个文本的数据，对应一个代码仓库里的一个文本文件的变更。
+.对于每一行数据，其最高层次结构如下。
+<code>
+{
+    "来源":"github",
+    "仓库名":"esbatmop/MNBVC",
+    "path":"/main/README.md",
+    "文件名":"README.md",
+    "ext": "md",
+    "index": "abc1234..def5678",
+    "message": "Update with new content",
+    "diff": "@@ -1,3 +1,4 @@
+             This is the first line.
+            -This is the second line.
+            +This line has been modified.
+             @@ -5,2 +6,3 @@
+            +This line has been modified again.
+            +This is another new line added.",
+    "原始编码":"GBK",
+    "md5":"差异的md5值",
+    "时间": str(yyyymmdd)，
+    '扩展字段': "json_string",
+}
+</code>
 ==== 多轮对话输出jsonl格式说明 =====
@@ 行 273: / 行 301: @@
             "问题明细":"\"from\": \"human\"",
             "回答明细":"\"from\": \"gpt\"",
-            "扩展字段": {
+            "扩展字段": "{
                         "会话": "yOKd88p",
                         "多轮序号": 1,
                         "解析模型": "gpt4"
-                        }
+                        }"
         }
     }
@@ 行 376: / 行 404: @@
 ==== 平行语料输出jsonl格式说明 ====
-.对于每一个文件，他的json结构层次如下：
+语料文件是多行 jsonl 格式，这是其中一行的样例（实际上一行即为一个json，不需要缩进打印）：
 <code>
 {
-    '文件名': '文件.txt',
+    "文件名": "Terraria-workshop-localization_test2.jsonl",
-    '是否待查文件': False,
+    "是否待查文件": false,
-    '是否重复文件': False,
+    "是否重复文件": false,
-    '段落数': 0,
+    "段落数": 17944,
-    '去重段落数': 0,
+    "去重段落数": 0,
-    '低质量段落数': 0,
+    "低质量段落数": 0,
-    '段落': [],
+    "行号": 1,
-    '扩展字段': json_str,
+    "是否重复": false,
-    '时间': str(yyyymmdd)
+    "是否跨文件重复": false,
-}
+    "it_text": "",
-</code>
+    "zh_text": "正在生成海洋沙",
+    "en_text": "Generating ocean sand",
-.将每一行为一个段落，段落的json结构层次如下：
+    "ar_text": "",
-<code>
+    "nl_text": "",
-{
+    "de_text": "",
-    '行号': line_number,
+    "eo_text": "",
-    '是否重复': False,
+    "fr_text": "Génération du sable de l'océan",
-    '是否跨文件重复': False,
+    "he_text": "",
-    'zh_text_md5': zh_text_md5,
+    "ja_text": "",
-    'zh_text': 中文,
+    "pt_text": "Gerando areia do oceano",
-    'en_text': 英语,
+    "ru_text": "Создание песка в океане",
-    'ar_text': 阿拉伯语,
+    "es_text": "",
-    'nl_text': 荷兰语,
+    "sv_text": "",
-    'de_text': 德语,
+    "ko_text": "",
-    'eo_text': 世界语,
+    "th_text": "",
-    'fr_text': 法语,
+    "id_text":"",
-    'he_text': 希伯来文,
+    "cht_text":"",
-    'it_text': 意大利语,
+    "vi_text":"",
-    'ja_text': 日语,
+    "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}",
-    'pt_text': 葡萄牙语,
+    "时间": "20240316",
-    'ru_text': 俄语,
+    "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2"
-    'es_text': 西班牙语,
-    'sv_text': 瑞典语,
-    'ko_text': 韩语,
-    'th_text': 泰语,
-    'id_text': 印尼语,
-    'vi_text': 越南语,
-    'cht_text': 繁体中文,
-    'other1_text': 小语种1,
-    'other2_text': 小语种2,
-    '扩展字段': json_str
 }
 </code>
-.结果示例：
+如果语料格式与平行语料小组的github主仓库有差异，**以仓库内的README所展示的为准**。https://github.com/mnbvc-parallel-corpus-team/parallel_corpus_mnbvc
+字段说明：
+**文件名**: 建议和输出的 jsonl 文件名保持一致。对于每份独立的语料，以文件名为唯一依据。每份文件独立计算的 `时间`, `是否待查文件`, `是否跨文件重复`, `是否重复`, `是否重复文件`, `段落数`,  `低质量段落数`,  `去重段落数` 会随文件名冗余多份，保证文件名相等的情况下这几个字段结果相等。所以建议取一个**能够精确描述这份语料来源**的文件名。
+**是否待查文件**: 如果是 True 就是不怎么靠谱，告诉大家尽量别用，平行语料小组收录的语料的此字段若无特殊情况将**全部给 False**
+**是否重复文件**: 留给其它小组的进行去重工作的字段，平行语料小组收录的语料的此字段将**全部给 False**
+**段落数**: 等于整份文件中jsonl的行数
+**去重段落数**: 以 `zh_text` 为依据，“重复了的段落”的个数，注意**不是去重后不同的段落个数**
+**低质量段落数**: `zh_text` 或者 `en_text` 有缺（为空字符串）的段落数量
+**行号**: 段落下标，是一个取值范围在 `[1, 段落数]` 之间的整数
+**是否重复**: 由 `zh_text` 是否重复来决定，每个非重复段落第一次出现时是 False, 此后再次出现发现已重复时是 True
+**是否跨文件重复**: 留给其它小组的进行去重工作的字段，平行语料小组收录的语料的此字段将**全部给 False**
+**时间**: `yyyymmdd` 格式的日期字符串，表示这份语料被转换为本文所定义的标准平行语料格式的时间。可以参考样例
-<code>
-{
-        '文件名': '文件.txt',
-        '是否待查文件': False,
-        '是否重复文件': False,
-        '段落数': 0,
-        '去重段落数': 0,
-        '低质量段落数': 0,
-        '段落': [{
-            '行号': 1,
-            '是否重复': False,
-            '是否跨文件重复': False,
-            'zh_text_md5': 'zh_text_md5',
-            'zh_text': '中文',
-            'en_text': '英语',
-            'ar_text': '阿拉伯语',
-            'nl_text': '荷兰语',
-            'de_text': '德语',
-            'eo_text': '世界语',
-            'fr_text': '法语',
-            'he_text': '希伯来文',
-            'it_text': '意大利语',
-            'ja_text': '日语',
-            'pt_text': '葡萄牙语',
-            'ru_text': '俄语',
-            'es_text': '西班牙语',
-            'sv_text': '瑞典语',
-            'ko_text': '韩语',
-            'th_text': '泰语',
-            'id_text': '印尼语',
-            'vi_text': '越南语',
-            'cht_text': '繁体中文',
-            'other1_text': '小语种1',
-            'other2_text': '小语种2',
-            '扩展字段': '{}'
-        }],
-        '扩展字段': '{}'
-    }
-</code>