差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- pxyl [2024/07/17 22:28] – MNBVC项目组
+++ pxyl [2026/02/08 16:02] (当前版本) – MNBVC项目组
@@ 行 2: / 行 2: @@
 关注中英文平行语料的清洗，例如联合国语料、字幕组语料、字典、双语读本等。
+==== Github仓库 ====
-==== 联合国数字图书馆的多语种语料对齐 ====
+总仓库：https://github.com/liyongsea/parallel_corpus_mnbvc
-负责人夜夜，状态完成
+平行语料组现有任务分配、代码协作、招募信息、加入方式都将直接放在总仓库。微信小群讨论工作事宜，共享站传递临时文件，每周六16:00小组例会同步进度。
-  - 引言
+==== 任务分配 ====
-    * 数据源目的：简要描述数据源在NLP模型训练中的目的和相关性。
-    * 来源信息：提及数据的来源，包括提供者、URL（如适用）以及数据源的性质（例如，网站、出版物、数据集仓库）
-  - 数据收集方法
-    * 收集过程：概述收集数据的步骤，包括使用的任何自动脚本或手动流程。
-    * 数据收集日期：指定收集数据的时间段。
-    * 选择标准：详细说明用于从源中选择或过滤数据的标准。
-  - 数据整理和清理方法
-  - 内容描述
-    * 数据格式：描述数据的格式（例如，JSON、CSV、XML）。
-    * 数据结构：提供数据的结构或模式，详细说明包含的字段和类型信息。
-    * 样本数据：包含一小段数据示例以供参考。
-  - 数据量和特性
-    * 数据集大小：提供有关数据集大小的信息，如记录数、文件数或总大小（以GB计）。
-    * 数据特性：描述数据的性质，包括语言、领域以及观察到的任何特定特征或模式。
-=== 数据整理和清理方法 ===
+https://github.com/mnbvc-parallel-corpus-team/parallel_corpus_mnbvc/issues
-== DOC和WPF转DOCX ==
+==== 语料格式 ====
+如果wiki展示的语料格式跟总仓库有差异，以**总仓库**的为准。
+<code>
+{
+    "文件名": "Terraria-workshop-localization_test2.jsonl",
+    "是否待查文件": false,
+    "是否重复文件": false,
+    "段落数": 17944,
+    "去重段落数": 0,
+    "低质量段落数": 0,
+    "行号": 1,
+    "是否重复": false,
+    "是否跨文件重复": false,
+    "it_text": "",
+    "zh_text": "正在生成海洋沙",
+    "en_text": "Generating ocean sand",
+    "ar_text": "",
+    "nl_text": "",
+    "de_text": "",
+    "eo_text": "",
+    "fr_text": "Génération du sable de l'océan",
+    "he_text": "",
+    "ja_text": "",
+    "pt_text": "Gerando areia do oceano",
+    "ru_text": "Создание песка в океане",
+    "es_text": "",
+    "sv_text": "",
+    "ko_text": "",
+    "th_text": "",
+    "id_text":"",
+    "cht_text":"",
+    "vi_text":"",
+    "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}",
+    "时间": "20240316",
+    "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2"
+}
+</code>
+==== 技术文档 ====
+=== DOC和WPF转DOCX ===
 爬虫拿到的数据大多数为DOC文件，少部分为WPF文件，这两种格式的文件并不能很容易的直接按段落提取文本，故我们需要先将其转换为DOCX格式。
@@ 行 35: / 行 65: @@
 [[批量并行转换DOC和WPF为DOCX]]
-== DOCX转文本 ==
+=== DOCX转文本 ===
 此部分使用pandoc完成，直接进行多进程并行即可在几个小时之内转完，实际过程中pandoc会因为tex错误导致一些docx没有输出。https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/convert_data/pandoc_convert_to_text_mp.py
@@ 行 41: / 行 71: @@
 转换后的文本数据集（已进行二次修正）：https://huggingface.co/datasets/bot-yaya/rework_undl_text
-== 文本翻译 ==
+=== 文本翻译 ===
 [[大型机翻任务分发与部署]]
-== 文本对齐 ==
+=== 文本对齐 ===
 [[对齐算法]]
@@ 行 52: / 行 82: @@
-==== 游戏语料的整理 ====
+==== 其他待行项 ====
+ [[游戏收集专用页面|]]
-负责人：夜夜，状态进行中
+ [[https://huggingface.co/datasets/bot-yaya/parallel_corpus_game|HF-PCG]]
+ [[https://github.com/orgs/mnbvc-parallel-corpus-team/projects/4|GT-PCT-P]]
-子项目
-== Baldur's Gate 3 ==
-负责人：王然，格式转换进行中
-== Cyberpunk 2077 ==
-负责人：Liu，解包数据已收集，格式转换进行中
-== Detroit: Become Human ==
-负责人：暂无，解包数据已收集，格式转换人手募集中
-== Slay the Spire ==
-负责人：暂无，解包数据已收集，格式转换人手募集中
-== Sid Meier's Civilization VI ==
-负责人：霖，已收录
-== Don't Starve ==
-负责人：霖，已收录
-== Stellaris ==
-负责人：霖，已收录
-== 原神 ==
-负责人：MR.B，已收录
-已经从国外的仓库找到:https://gitlab.com/Dimbreath/AnimeGameData/
-== 崩坏星穹铁道 ==
-负责人：MR.B，已收录
-已经从国外的仓库找到:https://github.com/Dimbreath/StarRailData
-== The Witcher 3 ==
-负责人：MR.B，状态完成
-== Hogwarts Legacy ==
-负责人：青禾，状态完成
-== Terraria (Workshop localization) ==
-负责人：夜夜，已收录
-==== 字幕数据多语种部分 ====
-负责人：[!]，状态完成
-TODO未收到数据
-==== 字幕数据英语或中文部分 ====
-负责人：[!]，状态完成
-TODO未收到数据
-==== 美国驻华大使馆网站 ====
-负责人：[!]，状态完成
-https://github.com/liyongsea/parallel_corpus_mnbvc/tree/main/donwload_data_us_embassy
-==== China daily ====
-负责人：[!]，状态完成
-https://github.com/liyongsea/parallel_corpus_mnbvc/tree/main/download_data_chinadaily
-==== 多语种跑团数据的对齐 ====
-负责人：南方，状态 放弃
-只有英文的数据无法对齐
-===== 小组成果 =====
-释放出来的huggingface数据集的连接
-联合国digital library，段落级别对齐：
-  * https://huggingface.co/datasets/bot-yaya/undl_fr2en_aligned
-  * https://huggingface.co/datasets/bot-yaya/undl_de2en_aligned
-  * https://huggingface.co/datasets/bot-yaya/undl_ru2en_aligned
-  * https://huggingface.co/datasets/bot-yaya/undl_ar2en_aligned
-  * https://huggingface.co/datasets/bot-yaya/undl_es2en_aligned
-  * https://huggingface.co/datasets/bot-yaya/undl_zh2en_aligned