差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- pxyl [2024/02/03 15:45] – [字幕数据英语或中文部分] MNBVC项目组
+++ pxyl [2026/02/08 16:02] (当前版本) – MNBVC项目组
@@ 行 2: / 行 2: @@
 关注中英文平行语料的清洗，例如联合国语料、字幕组语料、字典、双语读本等。
-===== 小组任务 =====
+==== Github仓库 ====
-小组github ==》https://github.com/liyongsea/parallel_corpus_mnbvc 目前所有项目的代码都放在上面。之后有需要会慢慢分开
-| 项目名称                        | 进度            | 负责人          | 数据体量    |数据集hf链接 | 代码链接 |
-| 联合国平行语料对齐             | 进行中            | 夜夜             |            |https://huggingface.co/datasets/bot-yaya/rework_undl_text|          |
-| 新加的字幕数据                 | 进行中            | 日辰            |            |         |          |
-| 字幕数据多语种部分             | 已完成            | [!]             |            |         |          |
-| 美国驻华大使馆网站             | 已完成            | [!]             |            |         |          |
-| China Daily                    | 已完成            | [!]          |            |         |          |
-| 多语种跑团数据的对齐           | 放弃--数据量太少  | 南方               |            |         |          |
-| 字幕数据英语或中文部分         | 搁置              | [!]              |            |         |          |
+总仓库：https://github.com/liyongsea/parallel_corpus_mnbvc
-==== 联合国数字图书馆的多语种语料对齐 ====
+平行语料组现有任务分配、代码协作、招募信息、加入方式都将直接放在总仓库。微信小群讨论工作事宜，共享站传递临时文件，每周六16:00小组例会同步进度。
-  - 引言
+==== 任务分配 ====
-    * 数据源目的：简要描述数据源在NLP模型训练中的目的和相关性。
-    * 来源信息：提及数据的来源，包括提供者、URL（如适用）以及数据源的性质（例如，网站、出版物、数据集仓库）
-  - 数据收集方法
-    * 收集过程：概述收集数据的步骤，包括使用的任何自动脚本或手动流程。
-    * 数据收集日期：指定收集数据的时间段。
-    * 选择标准：详细说明用于从源中选择或过滤数据的标准。
-  - 数据整理和清理方法
-  - 内容描述
-    * 数据格式：描述数据的格式（例如，JSON、CSV、XML）。
-    * 数据结构：提供数据的结构或模式，详细说明包含的字段和类型信息。
-    * 样本数据：包含一小段数据示例以供参考。
-  - 数据量和特性
-    * 数据集大小：提供有关数据集大小的信息，如记录数、文件数或总大小（以GB计）。
-    * 数据特性：描述数据的性质，包括语言、领域以及观察到的任何特定特征或模式。
-=== 数据整理和清理方法 ===
+https://github.com/mnbvc-parallel-corpus-team/parallel_corpus_mnbvc/issues
-== DOC和WPF转DOCX ==
+==== 语料格式 ====
+如果wiki展示的语料格式跟总仓库有差异，以**总仓库**的为准。
+<code>
+{
+    "文件名": "Terraria-workshop-localization_test2.jsonl",
+    "是否待查文件": false,
+    "是否重复文件": false,
+    "段落数": 17944,
+    "去重段落数": 0,
+    "低质量段落数": 0,
+    "行号": 1,
+    "是否重复": false,
+    "是否跨文件重复": false,
+    "it_text": "",
+    "zh_text": "正在生成海洋沙",
+    "en_text": "Generating ocean sand",
+    "ar_text": "",
+    "nl_text": "",
+    "de_text": "",
+    "eo_text": "",
+    "fr_text": "Génération du sable de l'océan",
+    "he_text": "",
+    "ja_text": "",
+    "pt_text": "Gerando areia do oceano",
+    "ru_text": "Создание песка в океане",
+    "es_text": "",
+    "sv_text": "",
+    "ko_text": "",
+    "th_text": "",
+    "id_text":"",
+    "cht_text":"",
+    "vi_text":"",
+    "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}",
+    "时间": "20240316",
+    "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2"
+}
+</code>
+==== 技术文档 ====
+=== DOC和WPF转DOCX ===
 爬虫拿到的数据大多数为DOC文件，少部分为WPF文件，这两种格式的文件并不能很容易的直接按段落提取文本，故我们需要先将其转换为DOCX格式。
@@ 行 44: / 行 65: @@
 [[批量并行转换DOC和WPF为DOCX]]
-== DOCX转文本 ==
+=== DOCX转文本 ===
 此部分使用pandoc完成，直接进行多进程并行即可在几个小时之内转完，实际过程中pandoc会因为tex错误导致一些docx没有输出。https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/convert_data/pandoc_convert_to_text_mp.py
@@ 行 50: / 行 71: @@
 转换后的文本数据集（已进行二次修正）：https://huggingface.co/datasets/bot-yaya/rework_undl_text
-== 文本翻译 ==
+=== 文本翻译 ===
 [[大型机翻任务分发与部署]]
-== 文本对齐 ==
+=== 文本对齐 ===
 [[对齐算法]]
 实际在工程上用到的脚本在此处提供：https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/alignment/align_undl_text/use_translated_text_to_align2.py
-==== 多语种跑团数据的对齐 ====
-TODO
-==== 字幕数据多语种部分 ====
-TODO
-==== 字幕数据英语或中文部分 ====
-==== 美国驻华大使馆网站 ====
-TODO
-==== China daily ====
-https://github.com/liyongsea/parallel_corpus_mnbvc/tree/main/download_data_chinadaily
-===== 小组成果 =====
-释放出来的huggingface数据集的连接
-联合国digital library，段落级别对齐：
+==== 其他待行项 ====
-  * https://huggingface.co/datasets/bot-yaya/undl_fr2en_aligned
+ [[游戏收集专用页面|]]
-  * https://huggingface.co/datasets/bot-yaya/undl_de2en_aligned
+ [[https://huggingface.co/datasets/bot-yaya/parallel_corpus_game|HF-PCG]]
-  * https://huggingface.co/datasets/bot-yaya/undl_ru2en_aligned
+ [[https://github.com/orgs/mnbvc-parallel-corpus-team/projects/4|GT-PCT-P]]
-  * https://huggingface.co/datasets/bot-yaya/undl_ar2en_aligned
-  * https://huggingface.co/datasets/bot-yaya/undl_es2en_aligned
-  * https://huggingface.co/datasets/bot-yaya/undl_zh2en_aligned