===== 平行语料小组目标 =====
关注中英文平行语料的清洗，例如联合国语料、字幕组语料、字典、双语读本等。

==== Github仓库 ====

总仓库：https://github.com/liyongsea/parallel_corpus_mnbvc

平行语料组现有任务分配、代码协作、招募信息、加入方式都将直接放在总仓库。微信小群讨论工作事宜，共享站传递临时文件，每周六16:00小组例会同步进度。

==== 任务分配 ====

https://github.com/mnbvc-parallel-corpus-team/parallel_corpus_mnbvc/issues

==== 语料格式 ====

如果wiki展示的语料格式跟总仓库有差异，以**总仓库**的为准。

<code>
{
    "文件名": "Terraria-workshop-localization_test2.jsonl",
    "是否待查文件": false,
    "是否重复文件": false,
    "段落数": 17944,
    "去重段落数": 0,
    "低质量段落数": 0,
    "行号": 1,
    "是否重复": false,
    "是否跨文件重复": false,
    "it_text": "",
    "zh_text": "正在生成海洋沙",
    "en_text": "Generating ocean sand",
    "ar_text": "",
    "nl_text": "",
    "de_text": "",
    "eo_text": "",
    "fr_text": "Génération du sable de l'océan",
    "he_text": "",
    "ja_text": "",
    "pt_text": "Gerando areia do oceano",
    "ru_text": "Создание песка в океане",
    "es_text": "",
    "sv_text": "",
    "ko_text": "",
    "th_text": "",
    "id_text":"",
    "cht_text":"",
    "vi_text":"",
    "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}",
    "时间": "20240316",
    "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2"
}
</code>


==== 技术文档 ====

=== DOC和WPF转DOCX ===

爬虫拿到的数据大多数为DOC文件，少部分为WPF文件，这两种格式的文件并不能很容易的直接按段落提取文本，故我们需要先将其转换为DOCX格式。

我们能够找到的能够实现批量自动转换DOC为DOCX的办法，一是使用微软提供的Word进行另存为，二是使用LibreOffice的sWriter进行另存为。由于后者在实践中我们发现转出的DOCX出现乱码的情况要比前者频繁得多，故我们最终采用了win32com编程调用Word进行文档转换。

此外，由于Word处理WPF文件时反而会使部分能够用LibreOffice正常打开的文件出错，故WPF文件则主要使用LibreOffice宏编程实现自动转出。这部分文件不多（共10029个WPF文件，10014成功、15个失败），我们没有做并行化设计。

[[批量并行转换DOC和WPF为DOCX]]

=== DOCX转文本 ===

此部分使用pandoc完成，直接进行多进程并行即可在几个小时之内转完，实际过程中pandoc会因为tex错误导致一些docx没有输出。https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/convert_data/pandoc_convert_to_text_mp.py

转换后的文本数据集（已进行二次修正）：https://huggingface.co/datasets/bot-yaya/rework_undl_text

=== 文本翻译 ===

[[大型机翻任务分发与部署]]

=== 文本对齐 ===

[[对齐算法]]

实际在工程上用到的脚本在此处提供：https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/alignment/align_undl_text/use_translated_text_to_align2.py