MNBVC-Wiki

这是本文档旧的修订版！

平行语料小组目标

关注中英文平行语料的清洗，例如联合国语料、字幕组语料、字典、双语读本等。

联合国数字图书馆的多语种语料对齐

负责人夜夜，状态完成

引言
- 数据源目的：简要描述数据源在NLP模型训练中的目的和相关性。
- 来源信息：提及数据的来源，包括提供者、URL（如适用）以及数据源的性质（例如，网站、出版物、数据集仓库）
数据收集方法
- 收集过程：概述收集数据的步骤，包括使用的任何自动脚本或手动流程。
- 数据收集日期：指定收集数据的时间段。
- 选择标准：详细说明用于从源中选择或过滤数据的标准。
数据整理和清理方法
内容描述
- 数据格式：描述数据的格式（例如，JSON、CSV、XML）。
- 数据结构：提供数据的结构或模式，详细说明包含的字段和类型信息。
- 样本数据：包含一小段数据示例以供参考。
数据量和特性
- 数据集大小：提供有关数据集大小的信息，如记录数、文件数或总大小（以GB计）。
- 数据特性：描述数据的性质，包括语言、领域以及观察到的任何特定特征或模式。

数据整理和清理方法

DOC和WPF转DOCX

爬虫拿到的数据大多数为DOC文件，少部分为WPF文件，这两种格式的文件并不能很容易的直接按段落提取文本，故我们需要先将其转换为DOCX格式。

我们能够找到的能够实现批量自动转换DOC为DOCX的办法，一是使用微软提供的Word进行另存为，二是使用LibreOffice的sWriter进行另存为。由于后者在实践中我们发现转出的DOCX出现乱码的情况要比前者频繁得多，故我们最终采用了win32com编程调用Word进行文档转换。

此外，由于Word处理WPF文件时反而会使部分能够用LibreOffice正常打开的文件出错，故WPF文件则主要使用LibreOffice宏编程实现自动转出。这部分文件不多（共10029个WPF文件，10014成功、15个失败），我们没有做并行化设计。

批量并行转换DOC和WPF为DOCX

DOCX转文本

此部分使用pandoc完成，直接进行多进程并行即可在几个小时之内转完，实际过程中pandoc会因为tex错误导致一些docx没有输出。https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/convert_data/pandoc_convert_to_text_mp.py

转换后的文本数据集（已进行二次修正）：https://huggingface.co/datasets/bot-yaya/rework_undl_text

文本翻译

大型机翻任务分发与部署

文本对齐

对齐算法

实际在工程上用到的脚本在此处提供：https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/alignment/align_undl_text/use_translated_text_to_align2.py

游戏语料的整理

负责人：夜夜，状态进行中

子项目

博得之门3

负责人：夜夜，状态进行中 TODO

赛博朋克2077

负责人：？？，状态没开始 TODO

文明6

负责人：学弟，状态进行中 TODO

群星

负责人：学弟，状态进行中 TODO

原神

负责人：MR.B，状态进行中 TODO

巫师3

负责人：MR.B，状态完成 TODO

霍格沃滋之遗

负责人：青禾，状态完成 TODO

泰拉瑞亚

负责人：夜夜，状态完成 TODO

字幕数据多语种部分

负责人：[!]，状态完成 TODO未收到数据

字幕数据英语或中文部分

负责人：[!]，状态完成 TODO未收到数据

美国驻华大使馆网站

负责人：[!]，状态完成 https://github.com/liyongsea/parallel_corpus_mnbvc/tree/main/donwload_data_us_embassy

China daily

负责人：[!]，状态完成 https://github.com/liyongsea/parallel_corpus_mnbvc/tree/main/download_data_chinadaily

多语种跑团数据的对齐

负责人：南方，状态放弃只有英文的数据无法对齐

小组成果

释放出来的huggingface数据集的连接

联合国digital library，段落级别对齐：

目录