===== 平行语料小组目标 ===== 关注中英文平行语料的清洗,例如联合国语料、字幕组语料、字典、双语读本等。 ==== 联合国数字图书馆的多语种语料对齐 ==== 负责人夜夜,状态完成 - 引言 * 数据源目的:简要描述数据源在NLP模型训练中的目的和相关性。 * 来源信息:提及数据的来源,包括提供者、URL(如适用)以及数据源的性质(例如,网站、出版物、数据集仓库) - 数据收集方法 * 收集过程:概述收集数据的步骤,包括使用的任何自动脚本或手动流程。 * 数据收集日期:指定收集数据的时间段。 * 选择标准:详细说明用于从源中选择或过滤数据的标准。 - 数据整理和清理方法 - 内容描述 * 数据格式:描述数据的格式(例如,JSON、CSV、XML)。 * 数据结构:提供数据的结构或模式,详细说明包含的字段和类型信息。 * 样本数据:包含一小段数据示例以供参考。 - 数据量和特性 * 数据集大小:提供有关数据集大小的信息,如记录数、文件数或总大小(以GB计)。 * 数据特性:描述数据的性质,包括语言、领域以及观察到的任何特定特征或模式。 === 数据整理和清理方法 === == DOC和WPF转DOCX == 爬虫拿到的数据大多数为DOC文件,少部分为WPF文件,这两种格式的文件并不能很容易的直接按段落提取文本,故我们需要先将其转换为DOCX格式。 我们能够找到的能够实现批量自动转换DOC为DOCX的办法,一是使用微软提供的Word进行另存为,二是使用LibreOffice的sWriter进行另存为。由于后者在实践中我们发现转出的DOCX出现乱码的情况要比前者频繁得多,故我们最终采用了win32com编程调用Word进行文档转换。 此外,由于Word处理WPF文件时反而会使部分能够用LibreOffice正常打开的文件出错,故WPF文件则主要使用LibreOffice宏编程实现自动转出。这部分文件不多(共10029个WPF文件,10014成功、15个失败),我们没有做并行化设计。 [[批量并行转换DOC和WPF为DOCX]] == DOCX转文本 == 此部分使用pandoc完成,直接进行多进程并行即可在几个小时之内转完,实际过程中pandoc会因为tex错误导致一些docx没有输出。https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/convert_data/pandoc_convert_to_text_mp.py 转换后的文本数据集(已进行二次修正):https://huggingface.co/datasets/bot-yaya/rework_undl_text == 文本翻译 == [[大型机翻任务分发与部署]] == 文本对齐 == [[对齐算法]] 实际在工程上用到的脚本在此处提供:https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/alignment/align_undl_text/use_translated_text_to_align2.py ==== 游戏语料的整理 ==== 负责人:夜夜,状态进行中 子项目 == 博得之门3 == 负责人:夜夜,状态进行中 TODO == 赛博朋克2077 == 负责人:??,状态没开始 TODO == 文明6 == 负责人:学弟,状态进行中 TODO == 群星 == 负责人:学弟,状态进行中 TODO == 原神 == 负责人:MR.B,结束 已经从国外的仓库找到,900M == 巫师3 == 负责人:MR.B,状态完成 TODO == 霍格沃滋之遗 == 负责人:青禾,状态完成 TODO == 泰拉瑞亚 == 负责人:夜夜,状态完成 TODO ==== 字幕数据多语种部分 ==== 负责人:[!],状态完成 TODO未收到数据 ==== 字幕数据英语或中文部分 ==== 负责人:[!],状态完成 TODO未收到数据 ==== 美国驻华大使馆网站 ==== 负责人:[!],状态完成 https://github.com/liyongsea/parallel_corpus_mnbvc/tree/main/donwload_data_us_embassy ==== China daily ==== 负责人:[!],状态完成 https://github.com/liyongsea/parallel_corpus_mnbvc/tree/main/download_data_chinadaily ==== 多语种跑团数据的对齐 ==== 负责人:南方,状态 放弃 只有英文的数据无法对齐 ===== 小组成果 ===== 释放出来的huggingface数据集的连接 联合国digital library,段落级别对齐: * https://huggingface.co/datasets/bot-yaya/undl_fr2en_aligned * https://huggingface.co/datasets/bot-yaya/undl_de2en_aligned * https://huggingface.co/datasets/bot-yaya/undl_ru2en_aligned * https://huggingface.co/datasets/bot-yaya/undl_ar2en_aligned * https://huggingface.co/datasets/bot-yaya/undl_es2en_aligned * https://huggingface.co/datasets/bot-yaya/undl_zh2en_aligned