关注中英文平行语料的清洗,例如联合国语料、字幕组语料、字典、双语读本等。
负责人夜夜,状态完成
爬虫拿到的数据大多数为DOC文件,少部分为WPF文件,这两种格式的文件并不能很容易的直接按段落提取文本,故我们需要先将其转换为DOCX格式。
我们能够找到的能够实现批量自动转换DOC为DOCX的办法,一是使用微软提供的Word进行另存为,二是使用LibreOffice的sWriter进行另存为。由于后者在实践中我们发现转出的DOCX出现乱码的情况要比前者频繁得多,故我们最终采用了win32com编程调用Word进行文档转换。
此外,由于Word处理WPF文件时反而会使部分能够用LibreOffice正常打开的文件出错,故WPF文件则主要使用LibreOffice宏编程实现自动转出。这部分文件不多(共10029个WPF文件,10014成功、15个失败),我们没有做并行化设计。
此部分使用pandoc完成,直接进行多进程并行即可在几个小时之内转完,实际过程中pandoc会因为tex错误导致一些docx没有输出。https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/convert_data/pandoc_convert_to_text_mp.py
转换后的文本数据集(已进行二次修正):https://huggingface.co/datasets/bot-yaya/rework_undl_text
实际在工程上用到的脚本在此处提供:https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/alignment/align_undl_text/use_translated_text_to_align2.py
负责人:夜夜,状态进行中
子项目
负责人:王然,格式转换进行中
负责人:Liu,解包数据已收集,格式转换进行中
负责人:暂无,解包数据已收集,格式转换人手募集中
负责人:暂无,解包数据已收集,格式转换人手募集中
负责人:霖,已收录
负责人:霖,已收录
负责人:霖,已收录
负责人:MR.B,已收录 已经从国外的仓库找到:https://gitlab.com/Dimbreath/AnimeGameData/
负责人:MR.B,已收录 已经从国外的仓库找到:https://github.com/Dimbreath/StarRailData
负责人:MR.B,状态完成
负责人:青禾,状态完成
负责人:夜夜,已收录
负责人:[!],状态完成 TODO未收到数据
负责人:[!],状态完成 TODO未收到数据
负责人:南方,状态 放弃 只有英文的数据无法对齐
释放出来的huggingface数据集的连接
联合国digital library,段落级别对齐: