用户工具

站点工具


pxyl

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
pxyl [2024/07/17 22:28] MNBVC项目组pxyl [2024/12/06 11:17] (当前版本) MNBVC项目组
行 2: 行 2:
 关注中英文平行语料的清洗,例如联合国语料、字幕组语料、字典、双语读本等。 关注中英文平行语料的清洗,例如联合国语料、字幕组语料、字典、双语读本等。
  
 +==== Github仓库 ====
  
-==== 联合国数字图书馆的多语种语料对齐 ====+总仓库:https://github.com/liyongsea/parallel_corpus_mnbvc
  
-负责人夜夜状态完成+平行语料组现有任务分配、代码协作、招募信息、加入方式都将直接放在总仓库。微信小群讨论工作事宜共享站传递临时文件,每周六16:00小组例会同步进度。
  
-  - 引言 +==== 务分配 ====
-    * 数据源目的:简要描述数据源在NLP模型训练中的目的和相关性。 +
-    * 来源信息:提及数据的来源,包括提供者、URL(如适用)以及数据源的性质(例如,网站、出版物、数据集仓库) +
-  - 数据收集方法 +
-    * 收集过程:概述收集数据的步骤,包括使用的何自动脚本或手动流程。 +
-    * 数据收集日期:指定收集数据的时间段。 +
-    * 选择标准:详细说明用于从源中选择或过滤数据的标准。 +
-  - 数据整理和清理方法 +
-  - 内容描述 +
-    * 数据格式:描述数据的格式(例如,JSON、CSV、XML)。 +
-    * 数据结构:提供数据的结构或模式,详细说明包含的字段和类型信息。 +
-    * 样本数据:包含一小段数据示例以供参考。 +
-  - 数据量和特性 +
-    * 数据集大小:提供有关数据集大小的信息,如记录数、文件数或总大小(以GB计)。 +
-    * 数据特性:描述数据的性质,包括语言、领域以及观察到的任何特定特征或模式。+
  
-=== 数据整理和清理方法 ===+https://github.com/mnbvc-parallel-corpus-team/parallel_corpus_mnbvc/issues
  
-== DOC和WPF转DOCX ==+==== 语料格式 ==== 
 + 
 +如果wiki展示的语料格式跟总仓库有差异,以**总仓库**的为准。 
 + 
 +<code> 
 +
 +    "文件名": "Terraria-workshop-localization_test2.jsonl", 
 +    "是否待查文件": false, 
 +    "是否重复文件": false, 
 +    "段落数": 17944, 
 +    "去重段落数": 0, 
 +    "低质量段落数": 0, 
 +    "行号": 1, 
 +    "是否重复": false, 
 +    "是否跨文件重复": false, 
 +    "it_text": "", 
 +    "zh_text": "正在生成海洋沙", 
 +    "en_text": "Generating ocean sand", 
 +    "ar_text": "", 
 +    "nl_text": "", 
 +    "de_text": "", 
 +    "eo_text": "", 
 +    "fr_text": "Génération du sable de l'océan", 
 +    "he_text": "", 
 +    "ja_text": "", 
 +    "pt_text": "Gerando areia do oceano", 
 +    "ru_text": "Создание песка в океане", 
 +    "es_text": "", 
 +    "sv_text": "", 
 +    "ko_text": "", 
 +    "th_text": "", 
 +    "id_text":"", 
 +    "cht_text":"", 
 +    "vi_text":"", 
 +    "扩展字段": "{\"other_texts\": {\"cs\": \"Generování mořského písku\", \"pl\": \"Generowanie piasku morskiego\", \"hu\": \"Tengeri homok elhelyezése\", \"uk\": \"Генерація океанського піску\", \"tr\": \"Okyanus kumu üretme\"}}", 
 +    "时间": "20240316", 
 +    "zh_text_md5": "b656579704c6ca5acc29f2aa36159ce2" 
 +
 +</code> 
 + 
 + 
 +==== 技术文档 ==== 
 + 
 +=== DOC和WPF转DOCX ===
  
 爬虫拿到的数据大多数为DOC文件,少部分为WPF文件,这两种格式的文件并不能很容易的直接按段落提取文本,故我们需要先将其转换为DOCX格式。 爬虫拿到的数据大多数为DOC文件,少部分为WPF文件,这两种格式的文件并不能很容易的直接按段落提取文本,故我们需要先将其转换为DOCX格式。
行 35: 行 65:
 [[批量并行转换DOC和WPF为DOCX]] [[批量并行转换DOC和WPF为DOCX]]
  
-== DOCX转文本 ==+=== DOCX转文本 ===
  
 此部分使用pandoc完成,直接进行多进程并行即可在几个小时之内转完,实际过程中pandoc会因为tex错误导致一些docx没有输出。https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/convert_data/pandoc_convert_to_text_mp.py 此部分使用pandoc完成,直接进行多进程并行即可在几个小时之内转完,实际过程中pandoc会因为tex错误导致一些docx没有输出。https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/convert_data/pandoc_convert_to_text_mp.py
行 41: 行 71:
 转换后的文本数据集(已进行二次修正):https://huggingface.co/datasets/bot-yaya/rework_undl_text 转换后的文本数据集(已进行二次修正):https://huggingface.co/datasets/bot-yaya/rework_undl_text
  
-== 文本翻译 ==+=== 文本翻译 ===
  
 [[大型机翻任务分发与部署]] [[大型机翻任务分发与部署]]
  
-== 文本对齐 ==+=== 文本对齐 ===
  
 [[对齐算法]] [[对齐算法]]
  
 实际在工程上用到的脚本在此处提供:https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/alignment/align_undl_text/use_translated_text_to_align2.py 实际在工程上用到的脚本在此处提供:https://github.com/liyongsea/parallel_corpus_mnbvc/blob/doc2docx/alignment/align_undl_text/use_translated_text_to_align2.py
- 
- 
-==== 游戏语料的整理 ==== 
- 
-负责人:夜夜,状态进行中 
- 
-子项目 
-== Baldur's Gate 3 == 
-负责人:王然,格式转换进行中 
- 
-== Cyberpunk 2077 == 
-负责人:Liu,解包数据已收集,格式转换进行中 
- 
-== Detroit: Become Human == 
-负责人:暂无,解包数据已收集,格式转换人手募集中 
- 
-== Slay the Spire == 
-负责人:暂无,解包数据已收集,格式转换人手募集中 
- 
-== Sid Meier's Civilization VI == 
-负责人:霖,已收录 
- 
-== Don't Starve == 
-负责人:霖,已收录 
- 
-== Stellaris == 
-负责人:霖,已收录 
- 
-== 原神 == 
-负责人:MR.B,已收录 
-已经从国外的仓库找到:https://gitlab.com/Dimbreath/AnimeGameData/ 
- 
-== 崩坏星穹铁道 == 
-负责人:MR.B,已收录 
-已经从国外的仓库找到:https://github.com/Dimbreath/StarRailData 
- 
-== The Witcher 3 == 
-负责人:MR.B,状态完成 
- 
-== Hogwarts Legacy == 
-负责人:青禾,状态完成 
- 
-== Terraria (Workshop localization) == 
-负责人:夜夜,已收录 
- 
-==== 字幕数据多语种部分 ==== 
-负责人:[!],状态完成 
-TODO未收到数据 
- 
-==== 字幕数据英语或中文部分 ==== 
-负责人:[!],状态完成 
-TODO未收到数据 
- 
-==== 美国驻华大使馆网站 ==== 
-负责人:[!],状态完成 
-https://github.com/liyongsea/parallel_corpus_mnbvc/tree/main/donwload_data_us_embassy 
- 
-==== China daily ==== 
-负责人:[!],状态完成 
-https://github.com/liyongsea/parallel_corpus_mnbvc/tree/main/download_data_chinadaily 
- 
-==== 多语种跑团数据的对齐 ==== 
-负责人:南方,状态 放弃 
-只有英文的数据无法对齐 
- 
-===== 小组成果 ===== 
-释放出来的huggingface数据集的连接 
- 
-联合国digital library,段落级别对齐: 
-  * https://huggingface.co/datasets/bot-yaya/undl_fr2en_aligned 
-  * https://huggingface.co/datasets/bot-yaya/undl_de2en_aligned 
-  * https://huggingface.co/datasets/bot-yaya/undl_ru2en_aligned 
-  * https://huggingface.co/datasets/bot-yaya/undl_ar2en_aligned 
-  * https://huggingface.co/datasets/bot-yaya/undl_es2en_aligned 
-  * https://huggingface.co/datasets/bot-yaya/undl_zh2en_aligned 
  
pxyl.1721226539.txt.gz · 最后更改: 2024/07/17 22:28 由 MNBVC项目组