用户工具

站点工具


pxyl

平行语料小组目标

关注中英文平行语料的清洗,例如联合国语料、字幕组语料、字典、双语读本等。

小组任务

小组github ==》https://github.com/liyongsea/parallel_corpus_mnbvc 目前所有项目的代码都放在上面。之后有需要会慢慢分开

  • 联合国平行语料对齐(进行中,负责人:夜夜)
  • 多语种跑团数据的对齐(进行中,负责人:南方)
  • 字幕数据多语种部分(已完成,负责人:[!])
  • 字幕数据英语或中文部分(搁置,负责人:[!])
  • 美国驻华大使馆网站(已完成,负责人:[!])
  • China daily(已完成,负责人:[!])

联合国数字图书馆的多语种语料对齐

  1. 引言
    • 数据源目的:简要描述数据源在NLP模型训练中的目的和相关性。
    • 来源信息:提及数据的来源,包括提供者、URL(如适用)以及数据源的性质(例如,网站、出版物、数据集仓库)
  2. 数据收集方法
    • 收集过程:概述收集数据的步骤,包括使用的任何自动脚本或手动流程。
    • 数据收集日期:指定收集数据的时间段。
    • 选择标准:详细说明用于从源中选择或过滤数据的标准。
  3. 数据整理和清理方法
  4. 内容描述
    • 数据格式:描述数据的格式(例如,JSON、CSV、XML)。
    • 数据结构:提供数据的结构或模式,详细说明包含的字段和类型信息。
    • 样本数据:包含一小段数据示例以供参考。
  5. 数据量和特性
    • 数据集大小:提供有关数据集大小的信息,如记录数、文件数或总大小(以GB计)。
    • 数据特性:描述数据的性质,包括语言、领域以及观察到的任何特定特征或模式。

多语种跑团数据的对齐

TODO

字幕数据多语种部分

TODO

字幕数据英语或中文部分

TODO

美国驻华大使馆网站

TODO

China daily

TODO

小组成果

释放出来的huggingface数据集的连接

pxyl.txt · 最后更改: 2023/11/25 16:13 由 MNBVC项目组