pxyl
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
pxyl [2024/02/03 15:45] – [字幕数据英语或中文部分] MNBVC项目组 | pxyl [2024/12/06 11:17] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 2: | 行 2: | ||
关注中英文平行语料的清洗,例如联合国语料、字幕组语料、字典、双语读本等。 | 关注中英文平行语料的清洗,例如联合国语料、字幕组语料、字典、双语读本等。 | ||
- | ===== 小组任务 | + | ==== Github仓库 |
- | 小组github ==》https:// | + | |
- | | 项目名称 | + | |
- | | 联合国平行语料对齐 | + | |
- | | 新加的字幕数据 | + | |
- | | 字幕数据多语种部分 | + | |
- | | 美国驻华大使馆网站 | + | |
- | | China Daily | 已完成 | + | |
- | | 多语种跑团数据的对齐 | + | |
- | | 字幕数据英语或中文部分 | + | |
+ | 总仓库:https:// | ||
- | ==== 联合国数字图书馆的多语种语料对齐 ==== | + | 平行语料组现有任务分配、代码协作、招募信息、加入方式都将直接放在总仓库。微信小群讨论工作事宜,共享站传递临时文件,每周六16: |
- | - 引言 | + | ==== 任务分配 ==== |
- | * 数据源目的:简要描述数据源在NLP模型训练中的目的和相关性。 | + | |
- | * 来源信息:提及数据的来源,包括提供者、URL(如适用)以及数据源的性质(例如,网站、出版物、数据集仓库) | + | |
- | - 数据收集方法 | + | |
- | * 收集过程:概述收集数据的步骤,包括使用的任何自动脚本或手动流程。 | + | |
- | * 数据收集日期:指定收集数据的时间段。 | + | |
- | * 选择标准:详细说明用于从源中选择或过滤数据的标准。 | + | |
- | - 数据整理和清理方法 | + | |
- | - 内容描述 | + | |
- | * 数据格式:描述数据的格式(例如,JSON、CSV、XML)。 | + | |
- | * 数据结构:提供数据的结构或模式,详细说明包含的字段和类型信息。 | + | |
- | * 样本数据:包含一小段数据示例以供参考。 | + | |
- | - 数据量和特性 | + | |
- | * 数据集大小:提供有关数据集大小的信息,如记录数、文件数或总大小(以GB计)。 | + | |
- | * 数据特性:描述数据的性质,包括语言、领域以及观察到的任何特定特征或模式。 | + | |
- | === 数据整理和清理方法 === | + | https:// |
- | == DOC和WPF转DOCX == | + | ==== 语料格式 ==== |
+ | |||
+ | 如果wiki展示的语料格式跟总仓库有差异,以**总仓库**的为准。 | ||
+ | |||
+ | < | ||
+ | { | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | } | ||
+ | </ | ||
+ | |||
+ | |||
+ | ==== 技术文档 ==== | ||
+ | |||
+ | === DOC和WPF转DOCX | ||
爬虫拿到的数据大多数为DOC文件,少部分为WPF文件,这两种格式的文件并不能很容易的直接按段落提取文本,故我们需要先将其转换为DOCX格式。 | 爬虫拿到的数据大多数为DOC文件,少部分为WPF文件,这两种格式的文件并不能很容易的直接按段落提取文本,故我们需要先将其转换为DOCX格式。 | ||
行 44: | 行 65: | ||
[[批量并行转换DOC和WPF为DOCX]] | [[批量并行转换DOC和WPF为DOCX]] | ||
- | == DOCX转文本 == | + | === DOCX转文本 |
此部分使用pandoc完成,直接进行多进程并行即可在几个小时之内转完,实际过程中pandoc会因为tex错误导致一些docx没有输出。https:// | 此部分使用pandoc完成,直接进行多进程并行即可在几个小时之内转完,实际过程中pandoc会因为tex错误导致一些docx没有输出。https:// | ||
行 50: | 行 71: | ||
转换后的文本数据集(已进行二次修正):https:// | 转换后的文本数据集(已进行二次修正):https:// | ||
- | == 文本翻译 == | + | === 文本翻译 |
[[大型机翻任务分发与部署]] | [[大型机翻任务分发与部署]] | ||
- | == 文本对齐 == | + | === 文本对齐 |
[[对齐算法]] | [[对齐算法]] | ||
实际在工程上用到的脚本在此处提供:https:// | 实际在工程上用到的脚本在此处提供:https:// | ||
- | ==== 多语种跑团数据的对齐 ==== | ||
- | TODO | ||
- | |||
- | ==== 字幕数据多语种部分 ==== | ||
- | TODO | ||
- | |||
- | ==== 字幕数据英语或中文部分 ==== | ||
- | TODO | ||
- | |||
- | ==== 美国驻华大使馆网站 ==== | ||
- | https:// | ||
- | |||
- | ==== China daily ==== | ||
- | https:// | ||
- | |||
- | ===== 小组成果 ===== | ||
- | 释放出来的huggingface数据集的连接 | ||
- | 联合国digital library,段落级别对齐: | ||
- | * https:// | ||
- | * https:// | ||
- | * https:// | ||
- | * https:// | ||
- | * https:// | ||
- | * https:// |
pxyl.1706946329.txt.gz · 最后更改: 2024/02/03 15:45 由 MNBVC项目组