sharegptqa
差别
这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
sharegptqa [2023/09/17 08:54] – 创建 MNBVC项目组 | sharegptqa [2023/10/04 09:06] (当前版本) – [原始数据集] MNBVC项目组 | ||
---|---|---|---|
行 1: | 行 1: | ||
====== ShareGPTQAExtractor-mnbvc ====== | ====== ShareGPTQAExtractor-mnbvc ====== | ||
- | < | ||
- | <!-- @import " | ||
- | <!-- code_chunk_output --> | ||
- | </ | ||
* [[# | * [[# | ||
* [[# | * [[# | ||
+ | * [[# | ||
+ | * [[# | ||
* [[# | * [[# | ||
* [[# | * [[# | ||
* [[# | * [[# | ||
* [[# | * [[# | ||
+ | * [[# | ||
* [[# | * [[# | ||
* [[# | * [[# | ||
+ | * [[# | ||
* [[# | * [[# | ||
- | < | ||
- | <!-- / | ||
- | </ | ||
===== 项目需求描述 ===== | ===== 项目需求描述 ===== | ||
- | ###原始数据集 | + | ==== 原始数据集 |
- | * 本项目主要目的是从Trello上分享的ShareGPT语料链接中抽取中文/ | + | * 本项目主要目的是从Trello上分享的ShareGPT语料链接中抽取中文/ |
- [[https:// | - [[https:// | ||
行 28: | 行 25: | ||
- [[https:// | - [[https:// | ||
- [[https:// | - [[https:// | ||
+ | - baiduzhidao-train | ||
- | ###标准化需求说明 | + | ==== 标准化需求说明 |
* 将不同格式的原始数据集,统一处理为标准格式的jsonl文件,每行对应一对问答,包含问答文本,以及同一会话下多轮问答的唯一标识和序号,详细格式附后。 | * 将不同格式的原始数据集,统一处理为标准格式的jsonl文件,每行对应一对问答,包含问答文本,以及同一会话下多轮问答的唯一标识和序号,详细格式附后。 | ||
行 109: | 行 107: | ||
|gpt4 | |gpt4 | ||
|common_en/ | |common_en/ | ||
+ | | baiduzhidao | ||
==== 代码说明 ==== | ==== 代码说明 ==== | ||
行 115: | 行 114: | ||
* '' | * '' | ||
- | ##文件示例 | + | ===== 文件示例 |
==== 原始文件示例(以[Ejafa/ | ==== 原始文件示例(以[Ejafa/ | ||
行 180: | 行 179: | ||
</ | </ | ||
- | ###补充说明 | + | ==== 补充说明 |
**上面的格式方便查看,最终输出到文件仍然为jsonl的规范,如下:** | **上面的格式方便查看,最终输出到文件仍然为jsonl的规范,如下:** |
sharegptqa.1694912050.txt.gz · 最后更改: 2023/09/17 08:54 由 MNBVC项目组