sharegptqa
差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 后一修订版 | 前一修订版 | ||
| sharegptqa [2023/09/17 08:54] – 创建 MNBVC项目组 | sharegptqa [2025/06/02 15:18] (当前版本) – 外部编辑 127.0.0.1 | ||
|---|---|---|---|
| 行 1: | 行 1: | ||
| ====== ShareGPTQAExtractor-mnbvc ====== | ====== ShareGPTQAExtractor-mnbvc ====== | ||
| - | < | ||
| - | <!-- @import " | ||
| - | <!-- code_chunk_output --> | ||
| - | </ | ||
| * [[# | * [[# | ||
| * [[# | * [[# | ||
| + | * [[# | ||
| + | * [[# | ||
| * [[# | * [[# | ||
| * [[# | * [[# | ||
| * [[# | * [[# | ||
| * [[# | * [[# | ||
| + | * [[# | ||
| * [[# | * [[# | ||
| * [[# | * [[# | ||
| + | * [[# | ||
| * [[# | * [[# | ||
| - | < | ||
| - | <!-- / | ||
| - | </ | ||
| ===== 项目需求描述 ===== | ===== 项目需求描述 ===== | ||
| - | ###原始数据集 | + | ==== 原始数据集 |
| - | * 本项目主要目的是从Trello上分享的ShareGPT语料链接中抽取中文/ | + | * 本项目主要目的是从Trello上分享的ShareGPT语料链接中抽取中文/ |
| - [[https:// | - [[https:// | ||
| 行 28: | 行 25: | ||
| - [[https:// | - [[https:// | ||
| - [[https:// | - [[https:// | ||
| + | - baiduzhidao-train | ||
| - | ###标准化需求说明 | + | ==== 标准化需求说明 |
| * 将不同格式的原始数据集,统一处理为标准格式的jsonl文件,每行对应一对问答,包含问答文本,以及同一会话下多轮问答的唯一标识和序号,详细格式附后。 | * 将不同格式的原始数据集,统一处理为标准格式的jsonl文件,每行对应一对问答,包含问答文本,以及同一会话下多轮问答的唯一标识和序号,详细格式附后。 | ||
| 行 109: | 行 107: | ||
| |gpt4 | |gpt4 | ||
| |common_en/ | |common_en/ | ||
| + | | baiduzhidao | ||
| ==== 代码说明 ==== | ==== 代码说明 ==== | ||
| 行 115: | 行 114: | ||
| * '' | * '' | ||
| - | ##文件示例 | + | ===== 文件示例 |
| ==== 原始文件示例(以[Ejafa/ | ==== 原始文件示例(以[Ejafa/ | ||
| 行 180: | 行 179: | ||
| </ | </ | ||
| - | ###补充说明 | + | ==== 补充说明 |
| **上面的格式方便查看,最终输出到文件仍然为jsonl的规范,如下:** | **上面的格式方便查看,最终输出到文件仍然为jsonl的规范,如下:** | ||
sharegptqa.1694912050.txt.gz · 最后更改: (外部编辑)
