用户工具

站点工具


sharegptqa

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

后一修订版
前一修订版
sharegptqa [2023/09/17 08:54] – 创建 MNBVC项目组sharegptqa [2023/10/04 09:06] (当前版本) – [原始数据集] MNBVC项目组
行 1: 行 1:
 ====== ShareGPTQAExtractor-mnbvc ====== ====== ShareGPTQAExtractor-mnbvc ======
  
-<HTML> 
-<!-- @import "[TOC]" {cmd="toc" depthFrom=1 depthTo=6 orderedList=false} --> 
-<!-- code_chunk_output --> 
-</HTML> 
   * [[#sharegptqaextractor-mnbvc|ShareGPTQAExtractor-mnbvc]]   * [[#sharegptqaextractor-mnbvc|ShareGPTQAExtractor-mnbvc]]
     * [[#项目需求描述|项目需求描述]]     * [[#项目需求描述|项目需求描述]]
 +      * [[#原始数据集|原始数据集]]
 +      * [[#标准化需求说明|标准化需求说明]]
     * [[#使用方式|使用方式]]     * [[#使用方式|使用方式]]
       * [[#环境准备|环境准备]]       * [[#环境准备|环境准备]]
       * [[#运行方式|运行方式]]       * [[#运行方式|运行方式]]
       * [[#代码说明|代码说明]]       * [[#代码说明|代码说明]]
 +    * [[#文件示例|文件示例]]
       * [[#原始文件示例以ejafagpt_4_with_sharegpt格式文件为例|原始文件示例(以[Ejafa/GPT_4_with_ShareGPT]格式文件为例)]]       * [[#原始文件示例以ejafagpt_4_with_sharegpt格式文件为例|原始文件示例(以[Ejafa/GPT_4_with_ShareGPT]格式文件为例)]]
       * [[#结果示例|结果示例]]       * [[#结果示例|结果示例]]
 +      * [[#补充说明|补充说明]]
     * [[#相关项目|相关项目]]     * [[#相关项目|相关项目]]
  
-<HTML> 
-<!-- /code_chunk_output --> 
-</HTML> 
 ===== 项目需求描述 ===== ===== 项目需求描述 =====
  
-###原始数据集+==== 原始数据集 ====
  
-  * 本项目主要目的是从Trello上分享的ShareGPT语料链接中抽取中文/英文问答数据。一共4个语料:+  * 本项目主要目的是从Trello上分享的ShareGPT语料链接中抽取中文/英文问答数据。一共5个语料:
  
   - [[https://huggingface.co/datasets/cryscan/multilingual-share|scryscan/multilingual-share]]   - [[https://huggingface.co/datasets/cryscan/multilingual-share|scryscan/multilingual-share]]
行 28: 行 25:
   - [[https://huggingface.co/datasets/Ejafa/GPT_4_with_ShareGPT/tree/main|Ejafa/GPT_4_with_ShareGPT]]   - [[https://huggingface.co/datasets/Ejafa/GPT_4_with_ShareGPT/tree/main|Ejafa/GPT_4_with_ShareGPT]]
   - [[https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k/tree/main/sharegpt_jsonl|shareAI/ShareGPT-Chinese-English-90k]]   - [[https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k/tree/main/sharegpt_jsonl|shareAI/ShareGPT-Chinese-English-90k]]
 +  - baiduzhidao-train
  
-###标准化需求说明+==== 标准化需求说明 ====
  
   * 将不同格式的原始数据集,统一处理为标准格式的jsonl文件,每行对应一对问答,包含问答文本,以及同一会话下多轮问答的唯一标识和序号,详细格式附后。   * 将不同格式的原始数据集,统一处理为标准格式的jsonl文件,每行对应一对问答,包含问答文本,以及同一会话下多轮问答的唯一标识和序号,详细格式附后。
行 109: 行 107:
 |gpt4               |[[https://huggingface.co/datasets/Ejafa/GPT_4_with_ShareGPT/tree/main|Ejafa/GPT_4_with_ShareGPT]]                                     | |gpt4               |[[https://huggingface.co/datasets/Ejafa/GPT_4_with_ShareGPT/tree/main|Ejafa/GPT_4_with_ShareGPT]]                                     |
 |common_en/common_zh|[[https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k/tree/main/sharegpt_jsonl|shareAI/ShareGPT-Chinese-English-90k]]| |common_en/common_zh|[[https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k/tree/main/sharegpt_jsonl|shareAI/ShareGPT-Chinese-English-90k]]|
 +| baiduzhidao    shareGPT的中文问答       |
  
 ==== 代码说明 ==== ==== 代码说明 ====
行 115: 行 114:
   * ''%%schema.py%%'' 输出json模板   * ''%%schema.py%%'' 输出json模板
  
-##文件示例+===== 文件示例 =====
  
 ==== 原始文件示例(以[Ejafa/GPT_4_with_ShareGPT]格式文件为例) ==== ==== 原始文件示例(以[Ejafa/GPT_4_with_ShareGPT]格式文件为例) ====
行 180: 行 179:
 </code> </code>
  
-###补充说明+==== 补充说明 ====
  
 **上面的格式方便查看,最终输出到文件仍然为jsonl的规范,如下:** **上面的格式方便查看,最终输出到文件仍然为jsonl的规范,如下:**
sharegptqa.1694912050.txt.gz · 最后更改: 2023/09/17 08:54 由 MNBVC项目组