用户工具

站点工具


sharegptqa

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
sharegptqa [2023/09/17 08:58] MNBVC项目组sharegptqa [2023/10/04 09:06] (当前版本) – [原始数据集] MNBVC项目组
行 3: 行 3:
   * [[#sharegptqaextractor-mnbvc|ShareGPTQAExtractor-mnbvc]]   * [[#sharegptqaextractor-mnbvc|ShareGPTQAExtractor-mnbvc]]
     * [[#项目需求描述|项目需求描述]]     * [[#项目需求描述|项目需求描述]]
 +      * [[#原始数据集|原始数据集]]
 +      * [[#标准化需求说明|标准化需求说明]]
     * [[#使用方式|使用方式]]     * [[#使用方式|使用方式]]
       * [[#环境准备|环境准备]]       * [[#环境准备|环境准备]]
       * [[#运行方式|运行方式]]       * [[#运行方式|运行方式]]
       * [[#代码说明|代码说明]]       * [[#代码说明|代码说明]]
 +    * [[#文件示例|文件示例]]
       * [[#原始文件示例以ejafagpt_4_with_sharegpt格式文件为例|原始文件示例(以[Ejafa/GPT_4_with_ShareGPT]格式文件为例)]]       * [[#原始文件示例以ejafagpt_4_with_sharegpt格式文件为例|原始文件示例(以[Ejafa/GPT_4_with_ShareGPT]格式文件为例)]]
       * [[#结果示例|结果示例]]       * [[#结果示例|结果示例]]
 +      * [[#补充说明|补充说明]]
     * [[#相关项目|相关项目]]     * [[#相关项目|相关项目]]
  
行 15: 行 19:
 ==== 原始数据集 ==== ==== 原始数据集 ====
  
-  * 本项目主要目的是从Trello上分享的ShareGPT语料链接中抽取中文/英文问答数据。一共4个语料:+  * 本项目主要目的是从Trello上分享的ShareGPT语料链接中抽取中文/英文问答数据。一共5个语料:
  
   - [[https://huggingface.co/datasets/cryscan/multilingual-share|scryscan/multilingual-share]]   - [[https://huggingface.co/datasets/cryscan/multilingual-share|scryscan/multilingual-share]]
行 21: 行 25:
   - [[https://huggingface.co/datasets/Ejafa/GPT_4_with_ShareGPT/tree/main|Ejafa/GPT_4_with_ShareGPT]]   - [[https://huggingface.co/datasets/Ejafa/GPT_4_with_ShareGPT/tree/main|Ejafa/GPT_4_with_ShareGPT]]
   - [[https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k/tree/main/sharegpt_jsonl|shareAI/ShareGPT-Chinese-English-90k]]   - [[https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k/tree/main/sharegpt_jsonl|shareAI/ShareGPT-Chinese-English-90k]]
 +  - baiduzhidao-train
  
 ==== 标准化需求说明 ==== ==== 标准化需求说明 ====
行 102: 行 107:
 |gpt4               |[[https://huggingface.co/datasets/Ejafa/GPT_4_with_ShareGPT/tree/main|Ejafa/GPT_4_with_ShareGPT]]                                     | |gpt4               |[[https://huggingface.co/datasets/Ejafa/GPT_4_with_ShareGPT/tree/main|Ejafa/GPT_4_with_ShareGPT]]                                     |
 |common_en/common_zh|[[https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k/tree/main/sharegpt_jsonl|shareAI/ShareGPT-Chinese-English-90k]]| |common_en/common_zh|[[https://huggingface.co/datasets/shareAI/ShareGPT-Chinese-English-90k/tree/main/sharegpt_jsonl|shareAI/ShareGPT-Chinese-English-90k]]|
 +| baiduzhidao    shareGPT的中文问答       |
  
 ==== 代码说明 ==== ==== 代码说明 ====
sharegptqa.1694912300.txt.gz · 最后更改: 2023/09/17 08:58 由 MNBVC项目组