用户工具

站点工具


sjfb

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

后一修订版
前一修订版
sjfb [2023/07/02 15:48] – 创建 MNBVC项目组sjfb [2023/08/21 11:33] (当前版本) – 添加了一点小内容。 Linglingfa
行 1: 行 1:
-==测试==+===== 数据发布组目标 ===== 
 +将清洗好的数据发布到huggingface等平台。
  
-这里是数据发布组的wiki+===== 小组任务 ===== 
 + 
 +发布已清洗的数据。 
 + 
 +===== 小组成果 ===== 
 + 
 +百度网盘,微力分享,hunggingface  
 + 
 +==== 数据位置 ==== 
 + 
 +清洗完成的分类数据已陆续放到: 
 + 
 +[[https://huggingface.co/datasets/liwu/MNBVC | huggingface ]] 
 + 
 +可以使用如下脚本加载: 
 + 
 +<code python> 
 +from datasets import load_dataset 
 +dataset = load_dataset("liwu/MNBVC", 'law_judgement', split='train',  
 +streaming=True) 
 + 
 +next(iter(dataset))  # get the first line 
 +  </code> 
 + 
 +数据子集,  MNBVC数据集包含数个子集: 
 + 
 +  law_judgement: 来自法律文书的文本。 
 +  gov_xuexiqiangguo: 来自学习强国的文本。 
 +  gov_report: 来自政府工作报告的文本。 
 +  co_ann_report: 企业年报文本。 
 +  code_metadata: 代码元数据。 
 +  qa_zhihu: 来自知乎的问答数据。 
 +  qa_wikihow: 来自wikihow的问答数据。 
 +  qa_mfa: 外交部问答数据。 
 +  news_peoples_daily: 来自人民日报的文本数据。 
 +  wikipedia: 来自维基百科的文本数据。 
 +   
 +   
 +==== 数据格式 ==== 
 +目前MNBVC数据集包含如下几类数据: 
 + 
 +==== 文本数据 ==== 
 +文本数据使用如下格式组织: 
 + 
 +  { 
 +    "文件名": datasets.Value("string"), 
 +    "否待查文件": datasets.Value("bool"), 
 +    "是否重复文件": datasets.Value("bool"), 
 +    "文件大小": datasets.Value("int32"), 
 +    "simhash": datasets.Value("uint64"), 
 +    "最长段落长度": datasets.Value("int32"), 
 +    "段落数": datasets.Value("int32"), 
 +    "去重段落数": datasets.Value("int32"), 
 +    "低质量段落数": datasets.Value("int32"), 
 +    "段落":
 +        datasets.Features( 
 +            { 
 +                "行号": datasets.Value("int32"), 
 +                "是否重复": datasets.Value("bool"), 
 +                "是否跨文件重复": datasets.Value("bool"), 
 +                "md5": datasets.Value("string"), 
 +                "内容": datasets.Value("string"), 
 +            } 
 +        ) 
 +    ] 
 +  } 
 +   
 +==== 问答数据 ==== 
 +问答数据使用如下格式织: 
 + 
 +  { 
 +    "id": datasets.Value("int32"), 
 +    "问": datasets.Value("string"), 
 +    "答": datasets.Value("string"), 
 +    "来源": datasets.Value("string"), 
 +    "元数据":
 +        "create_time": datasets.Value("string"), 
 +        "问题明细": datasets.Value("string"), 
 +        "回答明细": datasets.Value("string"), 
 +        "扩展字段": datasets.Value("string"), 
 +    } 
 +  } 
 + 
 +项目早期所上传数据使用如下格式,以后这一格式会被废弃,相应数据也会重新上传: 
 + 
 +  { 
 +    "text": datasets.Value("string"), 
 +    "meta": datasets.Value("string"
 +  }
sjfb.1688284131.txt.gz · 最后更改: 2023/07/02 15:48 由 MNBVC项目组