目录

数据发布组目标

将清洗好的数据发布到huggingface等平台。

小组任务

发布已清洗的数据。

小组成果

百度网盘,微力分享,hunggingface

数据位置

清洗完成的分类数据已陆续放到:

huggingface

可以使用如下脚本加载:

from datasets import load_dataset
dataset = load_dataset("liwu/MNBVC", 'law_judgement', split='train', 
streaming=True)
 
next(iter(dataset))  # get the first line
 

数据子集, MNBVC数据集包含数个子集:

law_judgement: 来自法律文书的文本。
gov_xuexiqiangguo: 来自学习强国的文本。
gov_report: 来自政府工作报告的文本。
co_ann_report: 企业年报文本。
code_metadata: 代码元数据。
qa_zhihu: 来自知乎的问答数据。
qa_wikihow: 来自wikihow的问答数据。
qa_mfa: 外交部问答数据。
news_peoples_daily: 来自人民日报的文本数据。
wikipedia: 来自维基百科的文本数据。

数据格式

目前MNBVC数据集包含如下几类数据:

文本数据

文本数据使用如下格式组织:

{
  "文件名": datasets.Value("string"),
  "是否待查文件": datasets.Value("bool"),
  "是否重复文件": datasets.Value("bool"),
  "文件大小": datasets.Value("int32"),
  "simhash": datasets.Value("uint64"),
  "最长段落长度": datasets.Value("int32"),
  "段落数": datasets.Value("int32"),
  "去重段落数": datasets.Value("int32"),
  "低质量段落数": datasets.Value("int32"),
  "段落": [
      datasets.Features(
          {
              "行号": datasets.Value("int32"),
              "是否重复": datasets.Value("bool"),
              "是否跨文件重复": datasets.Value("bool"),
              "md5": datasets.Value("string"),
              "内容": datasets.Value("string"),
          }
      )
  ]
}

问答数据

问答数据使用如下格式组织:

{
  "id": datasets.Value("int32"),
  "问": datasets.Value("string"),
  "答": datasets.Value("string"),
  "来源": datasets.Value("string"),
  "元数据": {
      "create_time": datasets.Value("string"),
      "问题明细": datasets.Value("string"),
      "回答明细": datasets.Value("string"),
      "扩展字段": datasets.Value("string"),
  }
}

项目早期所上传的数据使用如下格式,以后这一格式会被废弃,相应数据也会重新上传:

{
  "text": datasets.Value("string"),
  "meta": datasets.Value("string")
}