===== 数据发布组目标 =====
将清洗好的数据发布到huggingface等平台。

===== 小组任务 =====

发布已清洗的数据。

===== 小组成果 =====

百度网盘，微力分享，hunggingface 

==== 数据位置 ====

清洗完成的分类数据已陆续放到：

[[https://huggingface.co/datasets/liwu/MNBVC | huggingface ]]

可以使用如下脚本加载：

<code python>
from datasets import load_dataset
dataset = load_dataset("liwu/MNBVC", 'law_judgement', split='train', 
streaming=True)

next(iter(dataset))  # get the first line
  </code>

数据子集,  MNBVC数据集包含数个子集：

  law_judgement: 来自法律文书的文本。
  gov_xuexiqiangguo: 来自学习强国的文本。
  gov_report: 来自政府工作报告的文本。
  co_ann_report: 企业年报文本。
  code_metadata: 代码元数据。
  qa_zhihu: 来自知乎的问答数据。
  qa_wikihow: 来自wikihow的问答数据。
  qa_mfa: 外交部问答数据。
  news_peoples_daily: 来自人民日报的文本数据。
  wikipedia: 来自维基百科的文本数据。
  
  
==== 数据格式 ====
目前MNBVC数据集包含如下几类数据：

==== 文本数据 ====
文本数据使用如下格式组织：

  {
    "文件名": datasets.Value("string"),
    "是否待查文件": datasets.Value("bool"),
    "是否重复文件": datasets.Value("bool"),
    "文件大小": datasets.Value("int32"),
    "simhash": datasets.Value("uint64"),
    "最长段落长度": datasets.Value("int32"),
    "段落数": datasets.Value("int32"),
    "去重段落数": datasets.Value("int32"),
    "低质量段落数": datasets.Value("int32"),
    "段落": [
        datasets.Features(
            {
                "行号": datasets.Value("int32"),
                "是否重复": datasets.Value("bool"),
                "是否跨文件重复": datasets.Value("bool"),
                "md5": datasets.Value("string"),
                "内容": datasets.Value("string"),
            }
        )
    ]
  }
  
==== 问答数据 ====
问答数据使用如下格式组织：

  {
    "id": datasets.Value("int32"),
    "问": datasets.Value("string"),
    "答": datasets.Value("string"),
    "来源": datasets.Value("string"),
    "元数据": {
        "create_time": datasets.Value("string"),
        "问题明细": datasets.Value("string"),
        "回答明细": datasets.Value("string"),
        "扩展字段": datasets.Value("string"),
    }
  }

项目早期所上传的数据使用如下格式，以后这一格式会被废弃，相应数据也会重新上传：

  {
    "text": datasets.Value("string"),
    "meta": datasets.Value("string")
  }