用户工具

站点工具


sjfb

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
sjfb [2023/07/02 19:22] MNBVC项目组sjfb [2023/08/21 11:33] (当前版本) – 添加了一点小内容。 Linglingfa
行 4: 行 4:
 ===== 小组任务 ===== ===== 小组任务 =====
  
 +发布已清洗的数据。
  
 ===== 小组成果 ===== ===== 小组成果 =====
 +
 +百度网盘,微力分享,hunggingface 
 +
 +==== 数据位置 ====
 +
 +清洗完成的分类数据已陆续放到:
 +
 +[[https://huggingface.co/datasets/liwu/MNBVC | huggingface ]]
 +
 +可以使用如下脚本加载:
 +
 +<code python>
 +from datasets import load_dataset
 +dataset = load_dataset("liwu/MNBVC", 'law_judgement', split='train', 
 +streaming=True)
 +
 +next(iter(dataset))  # get the first line
 +  </code>
 +
 +数据子集,  MNBVC数据集包含数个子集:
 +
 +  law_judgement: 来自法律文书的文本。
 +  gov_xuexiqiangguo: 来自学习强国的文本。
 +  gov_report: 来自政府工作报告的文本。
 +  co_ann_report: 企业年报文本。
 +  code_metadata: 代码元数据。
 +  qa_zhihu: 来自知乎的问答数据。
 +  qa_wikihow: 来自wikihow的问答数据。
 +  qa_mfa: 外交部问答数据。
 +  news_peoples_daily: 来自人民日报的文本数据。
 +  wikipedia: 来自维基百科的文本数据。
 +  
 +  
 +==== 数据格式 ====
 +目前MNBVC数据集包含如下几类数据:
 +
 +==== 文本数据 ====
 +文本数据使用如下格式组织:
 +
 +  {
 +    "文件名": datasets.Value("string"),
 +    "是否待查文件": datasets.Value("bool"),
 +    "是否重复文件": datasets.Value("bool"),
 +    "文件大小": datasets.Value("int32"),
 +    "simhash": datasets.Value("uint64"),
 +    "最长段落长度": datasets.Value("int32"),
 +    "段落数": datasets.Value("int32"),
 +    "去重段落数": datasets.Value("int32"),
 +    "低质量段落数": datasets.Value("int32"),
 +    "段落": [
 +        datasets.Features(
 +            {
 +                "行号": datasets.Value("int32"),
 +                "是否重复": datasets.Value("bool"),
 +                "是否跨文件重复": datasets.Value("bool"),
 +                "md5": datasets.Value("string"),
 +                "内容": datasets.Value("string"),
 +            }
 +        )
 +    ]
 +  }
 +  
 +==== 问答数据 ====
 +问答数据使用如下格式组织:
 +
 +  {
 +    "id": datasets.Value("int32"),
 +    "问": datasets.Value("string"),
 +    "答": datasets.Value("string"),
 +    "来源": datasets.Value("string"),
 +    "元数据": {
 +        "create_time": datasets.Value("string"),
 +        "问题明细": datasets.Value("string"),
 +        "回答明细": datasets.Value("string"),
 +        "扩展字段": datasets.Value("string"),
 +    }
 +  }
 +
 +项目早期所上传的数据使用如下格式,以后这一格式会被废弃,相应数据也会重新上传:
 +
 +  {
 +    "text": datasets.Value("string"),
 +    "meta": datasets.Value("string")
 +  }
sjfb.1688296965.txt.gz · 最后更改: 2023/07/02 19:22 由 MNBVC项目组