===== 数据发布组目标 ===== 将清洗好的数据发布到huggingface等平台。 ===== 小组任务 ===== 发布已清洗的数据。 ===== 小组成果 ===== 百度网盘,微力分享,hunggingface ==== 数据位置 ==== 清洗完成的分类数据已陆续放到: [[https://huggingface.co/datasets/liwu/MNBVC | huggingface ]] 可以使用如下脚本加载: from datasets import load_dataset dataset = load_dataset("liwu/MNBVC", 'law_judgement', split='train', streaming=True) next(iter(dataset)) # get the first line 数据子集, MNBVC数据集包含数个子集: law_judgement: 来自法律文书的文本。 gov_xuexiqiangguo: 来自学习强国的文本。 gov_report: 来自政府工作报告的文本。 co_ann_report: 企业年报文本。 code_metadata: 代码元数据。 qa_zhihu: 来自知乎的问答数据。 qa_wikihow: 来自wikihow的问答数据。 qa_mfa: 外交部问答数据。 news_peoples_daily: 来自人民日报的文本数据。 wikipedia: 来自维基百科的文本数据。 ==== 数据格式 ==== 目前MNBVC数据集包含如下几类数据: ==== 文本数据 ==== 文本数据使用如下格式组织: { "文件名": datasets.Value("string"), "是否待查文件": datasets.Value("bool"), "是否重复文件": datasets.Value("bool"), "文件大小": datasets.Value("int32"), "simhash": datasets.Value("uint64"), "最长段落长度": datasets.Value("int32"), "段落数": datasets.Value("int32"), "去重段落数": datasets.Value("int32"), "低质量段落数": datasets.Value("int32"), "段落": [ datasets.Features( { "行号": datasets.Value("int32"), "是否重复": datasets.Value("bool"), "是否跨文件重复": datasets.Value("bool"), "md5": datasets.Value("string"), "内容": datasets.Value("string"), } ) ] } ==== 问答数据 ==== 问答数据使用如下格式组织: { "id": datasets.Value("int32"), "问": datasets.Value("string"), "答": datasets.Value("string"), "来源": datasets.Value("string"), "元数据": { "create_time": datasets.Value("string"), "问题明细": datasets.Value("string"), "回答明细": datasets.Value("string"), "扩展字段": datasets.Value("string"), } } 项目早期所上传的数据使用如下格式,以后这一格式会被废弃,相应数据也会重新上传: { "text": datasets.Value("string"), "meta": datasets.Value("string") }