sjfb
差别
这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
sjfb [2023/07/02 15:48] – 创建 MNBVC项目组 | sjfb [2023/08/21 11:33] (当前版本) – 添加了一点小内容。 Linglingfa | ||
---|---|---|---|
行 1: | 行 1: | ||
- | ==测试== | + | ===== 数据发布组目标 ===== |
+ | 将清洗好的数据发布到huggingface等平台。 | ||
- | 这里是数据发布组的wiki | + | ===== 小组任务 ===== |
+ | |||
+ | 发布已清洗的数据。 | ||
+ | |||
+ | ===== 小组成果 ===== | ||
+ | |||
+ | 百度网盘,微力分享,hunggingface | ||
+ | |||
+ | ==== 数据位置 ==== | ||
+ | |||
+ | 清洗完成的分类数据已陆续放到: | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | 可以使用如下脚本加载: | ||
+ | |||
+ | <code python> | ||
+ | from datasets import load_dataset | ||
+ | dataset = load_dataset(" | ||
+ | streaming=True) | ||
+ | |||
+ | next(iter(dataset)) | ||
+ | </ | ||
+ | |||
+ | 数据子集, | ||
+ | |||
+ | law_judgement: | ||
+ | gov_xuexiqiangguo: | ||
+ | gov_report: 来自政府工作报告的文本。 | ||
+ | co_ann_report: | ||
+ | code_metadata: | ||
+ | qa_zhihu: 来自知乎的问答数据。 | ||
+ | qa_wikihow: 来自wikihow的问答数据。 | ||
+ | qa_mfa: 外交部问答数据。 | ||
+ | news_peoples_daily: | ||
+ | wikipedia: 来自维基百科的文本数据。 | ||
+ | |||
+ | |||
+ | ==== 数据格式 ==== | ||
+ | 目前MNBVC数据集包含如下几类数据: | ||
+ | |||
+ | ==== 文本数据 ==== | ||
+ | 文本数据使用如下格式组织: | ||
+ | |||
+ | { | ||
+ | " | ||
+ | "是否待查文件": | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | datasets.Features( | ||
+ | { | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | } | ||
+ | ) | ||
+ | ] | ||
+ | } | ||
+ | |||
+ | ==== 问答数据 | ||
+ | 问答数据使用如下格式组织: | ||
+ | |||
+ | { | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | " | ||
+ | } | ||
+ | } | ||
+ | |||
+ | 项目早期所上传的数据使用如下格式,以后这一格式会被废弃,相应数据也会重新上传: | ||
+ | |||
+ | { | ||
+ | " | ||
+ | " | ||
+ | } |
sjfb.1688284131.txt.gz · 最后更改: 2023/07/02 15:48 由 MNBVC项目组