sjfb
差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 后一修订版 | 前一修订版 | ||
| sjfb [2023/07/02 15:48] – 创建 MNBVC项目组 | sjfb [2025/06/02 15:18] (当前版本) – 外部编辑 127.0.0.1 | ||
|---|---|---|---|
| 行 1: | 行 1: | ||
| - | ==测试== | + | ===== 数据发布组目标 ===== |
| + | 将清洗好的数据发布到huggingface等平台。 | ||
| - | 这里是数据发布组的wiki | + | ===== 小组任务 ===== |
| + | |||
| + | 发布已清洗的数据。 | ||
| + | |||
| + | ===== 小组成果 ===== | ||
| + | |||
| + | 百度网盘,微力分享,hunggingface | ||
| + | |||
| + | ==== 数据位置 ==== | ||
| + | |||
| + | 清洗完成的分类数据已陆续放到: | ||
| + | |||
| + | [[https:// | ||
| + | |||
| + | 可以使用如下脚本加载: | ||
| + | |||
| + | <code python> | ||
| + | from datasets import load_dataset | ||
| + | dataset = load_dataset(" | ||
| + | streaming=True) | ||
| + | |||
| + | next(iter(dataset)) | ||
| + | </ | ||
| + | |||
| + | 数据子集, | ||
| + | |||
| + | law_judgement: | ||
| + | gov_xuexiqiangguo: | ||
| + | gov_report: 来自政府工作报告的文本。 | ||
| + | co_ann_report: | ||
| + | code_metadata: | ||
| + | qa_zhihu: 来自知乎的问答数据。 | ||
| + | qa_wikihow: 来自wikihow的问答数据。 | ||
| + | qa_mfa: 外交部问答数据。 | ||
| + | news_peoples_daily: | ||
| + | wikipedia: 来自维基百科的文本数据。 | ||
| + | |||
| + | |||
| + | ==== 数据格式 ==== | ||
| + | 目前MNBVC数据集包含如下几类数据: | ||
| + | |||
| + | ==== 文本数据 ==== | ||
| + | 文本数据使用如下格式组织: | ||
| + | |||
| + | { | ||
| + | " | ||
| + | "是否待查文件": | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | datasets.Features( | ||
| + | { | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | } | ||
| + | ) | ||
| + | ] | ||
| + | } | ||
| + | |||
| + | ==== 问答数据 | ||
| + | 问答数据使用如下格式组织: | ||
| + | |||
| + | { | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | " | ||
| + | } | ||
| + | } | ||
| + | |||
| + | 项目早期所上传的数据使用如下格式,以后这一格式会被废弃,相应数据也会重新上传: | ||
| + | |||
| + | { | ||
| + | " | ||
| + | " | ||
| + | } | ||
sjfb.1688284131.txt.gz · 最后更改: (外部编辑)
