跳至内容
MNBVC-Wiki
用户工具
登录
站点工具
搜索
工具
显示源文件
过去修订
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
•
sjbzh
侧边栏
MNBVC Wiki
研发团队
数据收集组
数据标准化组
数据清洗组
语料增强组
数据打包组
数据存储组
数据发布组
平行语料组
问答语料组
代码语料组
多模态语料组
基础工程组
开源补丁组(筹)
智能测试组(筹)
基础保障组(筹)
法务团队
项目红线
历次法律问题讨论
外事团队
对外沟通记录
其他
数据故事
踩坑记录
学术活动
感谢名单
wiki使用说明
如何新建页面
wiki语法格式
dokuwiki使用说明
点此编辑导航目录
里屋
关于里屋
sjbzh
这是本文档旧的修订版!
目录
数据标准化小组目标
小组任务
小组成果
其他
数据标准化小组目标
将各个开源数据集对齐到MNBVC数据集格式,方便算法同学直接使用。
小组任务
1.
sharegpt数据清洗到问答语料格式
小组成果
shareGPT问答预料:
https://github.com/pany8125/ShareGPTQAExtractor-mnbvc
诗歌语料:
https://github.com/pany8125/PoemExtractor-mnbvc
其他
现有语料格式
sjbzh.1694913208.txt.gz
· 最后更改: 2023/09/17 09:13 由
MNBVC项目组
页面工具
显示源文件
过去修订
反向链接
回到顶部