数据收集小组目标
抢救互联网上即将消失的语料,抢救小众论坛、个人博客、影评书评等评论、剧本杀记录、跑团记录、现代诗之类的冷门文化。 这个小组就是发挥里屋论坛成员们互联网老兵的特长,去做程序员搞不定、国家企业等大机构嫌琐碎不愿意做的事情。
语料收集时,优先收集(1)最新的知识;(2)决策和推理的过程(讨论、辩论、推理等)
小组任务
1、收集QQ、微信聊天记录
因聊天记录可能涉及敏感数据,建议只要群聊记录。提交记录前可以使用脱敏工具。
2、天涯数据收集
尚未有渠道可收集天涯数据,欢迎提供。
3、中英文跑团记录收集
各种跑团记录文本收集,欢迎提供。
4、RSS订阅源收集
5、语料分类整理
对语料类型进行全面分类,例如语言-相声、文字-小说-科幻小说
6、数据脱敏工具
编写windows版本、离线可用的脱敏工具,增强普通用户提交数据的信心。
7、新语丝网站语料收集
8、老光盘网站资料下载
从老光盘网站(http://nuduseng.com/laoguangpan.htm)提供的下载中筛选出语料部分,并下载。
9、霏凡论坛语料收集
确认论坛地址、尝试联系站长,欢迎提供。
10、游戏文本收集(有中外文对照的优先)
目标1:官方本地化的游戏,含文本较多的大型rpg、slg游戏优先,有多种语言的请一并提供。
目标2:各大汉化组,尝试批量取得汉化组经手的所有游戏汉化文本,有对照外文的最好。不要机器翻译的。
目标3:精品的个人汉化游戏。
进入游戏收集专用页面
11、读秀书库资源下载
传说有几百万本电子书可下载,征求来源和下载渠道。
12、千帆育儿网 试卷下载
语料收集通用话术
语料收集时进行联系沟通的通用话术by @龙骑兵,供参考
管子大人您好:
我是超大规模中文语料集“MNBVC”的成员之一,希望能就语料收集事宜获得XXXX论坛的帮助。
MNBVC的母体是“mop大杂烩”核心成员组成的“里屋论坛”,MNBVC属于非盈利公益化组织,由来自各领域的NLP及GPT等专业人员组成,所生成的语料库完全免费开放给所有机构和个人,旨在为中文GPT技术提供(相对)优良的语料基础。
里屋地址:https://www.253874.net/ MNBVC官网地址:https://mnbvc.org Github项目地址:https://github.com/esbatmop/MNBVC 抱脸数据地址:https://huggingface.co/datasets/liwu/MNBVC
稍微解释一下:语料库的来源非常广泛,其中小众论坛内容也是重要目标之一,因为人类的对话不仅仅包含对话流利程度之类表层的东西,人类是靠对话来交流知识,靠语言来总结自然规律的。
作为XXXX的老玩家,非常希望获得你们过去汉化游戏的文本,我们会将数据放入MNBVC语料库,让这些游戏的相关内容和知识成为未来GPT技术的一部分。
我们对数据有完善的保护措施,语料库仅作为GPT模型训练使用,不存在作品传播的风险,并且我们不会对语料库的具体内容给出任何索引,规避其他风险。
如能提供帮助,还请不吝回复,我的微信是XXXXX,或者将您的微信发给我,我加您详谈。
再次感谢管子大人为游戏汉化做出的贡献!
小组成果
2023-07-07
完成了语料收集分类
2023-7-21
完成了脱敏工具windows版里屋脱敏1.0.zip @倾听
2023-9-1
完成800个RSS源收集 @急云 @joyi
2023-9-15
已收集1800个剧本杀脚本 @joyi
2023-9-22
发掘了中科院科技论文预发布平台 http://chinaxiv.org/home.htm @pob
2023-11-1
收集了某网站公开的13万本电子书
2023-11-17
完成了老光盘目录截图整理,去掉了跟PDF相关的索引 老光盘目录summary.docx @武田
已消失的站点
站点 | 消失时间 | 备注 |
---|---|---|
天涯 | 2023.4.26 | |
太平洋电脑论坛 | 2023.5.20 | |
菲凡论坛 | 2023.6.13 | |
伊甸园字幕组 | 2023.8.15 |
论坛站长帮忙导出论坛数据库内容的一种方法
加入小组
项目主页:https://mnbvc.253874.net/ 或发邮件:MNBVC@253874.net