数据收集小组负责MNBVC语料集的语料数据收集,首要目标是抢救互联网上即将消失的语料,如小众论坛、个人博客、影评书评等评论、剧本杀记录、跑团记录、现代诗之类的冷门文化。 这个小组就是发挥里屋论坛成员们互联网老兵的特长,去做程序员搞不定、国家企业等大机构嫌琐碎不愿意做的事情。
2024年度数据收集小组完成了老光盘下载、试卷网和育儿网的试卷下载、读秀书库、NWSU OS/2 Archive、中国生物物种名录2024、糗事百科图文数据、CDproject泄露代码、人人影视20年数据等数据的整理下载。 与Save the web project小组建立联系,共享数据信息。 进行从Internet Archive上获取数据的研究,编写了相关脚本,从中下载scp基金会、网易blog、reddit、ACM等数据。 对cdx归档文件格式进行研究,编写了语料提取脚本。
排名不分先后 门神谨制:老光盘数据整理下载;
组长(NG):会议组织,项目进度跟踪,InternetArchive数据的分析、warc相关脚本编写;
零零发:新语丝语料收集、人人影视20年数据收集;
Z008:试卷收集、Internet Archive数据分析;
博卡登:电子书、OS/2 Archive、读秀书库、Internet Archive数据下载;
急云:中国生物物种名录、人人影视20年数据收集、TG关注;
武田:CDproject泄露代码、老光盘数据整理;
倾听:字典下载;
对语料数据的识别、分类、整理是个很繁琐枯燥的项目,感谢小组各位大佬坚持不懈的努力。希望能有更多对抢救简中互联网语料趣的里屋众加入数据收集小组。