一、工作概述

数据收集小组负责MNBVC语料集的语料数据收集，首要目标是抢救互联网上即将消失的语料，如小众论坛、个人博客、影评书评等评论、剧本杀记录、跑团记录、现代诗之类的冷门文化。这个小组就是发挥里屋论坛成员们互联网老兵的特长，去做程序员搞不定、国家企业等大机构嫌琐碎不愿意做的事情。

二、主要工作内容及成果

2024年度数据收集小组完成了老光盘下载、试卷网和育儿网的试卷下载、读秀书库、NWSU OS/2 Archive、中国生物物种名录2024、糗事百科图文数据、CDproject泄露代码、人人影视20年数据等数据的整理下载。与Save the web project小组建立联系，共享数据信息。进行从Internet Archive上获取数据的研究，编写了相关脚本，从中下载scp基金会、网易blog、reddit、ACM等数据。对cdx归档文件格式进行研究，编写了语料提取脚本。

三、团队协作与个人贡献

排名不分先后门神谨制：老光盘数据整理下载；

组长（NG）：会议组织，项目进度跟踪，InternetArchive数据的分析、warc相关脚本编写；

零零发：新语丝语料收集、人人影视20年数据收集；

Z008：试卷收集、Internet Archive数据分析；

博卡登：电子书、OS/2 Archive、读秀书库、Internet Archive数据下载；

急云：中国生物物种名录、人人影视20年数据收集、TG关注；

武田：CDproject泄露代码、老光盘数据整理；

倾听：字典下载；

四、展望未来

对语料数据的识别、分类、整理是个很繁琐枯燥的项目，感谢小组各位大佬坚持不懈的努力。希望能有更多对抢救简中互联网语料趣的里屋众加入数据收集小组。

目录

一、工作概述

二、主要工作内容及成果

三、团队协作与个人贡献

四、展望未来