跳至内容
MNBVC-Wiki
用户工具
登录
站点工具
搜索
工具
显示页面
过去修订
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
数据收集小组2024年总结
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
====== 一、工作概述 ====== 数据收集小组负责MNBVC语料集的语料数据收集,首要目标是抢救互联网上即将消失的语料,如小众论坛、个人博客、影评书评等评论、剧本杀记录、跑团记录、现代诗之类的冷门文化。 这个小组就是发挥里屋论坛成员们互联网老兵的特长,去做程序员搞不定、国家企业等大机构嫌琐碎不愿意做的事情。 ====== 二、主要工作内容及成果 ====== 2024年度数据收集小组完成了老光盘下载、试卷网和育儿网的试卷下载、读秀书库、NWSU OS/2 Archive、中国生物物种名录2024、糗事百科图文数据、CDproject泄露代码、人人影视20年数据等数据的整理下载。 与Save the web project小组建立联系,共享数据信息。 进行从Internet Archive上获取数据的研究,编写了相关脚本,从中下载scp基金会、网易blog、reddit、ACM等数据。 对cdx归档文件格式进行研究,编写了语料提取脚本。 ====== 三、团队协作与个人贡献 ====== 排名不分先后 门神谨制:老光盘数据整理下载; 组长(NG):会议组织,项目进度跟踪,InternetArchive数据的分析、warc相关脚本编写; 零零发:新语丝语料收集、人人影视20年数据收集; Z008:试卷收集、Internet Archive数据分析; 博卡登:电子书、OS/2 Archive、读秀书库、Internet Archive数据下载; 急云:中国生物物种名录、人人影视20年数据收集、TG关注; 武田:CDproject泄露代码、老光盘数据整理; 倾听:字典下载; ====== 四、展望未来 ====== 对语料数据的识别、分类、整理是个很繁琐枯燥的项目,感谢小组各位大佬坚持不懈的努力。希望能有更多对抢救简中互联网语料趣的里屋众加入数据收集小组。
数据收集小组2024年总结.txt
· 最后更改: 2025/03/14 16:39 由
MNBVC项目组
页面工具
显示页面
过去修订
反向链接
回到顶部