用户工具

站点工具


sjsj

数据收集小组目标

抢救互联网上即将消失的语料,抢救小众论坛、个人博客、影评书评等评论、剧本杀记录、跑团记录、现代诗之类的冷门文化。 这个小组就是发挥里屋论坛成员们互联网老兵的特长,去做程序员搞不定、国家企业等大机构嫌琐碎不愿意做的事情。

语料收集时,优先收集(1)最新的知识;(2)决策和推理的过程(讨论、辩论、推理等)

小组任务

汪洋大海活动

1、收集QQ、微信聊天记录

因聊天记录可能涉及敏感数据,建议只要群聊记录。提交记录前可以使用脱敏工具。

2、天涯数据收集

尚未有渠道可收集天涯数据,欢迎提供。

3、中英文跑团记录收集

各种跑团记录文本收集,欢迎提供。

4、RSS订阅源收集

可用的中英文RSS源,欢迎提供。 中文Rss 其他Rss

5、语料分类整理

对语料类型进行全面分类,例如语言-相声、文字-小说-科幻小说

6、数据脱敏工具

编写windows版本、离线可用的脱敏工具,增强普通用户提交数据的信心。

7、新语丝网站语料收集

8、霏凡论坛语料收集

确认论坛地址、尝试联系站长,欢迎提供。

9、游戏文本收集(有中英文对照的,翻译质量高的,暂时不要日语)

目标1:官方本地化的游戏,含文本较多的大型rpg、slg游戏优先,有多种语言的请一并提供。
目标2:各大汉化组,尝试批量取得汉化组经手的所有游戏汉化文本,有对照外文的最好。不要机器翻译的。
目标3:精品的个人汉化游戏。
进入游戏收集专用页面

@chouniu @炒饭

10、读秀书库资源下载 @小金豆子 @博卡登 完成20241018

传说有几百万本电子书可下载,征求来源和下载渠道。
已下载3T 20240308

其他书籍资源下载(见trello):@博卡登 完成20241018

11、千帆育儿网 试卷下载 完成20240308 @z008

12、老光盘网站资料下载

从老光盘网站(http://nuduseng.com/laoguangpan.htm)提供的下载中筛选出语料部分,并下载。
目录整理已完成,按照目录逐步进行下载中。@BG5EKR亮亮 → @门神谨制

13、字典论坛下载

14、汪洋大海项目

github整站下载,项目进行中

15、Linux中国 开源社区(已关闭)数据收集 完成

16、NWSU OS/2 Archive 完成20240308

美国新墨西哥州立大学的OS/2电子档案馆(https://hobbes.nmsu.edu/)将于2024年4月15日关闭,官方已经提供了该档案馆的打包下载(数据截止到2024年1月11日),共18GB。 @NG @博卡登

17、STWP(Save The Web Project)

https://blog.save-web.org/
整理网页上的项目,哪些可直接下载,哪些需联系寄盘。
进行Dokuwiki下载(@等战)
获取邮寄硬盘联系方式
TG群关注(@急云)
语雀下载
中文博客1700下载
进入Save The Web Project专用页面

18、Internet Archive

研究如何从wayback machine上批量获取指定网站的数据。
研究如何从item、collection中下载,如何从metadata程序化生成下载链接、直接筛选压缩包内容、如何切换主、副下载站。
是否有可能列出IA全站的内容?
收集关键字,例如“论文”,“科技”,“网站域名”,尝试在IA上搜索内容
Wayback machine cdx索引使用研究
warczone中的内容下载(目录已完成,下载中)@z008 @等战 @ng warczone域名打标
wikiteam中内容下载
archiveteam中内容的筛选(https://archive.fart.website/archivebot/viewer/items?page=42)
https://archive.org/details/opensource_media 中的内容
进入Internet Archive专用页面

19、西山永定河文化 http://106.37.81.211:96/sjs/index.html

20、书格(shuge.org)古籍图书馆收集(先看ia有没有)

21、海外中文OA学术论文出版商(先看ia有没有)

cn.usp-pl.com、china.piscomed.com、www.hanspub.orgwww.ivypub.org
@武田

22、中国工程院(https://www.engineering.org.cn)和Elsevier共同主办的《工程》期刊(先看ia有没有)

23、国外书评网站https://www.goodreads.com(waybackmachine上面有)@zhu rui

24、GRE真题库(已进行的调查:ETS没有公布每年的真题,IA搜索gre questions没有结果) @n374

语料收集通用话术

语料收集时进行联系沟通的通用话术by @龙骑兵,供参考

管子大人您好:

我是超大规模中文语料集“MNBVC”的成员之一,希望能就语料收集事宜获得XXXX论坛的帮助。

MNBVC的母体是“mop大杂烩”核心成员组成的“里屋论坛”,MNBVC属于非盈利公益化组织,由来自各领域的开发者组成,所生成的语料库完全免费开放给所有机构和个人,旨在为中文AI大模型技术提供(相对)优良的语料基础。

里屋地址:https://www.253874.net/ MNBVC官网地址:https://mnbvc.org Github项目地址:https://github.com/esbatmop/MNBVC

稍微解释一下:语料库的来源非常广泛,其中小众论坛内容也是重要目标之一,因为人类的对话不仅仅包含对话流利程度之类表层的东西,人类是靠对话来交流知识,靠语言来总结自然规律的。

作为XXXX的老玩家,非常希望获得你们过去汉化游戏的文本,我们会将数据放入MNBVC语料库,让这些游戏的相关内容和知识成为未来AI技术的一部分。

我们对数据有完善的保护措施,语料库仅作为AI模型训练使用,不存在作品传播的风险,并且我们不会对语料库的具体内容给出任何索引,规避其他风险。

如能提供帮助,还请不吝回复,我的微信是XXXXX,或者将您的微信发给我,我加您详谈。

再次感谢管子大人为游戏汉化做出的贡献!

小组成果

2023-07-07

2023-7-21

完成了脱敏工具windows版里屋脱敏1.0.zip @倾听

2023-9-1

完成800个RSS源收集 @急云 @joyi

2023-9-15

已收集1800个剧本杀脚本 @joyi

2023-9-22

发掘了中科院科技论文预发布平台 http://chinaxiv.org/home.htm @pob

2023-11-1

收集了某网站公开的13万本电子书

2023-11-17

完成了老光盘目录截图整理,去掉了跟PDF相关的索引 老光盘目录summary.docx @武田

2023-12-4

获取已关站的“台风论坛”数据 @等战

2024-1-1

试卷网(>https://www.shijuan1.com/)试卷收集完成 @z008

2024-3-8

读秀书库下载已完成首批3TB。@博卡登

2024-3-8

NWSU OS/2 Archive下载已完成。@博卡登

2024-3-8

千帆育儿网试卷下载已完成。@z008

2024-5-24

中国生物物种名录2024(http://sp2000.org.cn/download)@急云

2024-5-24

Internet Archive\warczone已完成:scp基金会、网易blog、reddit、ACM @等战

2024-5-24

糗事百科图文数据收集 @等战

2024-6-1

CDproject泄露代码收集完成 @武田

2024-8-21

整理了Anna's Archive放出的读秀书库、InternetArchive电子书下载链接 @博卡登

已消失的站点

站点消失时间备注
天涯2023.4.26
太平洋电脑论坛2023.5.20
菲凡论坛2023.6.13
伊甸园字幕组2023.8.15
台风论坛2023.12.1
Linux中国 开源社区2024.2.1

论坛站长帮忙导出论坛数据库内容的一种方法

加入小组

项目主页:https://mnbvc.253874.net/ 或发邮件:MNBVC@253874.net

sjsj.txt · 最后更改: 2024/10/18 20:30 由 MNBVC项目组