===== 数据收集小组目标 =====
抢救互联网上即将消失的语料，抢救小众论坛、个人博客、影评书评等评论、剧本杀记录、跑团记录、现代诗之类的冷门文化。
这个小组就是发挥里屋论坛成员们互联网老兵的特长，去做程序员搞不定、国家企业等大机构嫌琐碎不愿意做的事情。

语料收集时，优先收集（1）最新的知识；（2）决策和推理的过程（讨论、辩论、推理等）
===== 小组任务 =====
[[汪洋大海活动]]

1、收集QQ、微信聊天记录
> 因聊天记录可能涉及敏感数据，建议只要群聊记录。提交记录前可以使用脱敏工具。
2、天涯数据收集
> 尚未有渠道可收集天涯数据，欢迎提供。
3、中英文跑团记录收集
> 各种跑团记录文本收集，欢迎提供。
4、RSS订阅源收集
> 可用的中英文RSS源，欢迎提供。 [[cnrss|中文Rss]] [[etcrss|其他Rss]]
5、语料分类整理
> 对语料类型进行全面分类，例如语言-相声、文字-小说-科幻小说
6、数据脱敏工具
> 编写windows版本、离线可用的脱敏工具，增强普通用户提交数据的信心。
7、新语丝网站语料收集
>
8、霏凡论坛语料收集
> 确认论坛地址、尝试联系站长，欢迎提供。
9、游戏文本收集（有中英文对照的，翻译质量高的，暂时不要日语）
>目标1：官方本地化的游戏，含文本较多的大型rpg、slg游戏优先，有多种语言的请一并提供。
>目标2：各大汉化组，尝试批量取得汉化组经手的所有游戏汉化文本，有对照外文的最好。不要机器翻译的。
>目标3：精品的个人汉化游戏。
>进入[[游戏收集专用页面]]
@chouniu @炒饭

10、读秀书库资源下载 @小金豆子 @博卡登 完成20241018
>传说有几百万本电子书可下载，征求来源和下载渠道。
>已下载3T 20240308
其他书籍资源下载（见trello）：@博卡登 完成20241018

11、千帆育儿网 试卷下载 完成20240308 @z008 

12、老光盘网站资料下载
>从老光盘网站（http://nuduseng.com/laoguangpan.htm）提供的下载中筛选出语料部分，并下载。
>目录整理已完成，按照目录逐步进行下载中。@BG5EKR亮亮 -> @门神谨制

13、字典论坛下载
>https://freemdict.com/ @pob 
>https://www.pdawiki.com/ @倾听 

14、汪洋大海项目
>github整站下载，项目进行中

15、Linux中国 开源社区（已关闭）数据收集 完成

16、NWSU OS/2 Archive 完成20240308
>美国新墨西哥州立大学的OS/2电子档案馆(https://hobbes.nmsu.edu/)将于2024年4月15日关闭，官方已经提供了该档案馆的打包下载（数据截止到2024年1月11日），共18GB。 @NG @博卡登

17、STWP（Save The Web Project）
>https://blog.save-web.org/
>整理网页上的项目，哪些可直接下载，哪些需联系寄盘。
>进行Dokuwiki下载（@等战）
>获取邮寄硬盘联系方式
>TG群关注（@急云）
>语雀下载
>中文博客1700下载
>进入[[Save The Web Project专用页面]]

18、Internet Archive
>研究如何从wayback machine上批量获取指定网站的数据。
>研究如何从item、collection中下载，如何从metadata程序化生成下载链接、直接筛选压缩包内容、如何切换主、副下载站。
>是否有可能列出IA全站的内容？
>收集关键字，例如“论文”，“科技”，“网站域名”，尝试在IA上搜索内容
>Wayback machine cdx索引使用研究
>warczone中的内容下载（目录已完成，下载中）@z008 @等战 @ng [[warczone|warczone域名打标]]
>wikiteam中内容下载
>archiveteam中内容的筛选(https://archive.fart.website/archivebot/viewer/items?page=42)
>https://archive.org/details/opensource_media 中的内容
>进入[[Internet Archive专用页面]]

19、西山永定河文化
http://106.37.81.211:96/sjs/index.html

20、书格（shuge.org）古籍图书馆收集（先看ia有没有）
>https://drive.google.com/drive/folders/0B59W0kcOXxj6UUdYUzRYOHE0R1E?resourcekey=0-JyYB6JeJHIBT3lFz4e5NzA

21、海外中文OA学术论文出版商（先看ia有没有）
>cn.usp-pl.com、china.piscomed.com、www.hanspub.org、www.ivypub.org
>@武田

22、中国工程院(https://www.engineering.org.cn)和Elsevier共同主办的《工程》期刊（先看ia有没有）
>如https://www.engineering.org.cn/ch/article/34304/detail和https://www.sciencedirect.com/science/article/pii/S2095809921005166
>武田

23、国外书评网站https://www.goodreads.com(waybackmachine上面有)@zhu rui

24、GRE真题库（已进行的调查：ETS没有公布每年的真题，IA搜索gre questions没有结果） @n374

===== 语料收集通用话术 =====
语料收集时进行联系沟通的通用话术by @龙骑兵，供参考

管子大人您好：

我是超大规模中文语料集“MNBVC”的成员之一，希望能就语料收集事宜获得XXXX论坛的帮助。

MNBVC的母体是“mop大杂烩”核心成员组成的“里屋论坛”，MNBVC属于非盈利公益化组织，由来自各领域的开发者组成，所生成的语料库完全免费开放给所有机构和个人，旨在为中文AI大模型技术提供（相对）优良的语料基础。

里屋地址：https://www.253874.net/
MNBVC官网地址：https://mnbvc.org
Github项目地址：https://github.com/esbatmop/MNBVC

稍微解释一下：语料库的来源非常广泛，其中小众论坛内容也是重要目标之一，因为人类的对话不仅仅包含对话流利程度之类表层的东西，人类是靠对话来交流知识，靠语言来总结自然规律的。

作为XXXX的老玩家，非常希望获得你们过去汉化游戏的文本，我们会将数据放入MNBVC语料库，让这些游戏的相关内容和知识成为未来AI技术的一部分。

我们对数据有完善的保护措施，语料库仅作为AI模型训练使用，不存在作品传播的风险，并且我们不会对语料库的具体内容给出任何索引，规避其他风险。

如能提供帮助，还请不吝回复，我的微信是XXXXX，或者将您的微信发给我，我加您详谈。

再次感谢管子大人为游戏汉化做出的贡献！

===== 小组成果 =====
2023-07-07
> 完成了[[语料收集分类]] 
2023-7-21
>完成了脱敏工具windows版{{ :wiki:里屋脱敏1.0.zip |}} @倾听
2023-9-1
>完成800个RSS源收集 @急云 @joyi
2023-9-15
>已收集1800个剧本杀脚本 @joyi
2023-9-22
>发掘了中科院科技论文预发布平台 http://chinaxiv.org/home.htm @pob
2023-11-1
>收集了某网站公开的13万本电子书
2023-11-17
>完成了老光盘目录截图整理，去掉了跟PDF相关的索引 {{ ::老光盘目录summary.docx |}} @武田
2023-12-4
>获取已关站的“台风论坛”数据 @等战
2024-1-1
>试卷网（>https://www.shijuan1.com/）试卷收集完成 @z008
2024-3-8
>读秀书库下载已完成首批3TB。@博卡登
2024-3-8
>NWSU OS/2 Archive下载已完成。@博卡登
2024-3-8
>千帆育儿网试卷下载已完成。@z008
2024-5-24
>中国生物物种名录2024（http://sp2000.org.cn/download）@急云
2024-5-24
>Internet Archive\warczone已完成：scp基金会、网易blog、reddit、ACM @等战
2024-5-24
>糗事百科图文数据收集 @等战
2024-6-1
>CDproject泄露代码收集完成 @武田
2024-8-21
>整理了Anna's Archive放出的读秀书库、InternetArchive电子书下载链接 @博卡登
2024-12-5
>收集了人人影视20年数据。@零零发 @急云
===== 已消失的站点 =====
^站点^消失时间^备注^
|天涯|2023.4.26| |
|太平洋电脑论坛|2023.5.20| |
|菲凡论坛|2023.6.13| |
|伊甸园字幕组|2023.8.15| |
|台风论坛|2023.12.1| |
|Linux中国 开源社区|2024.2.1| |


===== 论坛站长帮忙导出论坛数据库内容的一种方法 =====

[[mnbvc:mysqlexportdata|论坛MySQL数据库导出帖子数据]]

===== 加入小组 =====
项目主页：https://mnbvc.253874.net/
或发邮件：MNBVC@253874.net