用户工具

站点工具


sjsj

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
sjsj [2024/06/28 20:36] MNBVC项目组sjsj [2024/12/06 10:27] (当前版本) – [小组成果] MNBVC项目组
行 30: 行 30:
 @chouniu @炒饭 @chouniu @炒饭
  
-10、读秀书库资源下载 @小金豆子 @博卡登+10、读秀书库资源下载 @小金豆子 @博卡登 完成20241018
 >传说有几百万本电子书可下载,征求来源和下载渠道。 >传说有几百万本电子书可下载,征求来源和下载渠道。
 >已下载3T 20240308 >已下载3T 20240308
-其他书籍资源下载(见trello):@博卡登+其他书籍资源下载(见trello):@博卡登 完成20241018
  
 11、千帆育儿网 试卷下载 完成20240308 @z008  11、千帆育儿网 试卷下载 完成20240308 @z008 
行 69: 行 69:
 >收集关键字,例如“论文”,“科技”,“网站域名”,尝试在IA上搜索内容 >收集关键字,例如“论文”,“科技”,“网站域名”,尝试在IA上搜索内容
 >Wayback machine cdx索引使用研究 >Wayback machine cdx索引使用研究
->warczone中的内容下载(目录已完成,下载中)@z008 @等战 @ng+>warczone中的内容下载(目录已完成,下载中)@z008 @等战 @ng [[warczone|warczone域名打标]]
 >wikiteam中内容下载 >wikiteam中内容下载
 >archiveteam中内容的筛选(https://archive.fart.website/archivebot/viewer/items?page=42) >archiveteam中内容的筛选(https://archive.fart.website/archivebot/viewer/items?page=42)
行 88: 行 88:
 >如https://www.engineering.org.cn/ch/article/34304/detail和https://www.sciencedirect.com/science/article/pii/S2095809921005166 >如https://www.engineering.org.cn/ch/article/34304/detail和https://www.sciencedirect.com/science/article/pii/S2095809921005166
 >武田 >武田
 +
 +23、国外书评网站https://www.goodreads.com(waybackmachine上面有)@zhu rui
 +
 +24、GRE真题库(已进行的调查:ETS没有公布每年的真题,IA搜索gre questions没有结果) @n374
  
 ===== 语料收集通用话术 ===== ===== 语料收集通用话术 =====
行 145: 行 149:
 2024-6-1 2024-6-1
 >CDproject泄露代码收集完成 @武田 >CDproject泄露代码收集完成 @武田
 +2024-8-21 
 +>整理了Anna's Archive放出的读秀书库、InternetArchive电子书下载链接 @博卡登 
 +2024-12-5 
 +>收集了人人影视20年数据。@零零发 @急云
 ===== 已消失的站点 ===== ===== 已消失的站点 =====
 ^站点^消失时间^备注^ ^站点^消失时间^备注^
sjsj.1719578212.txt.gz · 最后更改: 2024/06/28 20:36 由 MNBVC项目组