用户工具

站点工具


sjsj

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
sjsj [2024/05/24 21:45] – [小组成果] MNBVC项目组sjsj [2024/12/06 10:27] (当前版本) – [小组成果] MNBVC项目组
行 30: 行 30:
 @chouniu @炒饭 @chouniu @炒饭
  
-10、读秀书库资源下载 @小金豆子 @博卡登+10、读秀书库资源下载 @小金豆子 @博卡登 完成20241018
 >传说有几百万本电子书可下载,征求来源和下载渠道。 >传说有几百万本电子书可下载,征求来源和下载渠道。
 >已下载3T 20240308 >已下载3T 20240308
-其他书籍资源下载(见trello):@博卡登+其他书籍资源下载(见trello):@博卡登 完成20241018
  
 11、千帆育儿网 试卷下载 完成20240308 @z008  11、千帆育儿网 试卷下载 完成20240308 @z008 
行 69: 行 69:
 >收集关键字,例如“论文”,“科技”,“网站域名”,尝试在IA上搜索内容 >收集关键字,例如“论文”,“科技”,“网站域名”,尝试在IA上搜索内容
 >Wayback machine cdx索引使用研究 >Wayback machine cdx索引使用研究
->warczone中内容的筛选(只要文和英文语料) @z008 +>warczone中内容下载(目录已完成,下载@z008 @等战 @ng [[warczone|warczone域名打标]] 
->wikiteam中内容的筛选(只要中文和英文语料)+>wikiteam中内容下载
 >archiveteam中内容的筛选(https://archive.fart.website/archivebot/viewer/items?page=42) >archiveteam中内容的筛选(https://archive.fart.website/archivebot/viewer/items?page=42)
 +>https://archive.org/details/opensource_media 中的内容
 >进入[[Internet Archive专用页面]] >进入[[Internet Archive专用页面]]
  
行 77: 行 78:
 http://106.37.81.211:96/sjs/index.html http://106.37.81.211:96/sjs/index.html
  
-20、CDPR泄露的源码及其解压密码 +20、书格(shuge.org)古籍图书馆收集(先看ia有没有) 
-@武田+>https://drive.google.com/drive/folders/0B59W0kcOXxj6UUdYUzRYOHE0R1E?resourcekey=0-JyYB6JeJHIBT3lFz4e5NzA 
 + 
 +21、海外中文OA学术论文出版商(先看ia有没有) 
 +>cn.usp-pl.com、china.piscomed.com、www.hanspub.org、www.ivypub.org 
 +>@武田 
 + 
 +22、中国工程院(https://www.engineering.org.cn)和Elsevier共同主办的《工程》期刊(先看ia有没有) 
 +>如https://www.engineering.org.cn/ch/article/34304/detail和https://www.sciencedirect.com/science/article/pii/S2095809921005166 
 +>武田 
 + 
 +23、国外书评网站https://www.goodreads.com(waybackmachine上面有)@zhu rui 
 + 
 +24、GRE真题库(已进行的调查:ETS没有公布每年的真题,IA搜索gre questions没有结果) @n374 
 ===== 语料收集通用话术 ===== ===== 语料收集通用话术 =====
 语料收集时进行联系沟通的通用话术by @龙骑兵,供参考 语料收集时进行联系沟通的通用话术by @龙骑兵,供参考
行 128: 行 142:
 >千帆育儿网试卷下载已完成。@z008 >千帆育儿网试卷下载已完成。@z008
 2024-5-24 2024-5-24
->中国生物物种名录2024(http://sp2000.org.cn/download)+>中国生物物种名录2024(http://sp2000.org.cn/download)@急云 
 +2024-5-24 
 +>Internet Archive\warczone已完成:scp基金会、网易blog、reddit、ACM @等战 
 +2024-5-24 
 +>糗事百科图文数据收集 @等战 
 +2024-6-1 
 +>CDproject泄露代码收集完成 @武田 
 +2024-8-21 
 +>整理了Anna's Archive放出的读秀书库、InternetArchive电子书下载链接 @博卡登 
 +2024-12-5 
 +>收集了人人影视20年数据。@零零发 @急云
 ===== 已消失的站点 ===== ===== 已消失的站点 =====
 ^站点^消失时间^备注^ ^站点^消失时间^备注^
sjsj.1716558357.txt.gz · 最后更改: 2024/05/24 21:45 由 MNBVC项目组