dmyl
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
dmyl [2023/09/16 22:25] – MNBVC项目组 | dmyl [2024/12/17 20:25] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 31: | 行 31: | ||
**googleSourceCode下载:**https:// | **googleSourceCode下载:**https:// | ||
+ | ===== 年度工作总结 ===== | ||
+ | ==== 2024 ==== | ||
+ | |||
+ | **数据与语料任务总结** | ||
+ | |||
+ | **项目开展情况** | ||
+ | |||
+ | 截至2024年末,MNBVC代码语料组共在8个大型泛代码类平台上成功开展25项分布式爬虫工作、代码语料的提取、打包系列任务和教科书中代码数据识别任务。 | ||
+ | |||
+ | 其中平台包括GitHub、Google Source、BitBucket、Notabug、Savannah、sr.ht等共6个代码托管平台和Stack Overflow、LeetCode这2个代码相关平台,此外SourceForge经组员前期调研未成功放弃爬虫获取。 | ||
+ | |||
+ | 爬虫项目包括了在8个代码平台的调研工作和元信息/ | ||
+ | |||
+ | 总共27.85TB的纯文本数据,包括代码、配置文件等数据。 | ||
+ | |||
+ | **项目变动情况** | ||
+ | |||
+ | **GitHub** | ||
+ | |||
+ | 截至2024年初,GitHub的Code部分已由washing和water完成平台调研,washing完成了元信息获取,water完成了仓库数据获取代码并由washing进行了Code Review,并进展到了数据下载的阶段;棒负责的Commits和Issues尚未开始,清泠负责Commit获取Code Review,zhange则负责Issues获取Code Review。 | ||
+ | |||
+ | 2024年,棒完成了GitHub的Commits和Issues的爬虫Coding,3月份washing将组长工作交给子轩。 | ||
+ | |||
+ | Commit获取于3月份由清泠移交wxid_salb74o1i4jh21,再于6月份移交纳凉nado完成了编写,于9月份进入Code Review阶段由Ashuy负责,随后交由金子yc进行二次Code Review。 | ||
+ | |||
+ | Issues的Code Review工作在3月份由zhange移交智,在5月中旬移交给Jacky咏杰并于6月初完成,在9月初交由八大山人打包验证。 | ||
+ | |||
+ | **BitBucket** | ||
+ | |||
+ | **url地址集:**https:// | ||
+ | |||
+ | **爬虫代码:**https:// | ||
+ | |||
+ | 截至2024年初,BitBucket项目已经完成的工作如下:廖星宇完成了平台调研和仓库数据获取代码,并由智完成了Code Review,廖星宇和washing完成了仓库数据获取测试。 | ||
+ | |||
+ | 2024年BitBucket的工作进入了获取仓库Git clone 地址以提取语料的阶段,由whyseu 完成了clone地址获取,washing对此进行了核验并确认url获取完毕,整合的url地址集v0.1上传到了Github,5月中旬至6月,Jacky咏杰和zwpride进行了对BitBucket的clone地址爬虫代码的编写以及分布式改造,并将爬虫代码上传至Github,9月份完成了所有数据爬取工作。 | ||
+ | |||
+ | **Savannah** | ||
+ | |||
+ | Savannah的代码还剩下code review的工作,由林夕到王颢,未有进一步反馈随后再转交。 | ||
+ | |||
+ | **其他爬虫和数据获取情况** | ||
+ | |||
+ | **专利网爬虫:**https:// | ||
+ | |||
+ | **chinaxiv全量爬虫代码:**https:// | ||
+ | |||
+ | 在今年6月份,代码语料小组确立了查找新的非开源语料的方向,并在6月中旬前确立了专利网的爬取任务,于6月末分配给Jacky咏杰,随后转交张林,在9月份爬完所有ipc分类目录,修改代码为本地文件读取,目前由金子yc负责Code Review工作。 | ||
+ | |||
+ | 10月中旬起,Jacky咏杰负责huggingface的Issues数据获取。 | ||
+ | |||
+ | **项目完成情况** | ||
+ | |||
+ | 在8个泛代码平台中,Notabug、Overflow、LeetCode等3个平台的所有爬虫任务工作已完成。而在MNBVC代码语料组的26项爬虫任务中,已完成的有19项,包括前述对于8个平台的调研和基本数据爬取下载;目前还待着手或正在进行中的工作有7项,包括数据提取获取方面的4项任务:GitHub的Code部分的仓库数据获取、Google Source的Code部分的数据提取、BitBucket仓库Git clone 地址下载、sr.ht的代码语料提取,和Code Review方面的3项任务GitHub的Commit获取和Issues获取、Savannah的Code Review。 | ||
+ | |||
+ | 在非爬虫任务中,代码语料提取、打包工作均已完成,而教科书中代码数据识别已完成了Coding部分,Code Review的工作尚未完成。 | ||
+ | |||
+ | | ||
+ | |||
+ | | 成员昵称 | ||
+ | | 子轩 | ||
+ | | washing | ||
+ | | water | 中年企业leader,人在山东,掌握go,rust和python | ||
+ | | 🍋 | | 参与组内多项多量工作,近期较忙能联系上,有时回复较晚 | ||
+ | | zhange | ||
+ | | 廖星宇 | ||
+ | | 棒 | | 能联系上,完成GitHub爬虫工作 | ||
+ | | 智 | 360(?)非算法岗 | ||
+ | | 冬天 | ||
+ | | whyseu | ||
+ | | zwpride| https:// | ||
+ | | wxid_salb74o1i4jh21 | | 新同学,帮忙下载过一个代码托管平台的代码 | ||
+ | | 林夕 | ||
+ | | 崔自成 | ||
+ | | 逃课的人工智能 | ||
+ | | 王潇Xiao/ | ||
+ | | byeah | ||
+ | | 天空 | ||
+ | | 清泠 | ||
+ | | 王颢 | ||
+ | | Ryan | 操作系统相关工作 | ||
+ | | Jane·H | ||
+ | | | | ||
+ | |||
+ | **项目组外成员致谢** | ||
+ | |||
+ | 冠:华为代码生成组,代码语料组技术指导 | ||
+ | |||
+ | Alan:MNBVC语料增强组组长,帮忙解决一些编码方面的问题。 | ||
===== 其他 ===== | ===== 其他 ===== | ||
[[GitHub分布式爬取]] | [[GitHub分布式爬取]] |
dmyl.1694874352.txt.gz · 最后更改: 2023/09/16 22:25 由 MNBVC项目组