用户工具

站点工具


dmyl

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
dmyl [2024/12/17 19:21] MNBVC项目组dmyl [2024/12/17 20:25] (当前版本) MNBVC项目组
行 62: 行 62:
 **url地址集:**https://github.com/L1aoXingyu/bitbucket_download_mnbvc/releases/tag/v0.1 **url地址集:**https://github.com/L1aoXingyu/bitbucket_download_mnbvc/releases/tag/v0.1
  
-**爬虫代码:**https://github.com/knediny/bitbucket_crawl_mnbvc+**爬虫代码:**https://github.com/zwpride/bitbucket_crawl_mnbvc
  
 截至2024年初,BitBucket项目已经完成的工作如下:廖星宇完成了平台调研和仓库数据获取代码,并由智完成了Code Review,廖星宇和washing完成了仓库数据获取测试。 截至2024年初,BitBucket项目已经完成的工作如下:廖星宇完成了平台调研和仓库数据获取代码,并由智完成了Code Review,廖星宇和washing完成了仓库数据获取测试。
  
-2024年BitBucket的工作进入了获取仓库Git clone 地址以提取语料的阶段,由whyseu 完成了clone地址获取,washing对此进行了核验并确认url获取完毕,整合的url地址集v0.1上传到了Github,5月中旬至6月,Jacky咏杰和blue进行了对BitBucket的clone地址爬虫代码的编写以及分布式改造,并将爬虫代码上传至Github,9月份完成了所有数据爬取工作。+2024年BitBucket的工作进入了获取仓库Git clone 地址以提取语料的阶段,由whyseu 完成了clone地址获取,washing对此进行了核验并确认url获取完毕,整合的url地址集v0.1上传到了Github,5月中旬至6月,Jacky咏杰和zwpride进行了对BitBucket的clone地址爬虫代码的编写以及分布式改造,并将爬虫代码上传至Github,9月份完成了所有数据爬取工作。
  
 **Savannah** **Savannah**
行 88: 行 88:
 在非爬虫任务中,代码语料提取、打包工作均已完成,而教科书中代码数据识别已完成了Coding部分,Code Review的工作尚未完成。 在非爬虫任务中,代码语料提取、打包工作均已完成,而教科书中代码数据识别已完成了Coding部分,Code Review的工作尚未完成。
  
 + 项目组人员及贡献情况
 +
 +| 成员昵称            | 职业及技能                                       | 组内情况                                                              | 参与任务                                                                                                                                  |
 +| 子轩                |  职业:算法/后端(前端外全栈);语言:java、scala、python、go;技能:1.分布式计算/存储,2.高并发业务系统架构/开发,3.网站安全防护,4.爬虫/反爬,分布式爬虫,代理复用,5.区块链(eth链),合约,安全,6.机器学习sklearn,7.深度学习/ 强化学习/cv,8.大模型微调/rag/agent,9.硬件/运维 | 现组长                                                                                                                                                                                                       |
 +| washing             | 前大厂外包爬虫,自学nlp,现小厂做算法            | 原代理组长,平时较忙但能联系上,乐意接手组内工作                      | Github/Google Source/BitBucket的仓库数据获取和Code Review,代码语料的提取和打包工作,教科书pdf代码数据识别Code Review,5次论文带读        |
 +| water               | 中年企业leader,人在山东,掌握go,rust和python   | 前组长,对项目有整体方向性的思考,平时较忙难联系                      | 定下GitHub代码仓库爬取下载的逻辑,参与仓库数据获取Coding                                                                                  |
 +| 🍋                  |                                                  | 参与组内多项多量工作,近期较忙能联系上,有时回复较晚                  | 编写和维护code仓库转代码语料的脚本,sr.ht平台调研和clone地址获取                                                                          |
 +| zhange              |                                                  | 一般都能联系上,主要帮忙脚本打包工作                                  | GitHub的Issues获取Code Review,代码语料打包                                                                                               |
 +| 廖星宇              |                                                  | 比较活跃联系方便,为组内做了许多工作,带读论文能力强,热心            | BitBucket的平台调研、仓库数据获取Coding、仓库数据获取测试,2篇论文带读:符尧关于数据论文、Ilya 超级对齐论文                               |
 +| 棒                  |                                                  | 能联系上,完成GitHub爬虫工作                                          | GitHub issues和commits的爬虫代码                                                                                                          |
 +| 智                  | 360(?)非算法岗                                | 做过一些爬虫和代码review的工作,领读过论文                            | BitBucket的仓库数据获取Code Review,Savannah平台调研和仓库数据获取Coding,1次论文带读:AlphaCode2 技术文档,GitHub的Issues获取Code Review |
 +| 冬天                |                                                  | 代码语料组PM,负责组织会议和发布会议消息                              |                                                                                                                                           |
 +| whyseu              |                                                  | 新同学,帮忙跑过一些脚本                                              | BitBucket仓库Git clone地址获取爬取                                                                                                        |
 +| zwpride| https://github.com/zwpride                                                 | None                                              | BitBucket仓库爬取代码                                                                                                        |
 +| wxid_salb74o1i4jh21 |                                                  | 新同学,帮忙下载过一个代码托管平台的代码                              | GitHub的Commit获取                                                                                                                        |
 +| 林夕                | 保研大学生                                       | 做过代码review的工作                                                  | Notabug平台调研和仓库数据获取Coding、仓库数据获取,Savannah的Code Review                                                                  |
 +| 崔自成              |                                                  | 组内的测试同学,可以做一些测试或者跑一些脚本                          |                                                                                                                                           |
 +| 逃课的人工智能      | 公司leader                                       | 经常联系不上,爬虫热情不高,做过一个pdf中代码片段识别的任务,没有售后 | 教科书pdf中代码数据识别Coding                                                                                                             |
 +| 王潇Xiao/代码熊猫   | 人在法国(?)                                   | review了pdf代码识别的代码,没有后续。领读过论文,能联系上,但有时差。 | 教科书pdf中代码数据识别Code Review;论文带读:CodeLLama 论文                                                                              |
 +| byeah                                                                | 之前偶尔能联系上,最近半年失联                                        | 尝试做过GitHub issues的爬虫,未完成                                                                                                       |
 +| 天空                |                                                  | 联系上过一次,平台调研未成功                                          | SourceForge平台调研                                                                                                                       |
 +| 清泠                |                                                  | 参与过项目组一些代码review的工作,目前未能联系上                      | GitHub的Commit获取Code Review                                                                                                             |
 +| 王颢                | 有一些python基础,之前在RWKV的中文语料小组打过杂 | 新同学                                                                | Savannah的Code Review,未完成;2024年度总结撰写                                                                                           |
 +| Ryan                | 操作系统相关工作                                 | 新同学,暂没时间,暂未安排过组内任务                                  |                                                                                                                                           |
 +| Jane·H             | water的同事                                      | 一直未联系到                                                                                                                                                                                                                                         
 +|                                                                                                                                           |
 +
 +**项目组外成员致谢**
 +
 +冠:华为代码生成组,代码语料组技术指导
 +
 +Alan:MNBVC语料增强组组长,帮忙解决一些编码方面的问题。
 ===== 其他 ===== ===== 其他 =====
 [[GitHub分布式爬取]] [[GitHub分布式爬取]]
dmyl.1734434516.txt.gz · 最后更改: 2024/12/17 19:21 由 MNBVC项目组