wdyl
这是本文档旧的修订版!
问答语料小组目标
关注问答语料的处理,包括一问一答,一问多答和多轮对话等。这部分语料常用于大模型的sft训练。
小组任务
quora分布式爬虫
Quora是一个知识分享平台,用户可以在上面提问、回答问题
思路:
使用selenium模拟访问,滚动页面更新出所有数据,再解析html dom结构获取数据(速度不太可观)- 使用selenium + mimtproxy去实现一个自动化模拟访问。mimtproxy搭建本地代理拦截特定的网络请求和响应获取需要的数据(已有实现备用)
- 固定某些api接口的某些参数可以访问到数据,但是由于一些反爬机制,可能有不可预估的情况出现(目前在用方案)
任务步骤:
- 根据一组常用关键词去检索,建立一份问答帖子的链接索引
- 使用已有的链接去爬取对应的问答数据
小组成果
wdyl.1700286059.txt.gz · 最后更改: 2023/11/18 13:40 由 MNBVC项目组