wdyl [MNBVC-Wiki]

wdyl

这是本文档旧的修订版！

目录

问答语料小组目标
小组任务
- quora分布式爬虫
小组成果

问答语料小组目标

关注问答语料的处理，包括一问一答，一问多答和多轮对话等。这部分语料常用于大模型的sft训练。

小组任务

word试卷清洗（进行中，负责人：图北）
quora分布式爬虫（进行中，负责人：[!]）
moss数据的整理（进行中，负责人：Roger）
wikihow（已完成，负责人：挖泥船）
外交部问答数据（已完成，负责人：curry）

quora分布式爬虫

Quora是一个知识分享平台，用户可以在上面提问、回答问题

尝试过的一些思路：

~~使用selenium模拟访问，滚动页面更新出所有数据，再解析html dom结构获取数据(速度不太可观)~~
使用selenium + mimtproxy去实现一个自动化模拟访问。mimtproxy搭建本地代理拦截特定的网络请求和响应获取需要的数据(已有实现作为备用)
固定某些api接口的某些参数可以访问到数据，但是由于一些反爬机制，可能有不可预估的情况出现(目前在用方案)

任务步骤：

根据一组常用关键词去检索，建立一份问答帖子的链接索引
使用已有的链接去爬取对应的问答数据

小组成果

wdyl.1700900994.txt.gz · 最后更改: 2025/06/02 15:13 (外部编辑)