sjqx
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
sjqx [2023/07/24 09:51] – MNBVC项目组 | sjqx [2023/10/03 00:26] (当前版本) – [小组成果] MNBVC项目组 | ||
---|---|---|---|
行 11: | 行 11: | ||
* 清洗语料中较长的内部重复,或内部重复出现较多次的情况【待进行】。 | * 清洗语料中较长的内部重复,或内部重复出现较多次的情况【待进行】。 | ||
- 网页语料清洗 | - 网页语料清洗 | ||
- | + | * 基于规则对commoncrawl数据做初步清洗,包括:【已完成】 | |
+ | * 过滤页眉页脚,标签栏等 | ||
+ | * 过滤乱码 | ||
+ | * 不相关的网页标识符 | ||
+ | * 过滤中文占比< | ||
+ | * 过滤中文字符少于10个的段落 | ||
+ | * 敏感词过滤带有脏话、色情、赌博等非法内容的页面 | ||
+ | * 从数据集中删除隐私内容,如身份证号、电话号码、qq号码、电子邮件地址 | ||
+ | * 截断段落的最后一句没有结束标点的句子 | ||
+ | * 繁体转简体 | ||
+ | * 删除了每个句子中的所有多余空格和标点 | ||
+ | * 用空格替换句子中连续空白字符(即选项卡、空格、不可见字符等) | ||
+ | * 收集正负样本训练fasttext,对低质量文本进行分类,主要去除了赌博广告,色情广告等【已完成】 | ||
+ | * 基于规则对wudao数据进行清洗,收集wudao正负样本作为低质量语料数据,目前优化中【进行中】 | ||
+ | - 小说数据清洗,目前基本清洗完成 | ||
+ | * 基于规则进行清洗 【已完成】 | ||
+ | * 去除连载小说各小节前后与内容不相关的作者的碎碎念 | ||
+ | * 去除小说网站的插入广告 | ||
+ | * 去除特殊字符 | ||
+ | * 去除中文占比低的段落 | ||
+ | * 去除编码异常段落 | ||
===== 小组成果 ===== | ===== 小组成果 ===== | ||
语料去重: | 语料去重: | ||
- | https:// | + | https:// |
+ | 低质量文本分类:https:// | ||
- | ===== 踩坑记录 ===== | ||
- | - [[zipfile采用默认cp437导致文件名乱码]] | ||
- | - [[在windows和mac下打包zip文件名过长]] |
sjqx.1690163514.txt.gz · 最后更改: 2023/07/24 09:51 由 MNBVC项目组