sjqx

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

--- sjqx [2023/07/24 09:51] – MNBVC项目组
+++ sjqx [2025/06/02 15:18] (当前版本) – 外部编辑 127.0.0.1
@@ 行 11: / 行 11: @@
     * 清洗语料中较长的内部重复，或内部重复出现较多次的情况【待进行】。
   - 网页语料清洗
+    * 基于规则对commoncrawl数据做初步清洗，包括：【已完成】
+      * 过滤页眉页脚，标签栏等
+      * 过滤乱码
+      * 不相关的网页标识符
+      * 过滤中文占比<70%的网页
+      * 过滤中文字符少于10个的段落
+      * 敏感词过滤带有脏话、色情、赌博等非法内容的页面
+      * 从数据集中删除隐私内容，如身份证号、电话号码、qq号码、电子邮件地址
+      * 截断段落的最后一句没有结束标点的句子
+      * 繁体转简体
+      * 删除了每个句子中的所有多余空格和标点
+      * 用空格替换句子中连续空白字符（即选项卡、空格、不可见字符等）
+    * 收集正负样本训练fasttext，对低质量文本进行分类，主要去除了赌博广告，色情广告等【已完成】
+    * 基于规则对wudao数据进行清洗，收集wudao正负样本作为低质量语料数据，目前优化中【进行中】
+  - 小说数据清洗，目前基本清洗完成
+    * 基于规则进行清洗 【已完成】
+      * 去除连载小说各小节前后与内容不相关的作者的碎碎念
+      * 去除小说网站的插入广告
+      * 去除特殊字符
+      * 去除中文占比低的段落
+      * 去除编码异常段落
 ===== 小组成果 =====
 语料去重：
-https://github.com/aplmikex/deduplication_mnbvc
+https://github.com/aplmikex/deduplication_mnbvc\\
+低质量文本分类：https://github.com/Mythos-Rudy/mnbvc-fasttext-classification
-===== 踩坑记录 =====
-  - [[zipfile采用默认cp437导致文件名乱码]]
-  - [[在windows和mac下打包zip文件名过长]]

sjqx.1690163514.txt.gz · 最后更改: 2025/06/02 15:13 (外部编辑)