mnbvc2023年终总结及感谢
差别
这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
mnbvc2023年终总结及感谢 [2025/03/14 16:13] – 创建 MNBVC项目组 | mnbvc2023年终总结及感谢 [2025/03/14 16:16] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 1: | 行 1: | ||
- | === MNBVC一周年总结 === | + | ====== MNBVC一周年总结 |
MNBVC项目于2023年1月1日正式启动,由里屋社区资深用户等战、零零发和龙骑兵的发起下,集结了广大志愿者共同参与,致力于构建一个超大规模的中文语料集。项目的主要目的是为中文自然语言处理提供高质量的数据资源,支持中文信息技术的发展。 | MNBVC项目于2023年1月1日正式启动,由里屋社区资深用户等战、零零发和龙骑兵的发起下,集结了广大志愿者共同参与,致力于构建一个超大规模的中文语料集。项目的主要目的是为中文自然语言处理提供高质量的数据资源,支持中文信息技术的发展。 | ||
行 13: | 行 13: | ||
感谢大家的支持,感谢所有参与者的支持! | 感谢大家的支持,感谢所有参与者的支持! | ||
- | === MNBVC是一个开源项目,我们致力于收集整理和清洗一切中文信息,为中文AI大模型训练提供预料支持。 === | + | ====== MNBVC是一个开源项目,我们致力于收集整理和清洗一切中文信息,为中文AI大模型训练提供预料支持。 |
回首2023年,我们做了这样一些事: | 回首2023年,我们做了这样一些事: | ||
- | ==== 语料集规模及清洗 ==== | + | ===== 语料集规模及清洗 |
经过一年的努力,我们成功清洗了超过27TB的语料集,远超项目初期的预期。完成项目发起之初的40T语料目标的68.7%。这一成就标志着MNBVC项目在数据规模方面达到了新的高度。 | 经过一年的努力,我们成功清洗了超过27TB的语料集,远超项目初期的预期。完成项目发起之初的40T语料目标的68.7%。这一成就标志着MNBVC项目在数据规模方面达到了新的高度。 | ||
- | ==== 志愿者参与及任务完成 ==== | + | ===== 志愿者参与及任务完成 |
来自全球的超过116名志愿者积极报名参与项目,共完成了219项开发任务。我们还组织了4次学术分享活动,召开了超过215次的会议,确保了项目的顺利进行。 | 来自全球的超过116名志愿者积极报名参与项目,共完成了219项开发任务。我们还组织了4次学术分享活动,召开了超过215次的会议,确保了项目的顺利进行。 | ||
- | ==== 小组建立完善了项目流程 ==== | + | ===== 小组建立完善了项目流程 |
| | ||
- | ==== 社区影响力 ==== | + | ===== 社区影响力 |
MNBVC项目在Github上建立了项目页面,获得超过2500个stars,同时建立了官方主页和 MNBVC wiki项目,总结了项目的所有经验和成果。 | MNBVC项目在Github上建立了项目页面,获得超过2500个stars,同时建立了官方主页和 MNBVC wiki项目,总结了项目的所有经验和成果。 | ||
- | ==== 行业专家的加入 ==== | + | ===== 行业专家的加入 |
多位业界大神加入MNBVC项目,给与了MNBVC语料集很多帮助。包括:符尧,苏剑林,彭博,李沐,刘凯… | 多位业界大神加入MNBVC项目,给与了MNBVC语料集很多帮助。包括:符尧,苏剑林,彭博,李沐,刘凯… | ||
- | ==== 广泛应用 ==== | + | ===== 广泛应用 |
我们的语料集已被大多数中文模型采用,对整个中文信息技术领域产生了深远影响。 | 我们的语料集已被大多数中文模型采用,对整个中文信息技术领域产生了深远影响。 | ||
行 42: | 行 42: | ||
在2023年9月5日召开的百度云智2023大会上,百度的大模型专家在介绍数据集的时候,把MNBVC排到了最前面。 | 在2023年9月5日召开的百度云智2023大会上,百度的大模型专家在介绍数据集的时候,把MNBVC排到了最前面。 | ||
- | ==== 工具完善 ==== | + | ===== 工具完善 |
项目团队共建立了18个语料处理工具的子项目,进一步提升了数据处理的效率和质量。 | 项目团队共建立了18个语料处理工具的子项目,进一步提升了数据处理的效率和质量。 | ||
- | ==== 定期月报 ==== | + | ===== 定期月报 |
为了保持透明度和持续性,我们实现了每月发布一份项目进展月报的目标,项目做到了每个月都有一份主动的定期月报,向社区汇报MNBVC项目的进展情况。 | 为了保持透明度和持续性,我们实现了每月发布一份项目进展月报的目标,项目做到了每个月都有一份主动的定期月报,向社区汇报MNBVC项目的进展情况。 | ||
- | ==== 发起多个专项语料收集项目 ==== | + | ===== 发起多个专项语料收集项目 |
| | ||
- | === 感谢所有开发小组的组长 === | + | ====== 感谢所有开发小组的组长 |
==== Jia Li ==== | ==== Jia Li ==== | ||
行 99: | 行 99: | ||
原负责代码语料小组。腌入味儿的多年老程,四十多岁但仍然奋斗在编码一线的很有经验的程序员。几乎靠一己之力完成了早期代码语料小组的大量编码工作。 | 原负责代码语料小组。腌入味儿的多年老程,四十多岁但仍然奋斗在编码一线的很有经验的程序员。几乎靠一己之力完成了早期代码语料小组的大量编码工作。 | ||
- | === 特别感谢 === | + | ====== 特别感谢 |
==== MNBVC项目三个项目经理 ==== | ==== MNBVC项目三个项目经理 ==== | ||
行 151: | 行 151: | ||
崔自成 | 崔自成 | ||
- | === 感谢 === | + | ====== 感谢 |
亲爱的MNBVC项目贡献者们, 随着2023年的落幕,我们想要特别感谢每一位为MNBVC项目付出努力和智慧的朋友。您的贡献不仅推动了项目的进步,也为我们整个社区带来了无限的活力和创新。 | 亲爱的MNBVC项目贡献者们, 随着2023年的落幕,我们想要特别感谢每一位为MNBVC项目付出努力和智慧的朋友。您的贡献不仅推动了项目的进步,也为我们整个社区带来了无限的活力和创新。 | ||
行 166: | 行 166: | ||
让我们共同期待MNBVC在新的一年里取得更大的成就。感谢您与我们同行,让这个项目变得更加卓越和丰富多彩! | 让我们共同期待MNBVC在新的一年里取得更大的成就。感谢您与我们同行,让这个项目变得更加卓越和丰富多彩! | ||
- | === 再次感谢里屋社区 === | + | ====== 再次感谢里屋社区 |
对积极报名并参与到“MNBVC”项目中的里屋众表示衷心的感谢! | 对积极报名并参与到“MNBVC”项目中的里屋众表示衷心的感谢! |
mnbvc2023年终总结及感谢.1741940031.txt.gz · 最后更改: 2025/03/14 16:13 由 MNBVC项目组