用户工具

站点工具


数据存储_分发_小组2024年年终总结

这是本文档旧的修订版!


一、工作概述

数据存储小组主要负责MNBVC语料库内容的存储和分发工作。2024年,我们面临数据量激增的挑战,从年初的接近5T到年末达到8.5T,随着“汪洋大海项目”的实施和进展,存储和分发量进展非常频繁,工作强度和压力也随之增大很多,最主要的是,对存储容量的需求上升了一个新台阶。尽管如此,我们依然克服重重困难,保证了数据存储和分发工作的稳定运行。

二、主要工作内容及成果

数据存储升级: 随着数据量的快速增长,大部分成员都更换了若干次硬盘 ,目前在线节点都至少达到了10T以上的空间,确保了数据存储的容量和稳定性。

分发软件问题解决: 面对分发软件出现的各种问题(bug),我们通过不断试错和探索,最终找到了有效的解决方案,包括进行存储技术测试和利用BT分发试验。

数据安全与稳定: 在过去的两年中,我们小组在数据量巨大的前提下,组员付出巨大的努力保证分发节点的稳定在线和运行,累计稳定运行了17544小时,全节点分发数据量超过了1PB(原始分发节点2个,小组内分发节点4个,常年在线分发节点30-60个,累计分发节点超过100个),期间没有任何意外发生,充分体现了我们小组的专业能力和责任心。

三、团队协作与个人贡献

组长(xclimbing): 负责统筹规划,积极向上级争取资源,为小组工作提供有力支持。

副组长(皮皮): 承担了大量数据下载、测试及原始分发工作,包括组织协调、问题解决和文档撰写等,为小组的稳定运行做出了重要贡献。

急云: 积极参与技术测试,探索新的分发方式,为解决数据量激增带来的问题提供了有效方案。

子轩、银河:两位大佬在担任其他组艰巨工作的同时,为数据分发提供存储空间、带宽等资源,有力保证了分发节点的稳定运行。

catoxs: 虽然今年主要精力放在其他方面,但也提供了宝贵的存储空间支持。

ryan: 虽然话语不多,但始终默默付出,为小组的稳定运行做出了贡献。

被抢注:来自专业AI实验室的大佬,虽然因为条件所限,但也为数据分发新方法提供了有益的尝试。

四、展望未来

2025年,我们将继续努力,不断提升数据存储和分发的效率和质量,为MNBVC语料库的建设和发展做出更大的贡献。

感谢各位领导、同事的支持和帮助!

皮皮:大家好我是皮皮,我们这个组是数据存储组…(抽了口烟)

xclimbing:咱们这是粗活,技术含量不高,就是投钱…

皮皮:上面这位是我们组长,里屋成员,奔60的快退休的公务员。很会向上沟通,天天催项目组提供资源…

急云(惊坐起):数据量突破目标值!各节点空间告急!急需增援!

xclimbing:今年的数据量由年初的将近5T涨到了目前的8T,一年换了两次硬盘,压力有点大。他们让写总结,我不太擅长写这些东西,皮皮你作为副组长,做了比组长更多的工作,重点写一下啊,还有急云也是投入非常大的时间、精力还有钱,也可以重点说一说。

皮皮:好的老板,我想想啊,今年大家除了换硬盘,分发软件也出了不少问题,估计他们也没处理过这么大的数据,别的方面大家互相配合默契,没出过什么大问题。

@子轩 啥也没说,大手一挥,又批来9块20T的硬盘, @银河 赶紧扔掉烟头,接过硬盘来插到了机器上。

catoxs:今年专心弄娃没升级硬盘,基本无贡献,现在就百度网盘有几T空间…

ryan一句话不说,猛抽一口烟…

皮皮:急云还做了nas存储方面的技术测试,还有利用bt分发的试验

急云:技术没有,意志坚定

xclimbing:所以说,明年接着干吧(发烟 一人一根)

数据存储_分发_小组2024年年终总结.1741940943.txt.gz · 最后更改: 2025/03/14 16:29 由 MNBVC项目组