数据存储小组主要负责MNBVC语料库内容的存储和分发工作。2024年,我们面临数据量激增的挑战,从年初的接近5T到年末达到8.5T,随着“汪洋大海项目”的实施和进展,存储和分发量进展非常频繁,工作强度和压力也随之增大很多,最主要的是,对存储容量的需求上升了一个新台阶。尽管如此,我们依然克服重重困难,保证了数据存储和分发工作的稳定运行。
数据存储升级: 随着数据量的快速增长,大部分成员都更换了若干次硬盘 ,目前在线节点都至少达到了10T以上的空间,确保了数据存储的容量和稳定性。
分发软件问题解决: 面对分发软件出现的各种问题(bug),我们通过不断试错和探索,最终找到了有效的解决方案,包括进行存储技术测试和利用BT分发试验。
数据安全与稳定: 在过去的两年中,我们小组在数据量巨大的前提下,组员付出巨大的努力保证分发节点的稳定在线和运行,累计稳定运行了17544小时,全节点分发数据量超过了1PB(原始分发节点2个,小组内分发节点4个,常年在线分发节点30-60个,累计分发节点超过100个),期间没有任何意外发生,充分体现了我们小组的专业能力和责任心。
组长(xclimbing): 负责统筹规划,积极向上级争取资源,为小组工作提供有力支持。
副组长(皮皮): 承担了大量数据下载、测试及原始分发工作,包括组织协调、问题解决和文档撰写等,为小组的稳定运行做出了重要贡献。
急云: 积极参与技术测试,探索新的分发方式,为解决数据量激增带来的问题提供了有效方案。
子轩、银河:两位大佬在担任其他组艰巨工作的同时,为数据分发提供存储空间、带宽等资源,有力保证了分发节点的稳定运行。
catoxs: 虽然今年主要精力放在其他方面,但也提供了宝贵的存储空间支持。
ryan: 虽然话语不多,但始终默默付出,为小组的稳定运行做出了贡献。
被抢注:来自专业AI实验室的大佬,虽然因为条件所限,但也为数据分发新方法提供了有益的尝试。
2025年,我们将继续努力,不断提升数据存储和分发的效率和质量,为MNBVC语料库的建设和发展做出更大的贡献。
感谢各位领导、同事的支持和帮助!
皮皮:大家好我是皮皮,我们这个组是数据存储组…(抽了口烟)
xclimbing:咱们这是粗活,技术含量不高,就是投钱…
皮皮:上面这位是我们组长,里屋成员,奔60的快退休的公务员。很会向上沟通,天天催项目组提供资源…
急云(惊坐起):数据量突破目标值!各节点空间告急!急需增援!
xclimbing:今年的数据量由年初的将近5T涨到了目前的8T,一年换了两次硬盘,压力有点大。他们让写总结,我不太擅长写这些东西,皮皮你作为副组长,做了比组长更多的工作,重点写一下啊,还有急云也是投入非常大的时间、精力还有钱,也可以重点说一说。
皮皮:好的老板,我想想啊,今年大家除了换硬盘,分发软件也出了不少问题,估计他们也没处理过这么大的数据,别的方面大家互相配合默契,没出过什么大问题。
@子轩 啥也没说,大手一挥,又批来9块20T的硬盘, @银河 赶紧扔掉烟头,接过硬盘来插到了机器上。
catoxs:今年专心弄娃没升级硬盘,基本无贡献,现在就百度网盘有几T空间…
ryan一句话不说,猛抽一口烟…
皮皮:急云还做了nas存储方面的技术测试,还有利用bt分发的试验
急云:技术没有,意志坚定
xclimbing:所以说,明年接着干吧(发烟 一人一根)