跳至内容
MNBVC-Wiki
用户工具
登录
站点工具
搜索
工具
显示页面
过去修订
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
一场为爱发电的奇幻之旅
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
风高月黑夜,正在刷着里屋的。忽闻微信里屋的某群,大家开始讨论当下热门的chatgpt。 上海梆子的等战热烈的介绍着最新的资讯,北方众老妖怪们傻呢,龙骑兵等主持着讨论。不能呀这玩意确实好用节省了学习成本,比搜索引擎好用,还有进一步分析。操作电脑获取知识的门槛进一步降低了。只是可惜这玩意仅仅对英文环境友好。用中文或其他语言达不到目标效果。 根据等战的介绍,这玩意是啥根据神经网络运算,通过猜测下一个字得往复堆砌字符反复判断经过大量的运算后返回消息。消息是根据后面的知识库庞大的英文资料库查询而来。当下的chatgpt里面的知识库包含的中文或其他语言知识少得可怜。返回的质量自然不可同英文的结果同日而语。 为紧跟时代的步伐,建立中文的知识库是当务之急。那么谁去做交给国家或某些商业机构?貌似都不靠谱。 怎么不靠谱,建立知识库这玩意没有盈利空间,花费人力巨大,嗯还有大量不可知的法律问题,毕竟知识很多有版权之类相关问题。 好吧,既然它们不靠谱,我们这群“时尚的网络先锋精英先烈”来吧,人到中年也非“牛马”可控的时间也有那么一些。 很快在三人的主持下,里屋的mnbvc项目组成立了,也真佩服某人 硬是把里屋的别名域名滚键盘出来的mnbvc解释成为Massive Never-ending BT Vast Chinese corpus 超大规模中文语料集 就此中文知识库正式命名为中文语料集。参与者众多各领域专家都是实干派很快分出若干小组,最开始在资料收集小组,组员特别多,大家手脚也很快,能轻易收集到的文本资源很快就没多少了。逐渐没多少能干的了。发现了严重的问题,光靠里屋的服务器存储空间就不够了,里屋可不是商业机构,几任里屋“当家花旦”都是为爱发电。本项目也没有资金来源,那么发扬里屋传统的BT发散跳跃思维,既然存储到单个点不合适,启动分布式存储把项目组的数据分散到网络中去。有时间有空间有网络的我们几个接下这个任务成立了数据分享小组 X君 P君 我急云等十个组成了数据存储小组,这两年期间发挥余热也到过去其他组参与学习。比如老不正经的龙骑兵负责的汪洋大海项目,跑过两轮技术测试后,发现自己存储主机性能担负不了与等战讨论下后只能抱憾离开。 参与进项目我们这些“先烈”参与者,获得了什么。直白的说,除了付出时间,精力,金钱外。并没有“收益”。也就获得了一些认知能力,些许经验与一些奇怪的知识。 有关能力:学会用AI指使python来倒腾一些方便的小程序,来给自己处理数据。项目组也发布了里屋GPT用普通pc也能跑。大家都能上手玩玩。 关于经验:NAS如何折腾,最佳性价比。winnas如何玩,如何有效利用旧机器组NAS。为啥发布的数据要用zip 为什么不用压缩比更大的7z格式。等等若干问题通过两年的折腾都有了明确的答案。 知识方面:多个小组每周都有例会,等战常常会分享业内资讯。毕竟等战挺能“抬杠”的这是我在里屋里看他回复历史觉得。不过言之有物,也言多必失也有马失前蹄的时候。我们数据存储小组呢 基本每天都有扯淡讨论按等战要求的各小组例会反倒没东西说了例会也就不了了之。毕竟我们小组的活跃度在整个项目组里那都是最高的。吐槽还是要继续,其发布格式命名从2023xxxx开始,这都5202了这个废柴的命名规划。好吧数据发布组认真考虑过了。今年2025将启用新的命名格式发布新版本数据。旧版本数据封存修正。 等战最喜欢就是与我们分享圈内八卦,对就是那种不正经瓜,什么师徒恩怨吧,啥人底裤啥色啊。嘿嘿嘿!还有就是等战制作的“里屋风格角色回复扮演的gpt工具”,简直就是BT杆精附体。具体你们去骚扰等战或看他发布的帖子有所展示。 到了去年我们也超过了预定目标40T的数据量,等战越发过分了。居然让我们写年报!我们这群中年混子直接上个节目吐槽项目组,然后把聊天记录扔给AI处理。就有了之前发布过的小组年报还附带文字小品节目。从反向来看效果还是不错回复量在项目组小组年报里最高的。 小组各成员为了项目投入还真不少,各家都多次升级了空间为了保障项目正常。还有不少云存储空间的花费。电力、时间、还有空间,存储服务器还是挺占空间了。大城市多少一平,你们心里都有数吧。就此虽然核心节点不算多,在微力数据同步上面我们小组也达成了覆盖我国北部,中部,东部,南部以及海外等地分布式存储网络。为新加入大模型的参与者提供高速可靠的数据支持。 痛苦就是我们小组存储空间从大家主流的几百GB,统统升级到了TB级。不少都迈入PB级门槛。 展望未来 随着AI技术的发展使用成本越来越低,大模型自我学习的能力越来越强。我们所作的工作得到了展现。时光荏苒我们还是互联网初期第一批出海吃螃蟹的,移动互联网也好,AI大模型也好我们都站在时代的浪潮之上睥藐众生。那么下一个浪头是否还能? ------交给GLM润色后感觉吐槽被净化了就把草稿发了上来 (发帖时间Beijing: 2025-01-09 17:07:17 |Beijing: 2025/1/9 17:07:17) ---急云
一场为爱发电的奇幻之旅.txt
· 最后更改: 2025/03/14 16:47 由
MNBVC项目组
页面工具
显示页面
过去修订
反向链接
回到顶部