本文由大模型对周例会报告做出归纳总结并通过人工润色补充再由大模型排版完成。
2025年,平行语料小组围绕“数据源拓展 + 联合国语料的处理管线工程化及论文产出”两条主线推进:
一方面持续扩充字幕、游戏本地化、联合国等多来源平行语料资产;另一方面补齐繁简转换、字幕格式处理、爬虫与对齐流程等关键能力,并将联合国语料管线(UPRPRC)从局部跑通推进到全量重跑与工程化优化,完成arXiv发布并投稿ICASSP 2026。年末在游戏语料侧形成规模化交付清单,累计整理89个游戏语料,总计3,914,651行,为后续训练/评测与多模态数据扩展提供了坚实数据底座。
今年新收录了57个游戏,其中包括8个大体量、会定期稳定更新的长线运营型游戏,新增收录行数达到2,031,406,同24年相比,已收录的游戏个数翻倍,行数翻了两倍。并且解决了hf上外国友人提出的gta4语料存在乱码的问题。
完成了字幕库、subhd、日夸等几个网站存量字幕的爬取,开始实验性质地将开源模型用于来自字幕库网站的字幕的分拣工作中。
在论文的撰写过程中重新爬取了联合国语料。
9月2号,《可复现的联合国语料管线(UPRPRC)》完成了论文的草稿,15号,论文上传arxiv,18号,论文精简到4页篇幅,并投稿ICASSP 2026。
9月14号,经过增量下载设计的UPRPRC重新爬取了全量联合国数字档案馆的文件记录,11月4号,段落级对齐的全量语料已经处理完毕并上传huggingface。新的语料相比24年收录的语料,文件体积大了1倍,行数达到36,700,842行。
夜夜(组长):主持周例会;把UPRPRC落地并重跑了2025年的数据,完善了论文中的数据;提供了所有的游戏解包数据并整理了4份游戏语料。
如来:整理了31份游戏语料,完成了pdf转出段落的工具探索,以及初步的论文模板迁移。
易水:整理了12份游戏语料,提供了几个字幕网站的数据,提供了全量遍历联合国数字档案馆的方法,为UPRPRC的爬虫部分做出了重要贡献。
Liu:收录了一份不易获得的代码语料,分享了几个机翻的模型,为UPRPRC的翻译部分给出了更多选项。
Pob:完成了UPRPRC论文方法部分、摘要部分的撰写,为论文成稿、Rebuttal提供了非常多的写作支持。
霖:为论文贡献了图表、增加引用、排版调整,提供了很多及时且有用的情报。
苍绮皓:在处理联合国pdf语料时从多模态小组请来,为我们从pdf中批量提取文本提供了帮助。
继续完善UPRPRC论文并积极投稿。继续各类平行语料的收集和整理。