我们最终采用了argos-translate为我们提供机器翻译。
单台安装有CPU和GPU的机器可以同时跑CPU和GPU作为工作节点,两者不会互抢转换效率。argos-translate能够自己用满CPU的核心(不能使用超线程核心,在双路CPU服务器上启用两个实例才能吃满核心占用),实测一台约4GHz的8核机器能够以约30秒一个文件的效率进行转换。
由于全量数据分发到各个工作节点太难,所以我们沿袭批量DOC转DOCX时的做法,用一个装有全量数据的中心服务器通过云服务器的端口转发来分发任务。实际任务切分为10个文件一组,按组来分发任务给每个工作节点。
每个工作节点需要安装python3.8以上版本和一些依赖,我们为debian12设计了部署脚本:
客户端工作节点的脚本按实际部署时使用的在此提供:
此处不宜列出名单,只能笼统说一句感谢为笔者提供算力支持的好友们。翻译后的数据集已经上传至huggingface,此处列出链接:
https://huggingface.co/datasets/bot-yaya/undl_fr2en_translation
https://huggingface.co/datasets/bot-yaya/undl_de2en_translation
https://huggingface.co/datasets/bot-yaya/undl_ru2en_translation
https://huggingface.co/datasets/bot-yaya/undl_es2en_translation
https://huggingface.co/datasets/bot-yaya/undl_ar2en_translation
https://huggingface.co/datasets/bot-yaya/undl_zh2en_translation