发布时间:2024-09-10 19:12:40 来源:本站 作者:admin
在 2024 年 8 月 29 日的一篇论文中,维也纳大学的 Miguel Rios 探讨了指令调整的大型语言模型 (LLM) 如何改善专业领域(尤其是医学领域)的机器翻译 (MT)。
Rios 指出,虽然最先进的 LLM 在高资源语言对和领域中表现出了令人鼓舞的结果,但它们在专业的低资源领域中往往难以实现准确性和一致性。“在专业领域(例如医学),LLM 的表现低于标准的神经机器翻译模型,”Rios 说。
他还解释说,LLM 在低资源领域的局限性源于它们的训练数据,这些数据可能无法充分涵盖有效翻译所需的特定术语和上下文细微差别。
为了应对这一挑战,Rios 建议通过指令调整来整合专业术语,从而提高 LLM 的性能——这是一种使用格式化为指令的各种任务的数据集对模型进行微调的技术。“我们的目标是将术语、语法信息和文档结构约束整合到医学领域的 LLM 中,”他说。
具体来说,Rios 建议将医学术语作为 LLM 指令的一部分。在翻译一个片段时,会向模型提供翻译中应使用的相关医学术语。
此外,该方法还涉及识别与正在翻译的文本相关的术语对——源术语和相应的目标术语——确保在翻译过程中将正确的医学术语应用于这些片段。
如果一个或多个候选术语在片段中成功匹配,则将它们合并到提供给 LLM 的指令模板中。这意味着模型会收到一个提示,不仅指示它翻译文本,还指定要使用哪些医学术语。
如果未找到匹配的候选术语,则向模型提供基本的翻译任务提示,指示其在没有任何特定医学术语指导的情况下翻译文本。
Unbabel 的 Tower 领先
在实验中,Rios 使用 Google 的 FLAN-T5、Meta 的 LLaMA-3-8B 和 Unbabel 的 Tower-7B 作为基线模型,应用 QLoRA 进行参数高效微调,并在英语-西班牙语、英语-德语和英语-罗马尼亚语语言对中对其进行测试。
结果显示,指令调整后的模型在 BLEU、chrF 和 COMET 分数等自动指标方面“显著”优于基线。具体而言,Tower-7B 模型在英语-西班牙语和英语-德语翻译中表现出色,其次是 LLaMA-3-8B,它在英语-罗马尼亚语翻译中表现出色。
在与 Slator 交谈时,里奥斯表示他打算在未来与专业翻译人员进行人工评估,因为单靠自动化指标可能无法完全反映模型在翻译中生成正确医学术语的效果。