款大模型翻译能力硬核测评，腾讯元宝与实力领跑

烁菲科技创新 2024-08-07 957 0 开心斗地主

2024-07-0415:16:41作者：姚立伟

人工智能大模型带来了强大的创造力，并被应用于内容生产领域。但是你是否想过我们普通人日常生活中有哪些场景可以借助大模型的能力呢？翻译就是一个最接近普通用户的场景。在竞争全球化的今天，我们可能需要阅读专业的外文文献提升自身专业技能、和来自全球的客户打交道做生意，高质量的机器翻译能够大大提升工作效率，降低沟通成本，扩展知识的输入面，并帮助企业和个人更好地融入全球市场。

近日一份整合市面8大主流大模型，通过10大维度深度测试的大模型翻译测评报告发布。报告显示，基本上大模型都具备了很成熟的翻译能力,国产大模型追平甚至超过了ChatGPT-4o。其中腾讯元宝的表现优秀,翻译专家打分排名第一，用户打分排名第二。无论是经典诗歌、专业资格考试题目、日常生活场景的翻译，都让人眼前一亮。其稳定性和准确性在实际应用中表现尤为突出。

测试场景具有极强的应用实践性。例如，在英文专业资料翻译这一典型场景，该测评选择AI领域《AttentionIsAllYouNeed》（Transformer模型论文），考察模型对科技术语、复杂句式、逻辑关系的理解和翻译的准确性。本篇科技论文约3.9万个单词，给到统一的提示词后，腾讯元宝能够和GPT-4o可直接全文翻译，并保持原文的格式。

文书撰写领域，该测评以英文签证信为例。日常生活中，出国旅游、学习或工作都可能需要写签证信，这是一种常见的应用场景。签证信的写作需要清晰表达申请人的意图、行程安排等信息。该测评模拟了旅游场景，选择生活中第一次出国时所需的签证信写作，考察模型在此类正式场合的英文表达能力，估其在正式信函翻译方面的表现，评估模型在语法、用词和格式上的表现。而各个模型在这一领域都表现良好，其中腾讯元宝不仅翻译准确，翻译速度也比较快。而且格式很清晰，结构合理，涵盖了签证申请信所需的所有要点。使用的语言正式且尊重申请国文化和习惯。

同声传译场景帮助用户进行信息的及时抓取与反馈。该测评选取最经典的演讲之一《乔布斯斯坦福大学演讲》，实时传给大模型，重点考察各工具在长篇演讲翻译方面的准确性、流畅性、对演讲风格的把握。结果显示，腾讯元宝在同声传译方面还不错，适合实时性要求高的场景，Kimi、ChatGPT-4o和讯飞星火在准确性、流畅度和即时性上更优秀一些，适合需要高精度和高实时性的用户。豆包和智谱清言表现也相对优异，通义千问和文心一言在处理复杂句子时仍有改进空间。

值得注意的是，在多模态翻译领域，大模型还有很大的进步空间。在外出旅行时，款大模型翻译能力硬核测评，腾讯元宝与实力领跑我们可能会遇到地图难以看懂、菜单需要翻译的情况，想问当地人又羞于开口，这时候如果能拍照问AI将带来很大的便利。因此该测评选择日常生活中常见的餐牌，包括国外只有文字的和国内还有图片的菜单，测试模型能否准确翻译并捕捉所有菜名和描述，评估模型在多模态识图和翻译方面的综合能力。最终结果不尽人意。ChatGPT-4o：基本能够译出菜品名称，少量遗漏，中英对照能够更清晰地展示菜单中的菜品。腾讯元宝：菜品名称、描述和价格基本能够识别和翻译，基本不存在引起误解的歧义和直译。而有几个模型无法做到完全识别图片内容并翻译，且部分翻译的机翻痕迹很重，就是字面意思。

AI大模型在翻译场景的应用虽然不算完美，但依然极大的提升了传统翻译的效率和质量。未来随着模型性能的持续提升，应用场景将更加广泛，也有望渗透到更多行业和领域，成为在竞争全球化背景下人们日常工作和生活的有利工具。

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：2760375052