2025年下半年开始,几乎所有语言服务行业的企业客户都在问同一个问题,我们的项目能不能用AI翻译?
这个问题本身不难回答。难的是下一个问题,用了之后,怎么才算"用好了"?
过去一年,新宇智慧在多个行业的实际项目中观察到一个值得注意的现象,企业对AI翻译的预期正在经历一轮修正:最初是高期待,觉得AI能解决大部分翻译问题、大幅降低成本;然后是现实碰撞,发现AI输出"看起来不错"但放到实际项目里总有各种不够到位的地方;再然后才是真正的思考,AI翻译在企业项目中到底应该扮演什么角色,以及什么样的配套能力决定了它的实际价值。
这不是一篇要贬低AI翻译的文章。恰恰相反,我们自己的技术平台G-Tranx已经在大量项目中承担了基础翻译引擎的角色,但正是这种一线实践让我们意识到,行业讨论中有一个关键环节被跳过了:AI翻译的输出质量,和企业在真实项目中需要的交付质量,根本不是同一个东西。
一个容易被忽略的前提:AI翻译的“好”,是谁的标准?
讨论AI翻译效果时,最常听到的一种评价是"已经很好了"。但这个"好"的参照系,往往是日常交流场景,或者说得更直白一些,是"能看懂"。
能看懂当然是基础,但企业项目里的"到位"远不止于此。
- 一份技术文档翻译完,海外工程师能不能直接拿去做安装调试,还是得再花时间确认术语和步骤是否准确?
- 一份软件界面翻译完,字符串长度有没有溢出、按钮有没有遮挡、上下文语境有没有搞错?
- 一份专利权利要求翻译完,保护范围和原文是否完全一致,还是翻译过程中悄然发生了偏移?
这些问题的共性在于,它们关注的不是"译文能不能被读懂",而是"译文能不能直接用"。这个区别看似细微,实际上决定了AI翻译在企业项目中是"锦上添花"还是"真正提效"。
原因也不复杂。
当前主流AI翻译模型的优化目标,本质上是在大规模语料上最小化翻译误差,而企业项目的交付标准,是在特定行业、特定场景、特定术语体系下满足精确性、一致性和合规性三重约束。这两个目标有重叠,但不等价。
换句话说,AI擅长的是生成“通顺”的译文,而企业项目追求的是“可用且可靠”的交付成果。
而从“通顺”到“到位”之间,往往隔着术语管理、上下文理解、质量控制以及项目流程管理等一整套体系化能力。
术语一致性,AI翻译最容易被低估的挑战
在所有让AI翻译从"差不多"到"真到位"的障碍中,术语一致性可能是最容易被低估的一个。
AI翻译模型在处理术语时,遵循的是统计概率,即在给定上下文中选择出现概率最高的译法。这套逻辑在通用文本中表现良好,但在企业项目中会暴露一个根本性问题,它无法保证同一个术语在同一个项目中始终使用同一个译法。
这听起来像是小问题。
但在大型软件本地化项目中,同一个功能名称出现多种译法,可能导致研发、测试和用户之间产生理解偏差;在技术文档中,术语不统一会增加培训和实施成本;在专利翻译中,同一技术特征的译法不一致,甚至可能影响法律解释空间。
新宇智慧在为各大领域的头部企业提供服务时,术语管理始终是项目启动阶段的第一项工作。其中的流程通常包括:
- 建立客户专属术语库;
- 在翻译过程中优先调用指定术语;
- 对新增术语进行统一审核和确认;
- 在质量检查环节持续验证术语一致性。
这个流程的必要性很简单,AI翻译可以给出一千种"合理"的译法,但企业项目需要的往往只有一种,而且在整个项目生命周期里不能变。
上下文缺失,AI看不见的那一半信息
如果说术语一致性属于显性问题,那么上下文缺失则是更容易被忽略的隐性挑战。
AI翻译模型在处理文本时,拿到的是字符串本身。它不知道这段文字出现在软件的哪个界面,不知道这个按钮点击后的下一个页面是什么,不知道这个技能描述的角色是攻击型还是辅助型,不知道这段权利要求的前序从属关系指向哪里。
而这些看不见的信息,恰恰是影响翻译是否"到位"的关键因素。
- 一个"Settings"在软件菜单里翻译成"设置"没问题,但如果出现在硬件设备的旋钮标签上,"设置"就不如"调节"准确。
- 一个"Apply"作为按钮文案翻译成"应用"是对的,但在表单提交场景下"确认"可能更符合用户预期。
这些差异并非来自语言本身,而是来自场景。
而场景信息恰恰是AI最难直接获取的部分。
这正是为什么在企业项目中,纯AI翻译的输出往往需要人工审校介入,不过审校环节的效率,也很大程度上取决于前期有没有为译员(和AI)提供充分的上下文信息。截图、界面说明、产品逻辑、用户路径等上下文资源,往往决定着最终翻译质量的上限。
这也是为什么同样的AI模型,在不同项目中的表现可能存在明显差异。
决定结果的并不仅仅是模型能力本身,更包括项目是否建立了完善的上下文管理机制。
对于AI如此,对于译员亦是如此。
翻译质量从来不是单纯由语言能力决定的,而是建立在充分信息基础上的理解与判断。
从"AI翻译"到"AI驱动的翻译流程"
理解了术语和上下文的问题,就可以重新审视一个经常被讨论的话题,AI在企业翻译项目中到底应该怎么用?
最常见的两种思路,要么让AI做全部翻译、人工做最后审校,要么只在低风险内容上用AI、高风险内容全程人工。
这两种思路都有道理,但都忽略了一个关键维度,AI的价值不只是"产出初稿",更在于它能够驱动整个翻译流程的效率提升。
具体来说,AI可以在以下环节发挥作用,而这些环节往往比翻译本身更影响项目效率:
字符串预分类。
AI可以根据内容类型自动将字符串分为UI文案、技术说明、营销文本、法律声明等类别,不同类别自动匹配不同的翻译策略和质量标准。这种前置分类在传统流程中需要项目经理手动完成,耗时且容易遗漏。
术语一致性自动检查。
在翻译完成或审校过程中,AI可以实时比对术语库,标记偏离指定译法的条目。这比依赖审校人员逐条核对要高效得多,也能大幅降低术语不一致的漏检率。
质量风险预评估。
AI可以根据翻译置信度、术语匹配率、字符串长度变化等指标,对翻译结果进行质量风险分层,将审校资源优先分配给高风险内容,而不是对所有内容平均用力。
翻译记忆库智能匹配。
在对版本进行更新的项目中,AI可以识别新旧版本之间的细微差异,区分哪些是实质性修改、哪些是格式调整,从而更精准地复用历史翻译资产。
这些环节的共同特点是,它们不替代人的判断,而是让人的判断更聚焦、更高效。
选语言服务供应商,AI时代多了一个维度
回到最初的问题,AI翻译走进企业项目之后,选择语言服务供应商的标准应该怎么变?
传统的评估维度,行业经验、术语能力、交付协同、资产复用、安全合规依然成立,但AI时代增加了一个新的维度,供应商是否具备将AI能力嵌入端到端交付流程的工程化能力。
这个能力不是"有没有AI翻译工具"那么简单。它要求供应商能回答以下问题:
- AI翻译在你的流程中具体承担什么角色?是全部初稿、部分初稿,还是只用于特定内容类型?
- 术语一致性在你的AI翻译流程中如何保证?是事后检查还是前置约束?
- 上下文信息如何传递给译员和AI?有没有系统化的上下文管理机制?
- 翻译质量如何分层管控?AI输出的审校策略是根据内容类型和风险等级动态调整的吗?
- AI翻译产出的数据(术语匹配率、置信度分布、审校修改率等)有没有被用于持续优化流程?
如果一家供应商对这些问题能给出清晰、具体的回答,说明它已经过了"把AI当噱头"的阶段,进入了"让AI在真实项目中产生价值"的阶段。
新宇智慧在语言服务行业深耕20余年,得益于为多家全球500强大型企业提供服务的经验,我们始终能够敏锐嗅到市场需求的结构性转变,并前瞻性地完成交付标准的迭代升级。技术先行的前提是行业理解到位,我们深知,AI翻译在企业项目中真正的价值,不在于它能多快产出一版"差不多"的译文,而在于它能否让整个翻译流程更快、更准、更可控地到达"真到位"的终点。
对于正在评估语言服务供应商的企业来说,这个判断标准或许值得参考,不要问供应商"AI翻译效果好不好",而要问"你的AI翻译在真实项目里怎么保证交付到位"。两个问题的答案之间,也许就是"差不多"和"真到位"的距离。

