中文
搜索

探讨简明语言摘要与机器翻译写作

发布时间: 2024年01月29日浏览量:

简明语言(Plain Language Summaries)并非新概念,而且其应用场景正逐渐增加。简明语音有时称之为简明写作或通俗表达,简明语言通常指读者一读就能理解的表达方式。

自2006年联合国通过《联合国残疾人权利公约》(CRPD)以来,已有160多个成员国成功签署,成为联合国最成功的条约之一。作为CRPD的一部分,第2条明确将简明语言列为可能需要采取的交流方式之一,以使信息更易于理解。

用通俗语言写作的主要原因是确保读者容易理解,而且也有利于提升读者体验、触达新受众,以及优化搜索引擎或翻译流程。实际上,国际标准化组织已于2023年6月发布了该领域的第一个标准《ISO 24495-1:2023 简明语言—第1部分:基本原则和指南》。



通俗易懂的语言能够更广泛地触及受众

简明语言的立足点之一就是科学交流或研究交流。以前,研究人员通过专业平台交流学术成果,比如期刊文章或论坛。而现在,越来越多的研究人员被鼓励与更广泛的受众(包括非专业人士)分享他们的发现。这种推广可以采取不同的形式(例如信息图表、视频等)。但最常见的形式是简明语言摘要。越来越多的期刊,特别是在健康和科学领域,鼓励研究人员提交研究成果的简明语言摘要和传统的科学摘要,与文章一同呈现(例如,加拿大科学出版社、泰勒与弗朗西斯、Sage等期刊)。这样一来,非专业人士也可以更好地理解研究内容。这些人可能包括出资机构(他们希望了解研究经费的使用情况)、研究参与者(如临床试验或参与性行动研究项目的参与者)、政策制定者(致力于在特定领域制定法规)、或者来自关联学科的研究人员(可能正在进行跨学科研究)。



研究人员需要简明语言

另一个未明确提及但可能受益于简明语言摘要的群体是使用另一种语言从事研究的学者。实际上,这是一个庞大的群体。全球只有少数研究人员和研究生以英语为母语,那就意味着许多人必须通过另外一种语言来参阅科学文献。

英语简明语言摘要至少在两个方面看见恶意帮助非英语母语的研究人员。首先,简明语言摘要可能比传统的科学摘要更易阅读和理解,这减轻了研究者的认知负荷,有助于研究人员更快地判断文章是否与他们的工作相关,从而决定是否值得深入阅读;其次,简明语言摘要更易于翻译,这意味着研究人员可以使用机器翻译将摘要从英语翻译成他们的母语,以了解文章的主要内容并决定是否值得深入阅读相应的科学文章。



简明语言与和机器翻译

作为一个宏观项目的一部分,我们从多个不同的角度审视了简明语言,并对简明语音摘要的生成和机器翻译进行了一些初步研究。

首次调查集中在谁应该撰写简明语言摘要。许多科学期刊鼓励作者用简明语言摘要总结工作。然而,虽然这些作者是学科专家,但他们并不一定接受过写作或传播方面的培训。相比之下,从事新兴科学传播领域的人通常具有双学位,例如获得理学学士学位并获得新闻学或传播学硕士学位。

加拿大科学出版社(CSP)在科学、工程和健康科学等各个领域出版了23种科学期刊。在其网站上提供两种不同类型的简明语言摘要,一方面,出版社鼓励期刊作者写自己的研究总结,这些总结发布在CSP的媒体网站上,可以免费阅读。另一方面,CSP还运营着一个公共博客,博客里有一个分类是“简报”,其中包含由科普人士写的简明语言摘要。



传播科学

我们构建了两个不同的语料库,对应于两种不同类型的简明语言摘要——分别由研究人员和科普人士写的摘要——并比较了它们的一些特征。主要发现如下:

研究人员的简明语言摘要总体上较短,但句子长度较长,被动语态也使用得更多。通过采用Flesch易读性和Flesch-Kincaid等级,计算这两种类型的摘要的可读性,评估发现,科普人士撰写的摘要比研究人员写的摘要更简单易懂。这并不惊讶,因为研究人员主要是科学家或工程师,而科普人士是训练有素的传播专业人士,知道如何为非专业读者写作。这个研究提供了切实的证据,即如果出版商想出版科学研究,比起聘请一位研究人员,聘请一位好的科普人士更具性价比。

接下来,我们研究哪种类型的摘要更容易翻译。在这种情况下,我们测试了三种不同类型的摘要:一,由研究人员编写的传统科学摘要;二,由研究人员编写的简明语言摘要;三, 由科普人士编写的简明语言摘要。

所有源文本均为英文,使用免费在线版本的DeepL将文本翻译成法文。



随后评估了翻译的准确性和流畅性。再次发现,由科普人士撰写的简明语言摘要表现最佳,而由研究人员编写的简明语言摘要排名第二,而传统的科学摘要被认为是最不容易翻译的。

这些结果相当直观。从过往经验中来看,将机器翻译与受控语言相结合翻译的成功性要高于将机器翻译直接用于非受控自然语言。

我们测试机器翻译和简明语言结合的灵感之一来自Shaimaa Marzouk和Silvia Hansen-Schirra(2019)的一篇文章,题为“相对于其他机器翻译体系结构,受控语言对神经机器翻译(NMT)的评估和影响”。这些研究人员发现,受控语言(一种人工设计的语言)与神经机器翻译(一种数据驱动的机器翻译方法),配合效果不佳。因为受控语言并未被广泛采用,因此在神经机器翻译引擎的典型训练语料库中很难得到充分的表达。相反,简明语言的使用在过去几十年中逐渐增加,因此在训练语料库中能查找到的可能性更大。此外,为简明语言写作制定的指南类型与为机器翻译写作制定的指南存在较大的重叠。



结论

简明语言的使用正在增长,因此了解更多相关信息对我们很重要。对于谁应该编写简明语言摘要以及简明语言摘要便于翻译的程度的这类初步研究将帮助我们更多地了解简明语言。



本文来自GALA(Globalization and Localization Association)官网,由新宇智慧编译,有删减。


相关新闻