智造观点 对现在发展迅猛的人工智能来说,大多数人们很容易误读和高估其取得的成就。而这一点在人类语言领域中尤为明显,因为在这个领域,一些表象的进步就很容易被错误的暗示成AI具备更深层的能力。 过去的一年,很多像聊天机器人等这类的应用程序,已经可以像人类一样进行有意义的对话了,比如谷歌的Duplex、汉森机器人的Sophia以及其他许多产品,它们在一定程度上代表着人工智能已进到可以体现人类行为的阶段。但需要注意的是,掌握人类语言并不仅仅意味着复制类似人类的声音或制作结构合理的句子,它更需要的是常识以及对环境和创造力的理解,而这些都不是当前人工智能所具备的。 数周前科大讯飞卷入的“AI同传造假”风波,引发了人们关于AI实时翻译技术的更多关注;紧接着谷歌悄悄改变了Pixel Buds耳机的支持页面,并写道:“所有经过Google Assistant优化的耳机和安卓手机,现在都可以使用谷歌翻译。”此前,这一功能仅限于Pixel Buds耳机和Pixel手机用户。尽管谷歌并未大张旗鼓地宣布这个消息,但这个小小的调整也引起了人们的注意。 直到近日百度的AI同传又宣布取得了最新突破:其开发的名为STACL的同传AI,具备了能预测和延时可控的强大能力,能够在演讲者讲话后几秒钟开始翻译,并在句子结束后几秒钟内完成。对此,麻省理工科技评论、IEEE Spectrum等一众外媒,纷纷给出好评,比如IEEE Spectrum就认为这个AI可以跟联合国会议里的人类同传相媲美。
是不是觉得很神奇?是不是再次让同传专家们感到了压力?其实不用担心,机器翻译的优势暂时还不能盖过人类翻译专业人员的风头,短时间内人类翻译者还不能被取代。 由浅至深,了解AI与人类语言之间的联系从实际情况来看,深度学习和其他人工智能技术已经让人类和计算机在更接近彼此方面取得了长足的进步,然而在电路和二进制数据的世界以及人类大脑奥秘之间仍存在巨大的鸿沟。 从语音转文字的层面来看,语音转录是人工智能算法取得最大进步的领域之一。平心而论,这一技术并不能被称为人工智能,但由于人工智能定义有些模糊,以至于很多人错误地将自动转录理解成为了一种智能表现。 [color=rgb(36,]和深层神经网络的出现,语音到文本的转录便发生了巨大的飞跃,变得更加简单和精确。具体而言,通过神经网络,研究人员需要提供大量的语音样本及相应的文本,而不是编写规则。也就是说,神经网络可以找到单词发音中常见的模式,然后“学习”将新的语音映射到相应的文本,进而让很多服务能够为用户提供实时转录服务。 人工智能驱动的语音到文本有很多用途,像谷歌最近推出的Call Screen,就可以让用户借助AI来应付诸如骚扰和广告等自己不想听的电话。Call Screen会在画面中显示AI对来电者的叙述,而来电者说话的内容也将转化为文字显示在画面当中,以便用户选择进一步的回应,或者是直接挂掉电话。
不过,虽然人工智能算法可以将语音转换为文本,但这并不意味着它能明白自己在处理什么。同理,在语音合成方面,人工智能所做的工作也并不是真的智能,因为这项工作与理解人类语言的意义和语境没有任何关系。其实,语音合成技术已经存在了很长时间了,那些失去声音的渐冻症患者数十年来一直在使用这项技术交流,而盲人也通过这项技术来“阅读”自己看不到的文字。 在过去,计算机生成的声音并不像人类,而语音模型的创建需要数百小时的编码和调整。到现在,借助于神经网络,语音合成已经不再像原来那么麻烦。在这个过程中,使用了生成对抗网络(GAN),也是人工智能技术的一种,可以将神经网络相互对立以创建新的数据。 目前这项技术也已经有了很多的应用。举个例子,很多企业正在利用人工智能的语音合成功能提高其客户体验,让自己的品牌拥有独特的声音,以提高可识别性;在医学方面,人工智能正在帮助ALS患者恢复自己的声音,而不必继续使用计算机的声音。当然,这项技术也存在很多的弊端,比如可能会被非法分子利用充当国家元首发布虚假新闻。但需要注意的是,一台计算机听起来像人,也不是意味着它能理解自己所说的内容。 所以,从浅层来说,人工智能与人类语言之间有一定的关系,进一步说,人工智能在自然语言处理领域,也因为深度学习的加持也有了一定的进步。众所周知,自然语言处理是人工智能的一个子集,它可以帮助计算机识别书面文字的意义,无论是将语音转换为文本,还是从文件中进行信息读取。最重要的是,它可以使用这些词语背后的意义执行某个操作。这其中最简答的形式,便是自然语言处理帮助计算机执行通过文本命令给它们下达的指令。 智能音箱和智能手机上的AI语音助手便是通过自然语言处理来完成用户指定的,基本上,用户不必保持严格的单词序列来出发命令,他们还可以使用相同句子的不同变体来让语言助手完成任务。谷歌Gmail的智能回复功能就是一个很好的例子,这个功能可以根据邮件的内容为用户提供回复建议。只不过现在这项功能局限于回复要求比较简单且具有实际意义的邮件,就像“谢谢”或者“我会看一下”。
当然,与语音转文本和语音合成一样,我们不能因为语音助手可以回复不同的聊天请求,就认为人工智能可以完全理解人类语言了。现在的自然语言处理技术只是善于理解具有非常明确含义的句子。从一定程度上来说,AI助手在执行基本命令方面变得越来越好,但在参与有意义的对话或抽象的话题讨论时,结果只会让人感到失望。 机器翻译进步大,但与人类翻译仍有很大差距2016年,《纽约时报》杂志刊登了一个长篇报道,介绍了人工智能(更具体的说是深度学习)如何让谷歌的翻译引擎获得了突飞猛进的发展。诚然,事实也是如此,谷歌机器翻译已经有了很大的改善。 但我们还需要承认的是,人工智能翻译有其自身的局限性。神经网络使用一种机械的、统计的过程来翻译不同的语言。它们会标出目标与严重单词和短语出现时的不同模式,并尝试在翻译的时候选择最方便的模式,也就是说,它们是基于数学值的映射,而不是翻译单词的意思。相反,当人类进行翻译时,他们会考虑语言的文化和语境,以及文字和谚语背后的历史背景。同时,再对单词翻译做出决定之前还会对主题进行研究。这是一个非常复杂的过程,涉及许多常识和抽象的理解,现在的人工智能都无法做到这一点。 另外,语言是主观的,人工智能所擅长的通常是植根于客观事实的任务。无论是识别数据中的信号模式,还是导航道路的条件,机器在面对明确的数学或物理规则作出决策时都能发挥最佳优势,但面对语言这个人类群里发明的彼此交流的主观结构,他们通常会表现出类似规则的行为(比如语法),但这些规则仅基于惯例,并不是一个客观现实,且还在处于不断发展中。所以,有时候机器翻译会无法准确的完成任务。 同时,人类的语言是博大精深的。我们有时候会面对一个笑话、一个双关语甚至是一个带有暗示性的语言,对机器翻译来说,这是最难克服的语言障碍。所以,在它们不能准确理解深层含义的情况下,我们的表达质量会变得很差。从口译者的角度来看,语音和肢体语言也会直接告知对话者的意图,并且会以准确的目标语言进行分析和传达。对人类来说这都是一项极具挑战性的工作,更何况是机器呢?
更令人不安的是,机器翻译往往不会承认自己的错误,就像一个考试准备不足的小学生,它往往会试图蒙混过关。比如,今年7月谷歌翻译出现了一个小故障——若用户将翻译设置为从毛利语翻译成英语,之后输入一长串的“dog”,谷歌翻译竟产生关于世界末日的荒谬警告。对此,一些专家认为,这些神秘的翻译结果可能和谷歌几年前采用的“神经机器翻译”技术有关。当输入的是无意义内容时,系统会出现“幻觉性”的输出结果。 当然,这些隐蔽的“误报”的影响势必会比那些更明显的语法错误更严重,因为目标语言的读者可能不会意识到是机器出现了故障,反而会将这些诡异的翻译结果归因于文本本身,对人与人之间的沟通造成困难。 一直以来,人类都对自身的感知优势进行“反思”,我们比动物聪明、比机器也聪明。但我们也不应该怀疑,或许未来有一天,不管是口译、笔译,还是文案、编辑以及主持人等专业人士也会在机器人的砧板上找到自己的工作。但这一天的到来比大多数人想象到的还要远。 [color=rgb(36,]是一种增强人类的技术,可以有效的帮助加速或简化涉及使用人类语言的人物。不过,当下次在看到一种听起来、看起来以及很多行为都与人类相似的AI技术时,不妨好好关注一下它对人类语言掌握的深度,以便更好地理解其功能和限制,毕竟“人不可貌相”,外表有时候会骗人。
来源:微信公众号 人工智能观察
|