返回 登录
0

Magenta:Google带来机器与艺术的火花

原文链接:Welcome to Magenta!
作者:Douglas Eck
译者:郭芮(guorui@csdn.net)

现在我们很高兴地宣布,Magenta,这个Google Brain团队提出的项目,给我们带来了新的研究方向:使用机器学习是否可以创建令人瞩目的艺术和音乐?如果可以,应该怎么做?如果不可以,又是为什么呢?我们将使用TensorFlow,并且在GitHub上发布开源的模型和工具。同时,还会贴出录音小样、教程博客以及技术报告,而且我们很快就会开始接受来自社区的贡献代码。欢迎加入我们在GitHub上的讨论组,一起来见证 Magenta的成长。

什么是Magenta?

Magenta有两个目标。首先,它是一个旨在促进音乐和艺术创造的研究项目,利用机器智能来推进艺术发展。目前,机器学习已经被广泛地应用于内容理解,例如语音识别和翻译。但是有了Magenta后,我们还可以探索其他的发展算法,学习如何生成艺术和音乐以及尽可能地自己创造引人注目的艺术内容。

其次,Magenta试图建立一个艺术家、程序员和机器学习研究者的共享社区。Magenta的核心团队将围绕着TensorFlow,构建艺术和音乐创造的开源基础设施。我们将在音频及视频支持、MIDI等格式工具使用以及能够帮助艺术家连接到机器学习模型的平台这些基础上展开工作。举个例子,通过Magenta性能模型可以让音乐演奏变得超级简单。

我们不知道艺术家和音乐家们将如何看待这些新工具,但是我们乐于去发现。回顾历史上的创造性工具:Daguerre 和之后的Eastman肯定没有想到Annie LiebovitzRichard Avedon能在摄影上取得如此大的成就;当然,Jimi Hendrix 还有St. Vincent也不会预测到Rickenbacker 以及Gibson的巨大成功。相信在语音识别、翻译和图像标注工作中应用良好的模型,也会为艺术和音乐创作领域带来激动人心的发展。

在项目正式开始之前,一个来自Google Brain team的团队就已经对Magenta展开了研究。如果你是研究员或编码员,你可以查看我们的alpha-version代码。一旦有一套稳定的工具和模型,我们就会邀请外部贡献人员到GitHub上提交代码。如果你是音乐家或艺术家(或是渴望成为其中一员的人——这或许比你想象的要更容易!),希望你能试着使用这些工具制造一些声音、图像或者视频等等,或是任何你喜欢的。

我们的目标是建立一个有合适的人帮忙解决问题的社区。如果Magenta工具对你不起作用,请告诉我们。同时,我们也鼓励你加入我们的讨论列表,为我们描述Magenta是如何运行的。我们也很想知道你对于这个项目的看法——以艺术家、音乐家、研究员、编码员或者是其他未知的身份。你还可以在这个博客上查看一些Magenta帮助创建的音乐和艺术,见证我们的进步。当我们开始接受社区贡献者的代码时,这个博客也将会对这些贡献者的帖子开放,而不只是Google Brain的团队成员。

研究主题

后续,我们将通过一系列的博客教程帖子来更深入地讨论研究目标。现在的话,就做个简要概述,让大家了解我们所探索的方向。

生成

我们的主要目标是设计算法,学习如何生成艺术和音乐。前人在利用神经网络生成图像方面已经做出了很大的努力,例如谷歌A. Mordvintsev等人的DeepDream,还有U. Tübingen公司L. Gatys等人的Neural Style Transfer。目前,这个区域尚且处于起步阶段,所以我们期待着看到它的快速进步。对于那些密切关注机器学习的人,应该很清楚这个进步早已经展开。但仍有许多有趣的问题留待解决:怎样才能真正生成这些模型呢?又该怎样利用好用户反馈?

注意力和惊喜

如果只从学过的内容中提取图片和结果是远远不够的,因为艺术是动态的!艺术家和音乐家将我们的注意力吸引到一件事上,必定是以牺牲掉对另一件事的注意为代价的。随着时间的变化,他们的故事内容也在不断更新——所有的Beatles专辑都一样吗?——所以总有一些惊喜在上演。那么如何在机器学习模型中捕捉譬如注意力和惊喜之类的影响呢?虽然对于这个问题还没有一个完整的回答,但是可以指出一些有趣的模型,例如在Montreal,Xu等人于MILA实验室中提出的Show, Attend and Tell模型,就学着控制注意力的镜头并生成描述句子的图片。

故事描述

这里可能就是我们要面临的最大挑战:有效结合生成、注意力和惊喜来讲述一个令人瞩目的故事。很多机器生成的音乐和艺术都很擅长短篇情节,但缺乏任何形式的长篇叙事内容(诚实地讲,我2002年的音乐生成工作就属于这一类)。此外,一些机器生成的内容虽然有了长篇的结构,但这种结构提供的是TO而不是学过的BY算法。这种情况,举个例子来说,在David Cope非常有趣的EMI(Experiments in Musical Intelligence)中,就利用了一个AI模型来解构人类作曲家的作品,从而发现了这些作品的共性,并在新的作品中再次结合应用。设计能够构建长篇叙事情节的模型,对于音乐和艺术生成甚至于在语言建模等领域都是十分重要的,这也就意味着对于一个长段甚至整个故事而言,仍然是个挑战。其实像Show, Attend and Tell这样的注意力模型更有发展前景,但这仍然还是一个非常具有挑战性的任务。

评估

生成模型的输出评估是非常困难的。但是从Magenta中开源获取20种不同音乐生成模型的时刻马上就要来临了。该如何判断哪些模型更好呢?一种选择是通过测量可能性,来比较模型训练数据的输出。但是对于音乐和艺术来讲,这个方法的作用并不是很好。正如《A note on generative models》(Theis等著)一文中所争论的那样,产生输出越容易,在可能性上就越接近,在吸引力上就越不同(反之亦然)。这也促进了人为对抗上的工作,例如在Montreal,Goodfellow等人就曾经于MILA实验室提出了Generative Adversarial Nets。最后,要回答评估问题,我们需要让艺术家和音乐家们使用Magenta工具,并且将Magenta媒体推到观众和听众眼前。随着Magenta的发展,我们也将致力于研究更好的方法来实现这一目标。

谷歌所做的其他努力

最后,我们想说一下谷歌为Magenta所做的其他努力和资源供给。AMI(Artists and Machine Intelligence)项目和艺术家们联系在一起后,也提出了更多的思考:艺术和技术相互间有什么关系呢?机器智能是什么,机器智能艺术的样子、声音和感觉又是怎样的?欢迎查看更多关于AMI的博客

Google Cultural Institute还利用来自全世界博物馆和档案馆的展览及收藏,形成相关研究。通过在Cultural Institute的实验室,他们可以与艺术家们直接相连。在使TensorFlow /Magenta成为艺术和音乐生成领域最好的机器学习平台之时,我们还会和AMI以及Google Cultural Institute密切合作,将艺术家们与技术相连接。要了解更多关于我们所做的各种努力,一定要查看Google Research Blog

评论