Research on the Application of AIGC Technology in the Field of Audio-Visual Creation of Intangible Cultural Heritage Music
一、研究背景:新质生产力遇上百年大变局
习近平总书记提出了新质生产力对文化产业影响的重要性,而人工智能正是新质生产力的典型代表。在这样的思想指引下,深入探讨如何借助AIGC技术赋能传统文化音乐视听创演实践,不仅具有重要的理论价值,更具有不可忽视的现实意义。
环顾全球,世界百年未有之大变局加速演进,文化软实力在国际竞争中扮演着愈发关键的角色。AIGC是一种利用人工智能生成内容(涵盖文本、图像、音频、视频等)的技术,它通过深度学习模型实现自动化内容创作,具有广泛的应用领域,是人工智能领域的重要发展方向。在AI时代,作为文艺工作者,既要加强对AIGC等技术的运用,又要守正创新,传承和弘扬中华优秀传统文化。如何在“守正创新”与“科创融合”之间开辟一条新路,创作出经得起历史和人民检验的真正艺术佳作,是一个值得研究的课题。
二、核心理念:思想引领力的高度决定质量
常常有人会质疑说,运用AIGC模式来创作音乐的音乐专业作曲家,不就是“图省事儿”和“偷懒”吗?
然而事实果真如此吗?其实不然。
AIGC音乐创作是有“段位”的,创作者需要通过技术与美学并重的方式,提升判断力和思想引领力,从而在本质上提高创作“段位”。因此,在AIGC音乐作品创作的过程中,AI辅助创作并不是“图省事”。
在创作构思、创作过程、创作方法等任一环节或各个环节中,需要在先具备人类本体思维、精神、情感的深刻主导基础上,与比人类更成熟、更渊博、更系统的AI“智者”进行沟通,这样,AI会以旁观者、智者的视角,与人类进行互相启发、交流,从而碰撞出真正的创新的火花。
三、当前应用情况概述
1、AIGC音乐视听作品创演情况
通过选取100余个国际非遗文化交流项目样本,可以发现,AIGC音乐视听作品创演已经覆盖了国内外大部分地区。同时,AIGC音乐视听作品正在通过不同类型的媒介和平台进行传播,如:乐团、群众艺术馆、文化机构、电视台、互联网短视频平台等。
经过亲自参与其中的大量项目,顺利参与学术会议、采访、音乐会、电视节目录制等过程,可以感受到:随着AIGC技术的出现,音乐艺术与视觉艺术的创作门槛降低,即使是不了解基本音乐理论和美术知识的普通人也可以创作出基本像样的视听融合作品,新作品的产生出现了急速批量生产的情况。但在新作品涌现基数变大的同时,经得起时间检验的艺术精品的数量也在变小。紧随互联网时代之后出现的AI时代,充分利用了互联网的传播媒介,多数人带着一种体验创作艺术品的心理,以极快的速度创作视听融合作品,并马上在互联网各大平台上发布了作品。
2、非遗音乐传承中AIGC技术的融合度情况
非遗音乐传承中AIGC技术的融合度正在不断增强,在中国艺术家和海内外热爱中华优秀传统文化的艺术家们的共同努力和推动下,昆曲、古琴艺术、蒙古族长调民歌、南音等世界性音乐类非遗在AIGC技术的赋能下,相继焕发新生机,其创新思维与呈现模式呈现出百花齐放之势。其中,上海音乐学院民族音乐系运用AIGC技术,储备了南音、江南丝竹主题的沉浸式场景,不断深挖非遗资源,推进相关语料库的建立,推出《南韵·国色》《国韵崇华》等大型视听融合作品,对该领域的发展起到了重要推动性、示范性作用。
四、AIGC音乐制作软件概况
AIGC音乐制作软件指的是一类借助人工智能生成内容技术,辅助或自动完成音乐创作、编曲、混音等音乐制作流程的软件工具。
市面上常见的Suno、海绵乐队和歌叽歌叽、网易天音、Udio、天工、AIVA (Artificial Intelligence Virtual Artist)等软件各具特色和优势。
相比Suno和Udio这种民用级别的软件,网易天音的灵活性更高,操作难度大,如图1所示,网易天音的AI歌曲创作界面上方有新建、最近、上传等功能按钮,以及试听、节拍(4/4)、速度(77)、调式(G)等设置,还有AI人声(崔瑞 可切换歌手)、AI伴奏(乡野蜂鸣 可切换风格)的相关选项。中部左侧是类似钢琴键盘的音高显示区域,右侧是时间轴,轴上分布着代表歌词发音的矩形块,其中“江”字被红框标注,并有红色箭头指示,表示其创作者可随着红色箭头将单个音符选定进行上拉或下拉调整音高。右侧是歌词编辑区,展示了主歌和副歌部分的歌词,下方有“AI重写歌词”“AI划词辅助”功能按钮。整体是一个集音频参数设置、曲谱编辑、歌词处理于一体的音乐创作界面。总体可见,其“人化”的修改空间极大。
图1. 网易天音的AI歌曲创作界面
相比之下Suno和Udio这种民用级别的软件只需提示词即可完成创作,工作流程简洁,但是修改空间仅限于“音乐分离器”中不同声部与伴奏分离的技术应用,如图2所示。
图2. SUNO的音乐分离器功能界面
当然,Suno也具备网易天音不具备的优势功能:可以通过上传音乐片段让AI模仿音乐风格来进行创作,界面如图3所示。
图3. SUNO的音乐创作中心的音乐模仿参考功能界面
图3是Suno中文站创作中心的界面,处于常规模式下。界面显示可选择是否为纯音乐,有“上传音乐参考(选填)”功能,要求上传6到60秒的mp3/mp4/wav/m4a文件,还能选择歌手性别(随机、男声、女声)以及音乐流派(如流行、韩流音乐、中国风等多种选项)。
对于手上积累创作了很多作品的职业作曲家,该功能具有很大应用价值,原因如下:
(1)激发创作灵感:通过上传作曲家独享版权的作品作为参考,借助平台算法生成类似风格的新的音乐,新的音乐结合了算法平台内音乐数据库的风格,因此可以在风格、手法上为作曲家提供新灵感方向,突破创作瓶颈。
(2)提高创作效率:利用过往作品快速生成相似或不同风格的变体,能够节省从头构思的时间,在短时间内产出更多样化的作品。
(3)拓展音乐风格:AIGC创作平台丰富的音乐流派选项,可帮助作曲家轻松尝试不同风格,拓宽创作边界,满足多样化创作需求和市场要求。
AIGC音乐创作软件的出现,势必对音乐艺术的发展产生冲击,但作为当代音乐艺术工作者,我们不该排斥新技术的诞生,而应思考如何将崭新的技术运用到艺术创作中,以人类强大的思想引领力主导AI,倾心倾力创作出更精彩的作品[1] 。
五、AIGC视觉创作软件概况
AIGC视觉创作软件丰富多样,风格与功能各异,以软件、小程序的载体为主。我们可以将AIGC视觉创作软件分为两大类,一是图片生成软件,二是图片与视频皆可生成的综合性软件。现在,一些强大的生成软件还可以一键生成故事,并创作长达3-5分钟的故事视频。
在上述分类中,第一类图片生成软件主要包括Liblib、奇域等。如图4所示,LiblibAI是一个基于Stable Diffusion开发的AI绘画WebUI项目,主要聚焦于图像生成相关功能,用户可以通过输入文本描述词等方式来生成对应的图片,在图像创作领域,具备训练大模型的强大功能,适用场景广泛,包括动漫与游戏、插画设计、电商设计、建筑及空间设计、3D设计等等。此外,LiblibAI在古风、国潮风格中的生成效果也较好,有助于在视觉上配合非遗音乐创作的视听融合创新。
图4. LiblibAI的主界面
第二类图片与视频皆可生成的综合性软件主要包括可灵、即梦、Runway ML、豆包、AI Mate Pro等。如图5可灵AI视频创作界面所示,除了基础的文生视频、图生视频模式,可灵AI在近期还推出了“多模态编辑”模式。右侧的视频预览窗口中展示着非遗音乐演奏的画面,该画面由豆包AI生成,属于国风中的工笔画风格。视频预览窗口上方有“图生视频”的标签,文案“女人在弹奏古筝,男人在吹奏笛子,四周的墨色荷叶随风摇摆” 是创作者输入的文字提示词。
图5. 可灵AI视频创作界面
六、应用模式创新探究
1、音乐创演
(1)《未来交响·五行》中的“投喂模仿”与人机共创模式:《未来交响·五行》诞生于“AIGC+超媒介叙事”未来媒介创客营,作品是为庆祝中华人民共和国成立75周年和中国科学技术馆新馆建成15周年,以及2024年全国科普日而创作的人机结合古琴协奏曲。该作品是“未来之声-AIGC音乐科技之夜”活动的一部分,活动由中国科学技术馆、中国科学技术大学主办,作品被中国科学技术馆、中国科学技术大学授予“媒介先锋奖”[2] 。
《未来交响·五行》是首部人机跨界共创的古琴与电子交响乐协奏。作品以中国“五行”理念为核心,强调金、木、水、火、土五种元素的相生相克、循环往复。
作品通过多元的创作技术实现人机共创,包括电子音频创作技术(AI作曲、交响乐创作、虚拟乐器演奏音频制作等技术)和古琴音乐创作技术。如图6所示。在电子音频的创作过程中,笔者作为一名作曲者,将自己过往创作好的交响乐音频“投喂”给AI音乐创作大模型,让AI音乐创作大模型学习作曲者的音乐创作风格,并产出数十个片段,接着,在进行挑选后,通过音频剪辑和变形软件进行音频加工。随后笔者写下音乐中的连接段落,并在创作完毕后将其制作成由虚拟乐器演奏的实际音响效果,同时添加代表五行中不同物质的音效,如水滴声、烈火燃烧声、风声、鸟鸣声等。古琴声部是在所有电子音频创作完成后,完全由人类创作。整体而言,作品在音乐创作的每一个环节都在坚持人类思想引领力深刻主导AI的思维,时刻以极高的审美和标准与AI进行对话、调整、加工与再创作,从而达到一定的艺术高度,用心创作出科学与艺术融合的音乐作品,努力让“古琴艺术”这一非物质文化遗产绽放时代新声。
图6. 《未来交响·五行》AIGC创作过程与工程文件局部
(2)《汨罗江吟》中仅通过文字对话与AI交流创作构思:人们总是认为,AIGC技术往往是在编程、软件、声音处理器等等具有一定技术门槛的领域中融合到音乐创作的各个层面,对传统作曲领域的专业创作者来说具有较高的软件技术难度,因此传统作曲领域的专业创作者难以涉足AIGC创作,实则不然。
传统作曲领域的专业创作者依然可以充分借助AI的智慧,辅助和启发自己创作出更好的作品,并且这种借助AI智慧的方式几乎没有任何技术门槛,这种方式就是:仅仅通过文字对话与AI交流创作构思。
笔者以这种通过文字对话与AI交流构思的方式,不断尝试创作二胡新作品。二胡音乐在中国新音乐的历史与文化语境中孕育、发展,走出了一条从乡野到殿堂、从民间到专业的发展轨迹,呈现出从“民间文化”转向“现代文化”的总体路径[3] 。2021年5月24日,二胡艺术(江南孙氏二胡艺术)经中华人民共和国国务院批准列入第五批国家级非物质文化遗产扩展项目名录,项目编号为Ⅱ-184。作为当代音乐创作者,我们有责任通过自身的创作来丰富二胡作品的曲目库,创作出更多优质的作品。
以笔者被中国民族管弦乐学会胡琴专业委员会和中国民族管弦乐学会创作委员会授予“优秀胡琴作品”奖的《汨罗江吟》为例,作品的编制是二胡与钢琴,未使用任何电子声学手段。在创作构思期,笔者先确定了作品的核心思想是“表现屈原对理想的坚持与对国家的深情”,通过一系列极为明确的提示语句,天工AI生成了一份音乐创作分段构思。在这段构思中,笔者汲取了AI生成的段落小标题,同时在AI生成小标题的基础上,对小标题的具体用词和分段顺序进行了修改,最终呈现出的段落是6段,段落名称和段落开头处乐谱如图7所示。
图7. 《汨罗江吟》乐谱中AI辅助构思的小标题
此创作方法值得在传统作曲领域广泛运用,当然,创作者的思想引领力、审美力和创作能力还是占据作品真正艺术价值的约90%-99%,AI仅仅起到启发性作用。
2、视听融合
(1)音乐与多媒体的超现实美学价值:音乐与多媒体的融合对于广大观众来说已经屡见不鲜,那么AIGC视听融合作品真正独特的价值在何处呢?
AIGC生成的视觉形象具有虚拟性,有时会出现不真实性、失真性,在诸多应用场景中,这是一大缺点,但对于艺术创作者来说,我们何不把这一缺点化作优点?或许,我们可以在一些视听融合创作中,适当出现一些超现实美学理念主导的画面。
如图8是《未来交响·五行》在新华网进行直播的一组画面。直播中既有演奏者特写镜头,又有包含多媒体的舞台全局拍摄。从中可以看到,出现了一个现实中难以拍摄和出现的画面:蔚蓝的海浪吞噬了火红的岩浆构成的巨浪,体现了“水克火,但存在动态平衡与双向制约”的理念,五行的相生相克、循环往复体现了自然永恒不息地运转是生命存在的根本基础和力量源泉[4] 。这种视听融合的呈现,在思想上,承载着视觉艺术创作者的哲理构思,在视觉上,又具有超现实主义的美感,成功地把AIGC生成视觉画面的“缺点”变成了“优点”。
图8. 《未来交响·五行》新华网直播掠影与多媒体实况
中国科大科技传播系副研究员、媒介创客空间的周慎老师在接受媒体采访时告诉记者:“《未来交响·五行》是让我大受震撼的节目之一,中国古典音乐和AI创作出的音乐融合,现场的试听效果非常好。这个节目充分展现了人工和智能的完美配合,具有先锋性,所以我们把它作为压轴节目出场。”
又如笔者创作的《古蜀幽梦》也非常适合超现实视觉美学的呈现。古蜀文明给现代人带来了极大的震撼,人们对古蜀文明诸多真相的挖掘仍在不断继续,与此同时,人们对古蜀文明、科技的遐想也不断增强,这些内容对于艺术创作者来说,就具有极大的发挥空间。
古蜀文明拥有吸纳众多外来文化因素,并将它们熔铸为一炉的文化气质,且是多神崇拜的宗教信仰及政教合一的政治体制[5] 。《古蜀幽梦》分为“三星之谜、神树之梦、青铜之光、⾦面祭祀、⽂明之光”五个段落,因为谁也不清楚这五个段落中的具体场景在当时古蜀文明中是什么样子的,所以,在文明、科技、神话交织的选题背景下,超现实主义视觉美学又在此作品中占据了天然的优势。
当然,并不是所有视听融合作品都适合以超现实美学理念为主导,从而实现AIGC视听作品的艺术价值的。《未来交响·五行》《古蜀幽梦》这类作品只是正好具备超现实美学创作的潜质。像一些现实主义的作品和表现重要历史的艺术作品中,艺术创作者一定要另寻创作思维,在尊重历史的前提下进行艺术创作。目前,人工智能还没有办法做到与人类“心意相通”,所以需要学会向人工智能给出正确具体的任务指令,也要明确人机协同过程中的职责边界和伦理规范[6] 。
(2)AI数字主持人提升作品导聆契合度:音乐会中的AI数字主持人与真人主持人拥有显著的差异和优缺点。AI数字主持人的优点在于,其在服装造型上拥有更为灵活的可变性、奇异性,在语言表达方面具有全面性和系统性。其缺点在于,它可能有时与人类的常规思维和传统背离,或是出现AI幻觉。AI数字主持人若没有深刻的人类思想引领力,可能出现语言重复性过多、泛泛而谈、言之无物的情况。
基于深刻了解AI主持人特性的基础上,笔者展开了一系列实践与尝试、查阅和参考了AI春晚等AI数字主持人应用模式,创造了尚音典乐室内乐团非遗创新专场音乐会中的AI数字主持人影像,并用于音乐演出,该主持人人物形象如图9所示。由图中形象可见,AI数字主持人的发色五彩斑斓,极为时髦,在穿着上也呈现五彩绮丽的特点,由这样的主持人形象介绍《未来交响·五行》这个曲目更为贴切和契合。这名AI主持人复制了笔者的面部特征和构造,在演出现场还可以与真人主持人进行碰撞与对话,丰富了演出的观感创意,给予了观众不一样的体验。因此,AI 主持人的加入对真人主持人不是替代而是高质量赋能[7] 。
图9. 尚音典乐室内乐团制作的AI数字主持人影像用于音乐演出
七、应用场景创新探究
1、乡村支教与美育活动
随着DeepSeek、宇树人形机器人的爆火,中小学校园里刮起一股“AI 风”[8] 。在科学技术领域,AI机器人、机器狗、无人机、VR视觉艺术体验已然进入当代中小学生的校园。随着中国手机平价化和互联网系统的高速发展,我们发现,即使是偏远山区的儿童,也有丰富的途径能够不断接触、了解、学习和探索AI技术的应用和发展。
身为艺术创作者,我们发现,在AIGC赋能乡村支教与美育活动中,音乐专业的人士的参与度还有待提高。为此,笔者在国家“双一流”高校建设项目、上海高水平地方高校建设扶持项目、上海音乐学院大学生创新创业孵化基地孵化项目、上海音乐学院优秀学生“音才助飞”计划的支持下,携上海音乐学院尚音典乐室内乐团的创新成果,前往福建永泰山区开展乡村美育公益行。
团队充分发挥专业优势,积极投身乡村艺术美育工作,将AIGC技术创新性地融入乡村艺术美育演出活动之中,在课堂上展示古琴、二胡、古筝、竹笛等非遗音乐的创新魅力。通过与乡村儿童创排作品《诗经·关雎》《饮酒》《中国四季》,笔者引导学生发现中国古诗词中的非遗文化。同时,巧妙结合 AIGC视觉艺术,在福建永泰同安文化活动中心通过视听融合的形式呈现这些作品,被永泰县同安镇人民政府、永泰县嵩口镇人民政府报道。未来笔者将继续进一步扩大乡村艺术美育演出活动的影响力,为乡村文化建设注入新活力。
2、非传统音乐厅的科技类和美术类场馆
在AI时代,科学与人文艺术要携手发展,就必然要开拓传统音乐厅以外的表演场馆,探索更多非传统音乐厅的表演区域。科技馆、博物馆、美术馆在与音乐的碰撞中产生火花的可能性还有待探索。
在上海音乐学院学生(研究生)工作部、学生处和上海音乐学院创业指导站的推荐下,笔者入选“AIGC+超媒介叙事”未来媒介创客营参与培训后创作的《未来交响·五行》正是在非传统音乐厅的科技类场馆——中国科学技术馆内进行演出。在舞台声学效果上,我们发现,通过专业的声音工程师的声响设计,中国科学技术馆的声响效果能够与专业音乐厅相媲美。
如图10三张音乐会海报所示,笔者还曾在北京今日美术馆、上海西岸美术馆、国家会展中心(上海音乐厅“音乐午茶”进驻中国国际进口博览会演出项目)举办个人专场音乐会。在音乐音响上,同样也面临着音响效果方面的问题和挑战。在视听融合创演方面,我们通过与美术馆中的裸眼3D技术、多媒体技术进行融合,不断探索AIGC技术在非遗音乐视听创演领域的应用。
图10. 笔者策划的非传统音乐厅的演出场馆演出海报
3、音乐赋能景区“文旅结合”
文旅融合发展,是当下实现非遗音乐文化保护传承和创新发展的重要途径。AIGC非遗音乐视听创演作品在“文旅结合”场景下的应用实践有待加强研究。
在当下,中国的旅游业蓬勃发展,作为文艺工作者,我们需要意识到:旅游景点的“美”往往是被赋予历史文化价值的。我们暂且以杭州西湖这个景点为例,杭州西湖为何如此著名,仅仅是因为她的美景吗?当然不。在美景的背后,杭州西湖有着诸多的文化底蕴:有白居易笔下的“几处早莺争暖树,谁家新燕啄春泥”,还有苏轼笔下的“水光潋滟晴方好,山色空蒙雨亦奇”,更有杨万里笔下的“毕竟西湖六月中,风光不与四时同。”……
古人在文化艺术领域的创作赋能了景区的“文旅结合”发展,而在当今中国,也出现了许多优秀艺术家创作的优秀作品,正在不断地为景区赋能。同时,我国人民经济基础提升、消费观念转变、更加注重生活品质,人们能够在景区看到文化艺术作品的趋势也在直线上升,也就有更多的应用场景需要符合当地文化特色的AIGC非遗音乐视听作品。
在文旅产业结合的过程中,当地的非遗文化传承者既能够在新时代挖掘非遗文化的时代价值,又能够唤起游客对当地非遗文化的认同。同时,游客给予非遗文化传承者们的正向反馈反过来也增强了非遗文化传承者们的创新动力。最终,能够促使多方齐心协力,共同为非遗艺术焕发时代新声贡献力量、促成文化交流、传承和发展。
为此,笔者携团队与YOUNG剧场达成了合作协议,在豫园商城打造文旅结合演出——AIGC人机共创音乐会《时空交响·国乐新声》,用音乐赋能豫园景区的文化底蕴,用AIGC技术体现当代非遗音乐创新发展的蓬勃生机,如图11所示。
图11. AIGC人机共创音乐会《时空交响·国乐新声》海报
八、总结与展望:与AI(“爱”)同行
目前,随着AIGC技术在非遗音乐视听创演领域的应用程度加强,国家正在出台一系列保护AIGC和人类知识版权的相关政策,这将促使更多的艺术创作者加强人机共创过程中的“思想引领力”。通过人类意识的深刻主导,非遗音乐的传承必将在“守正创新”与“科创融合”之间开辟一条新路。在国家政策的正向引导与人类主观能动性的双重作用下,人类的良知与善良会守护世间的“善”与“美”。
艺术是人类心灵的寄托与港湾,是国家文化软实力的重要载体。未来,我相信在AIGC与音乐科技领域,会有更多的人类与AI(“爱”)同行,不断探索中国非遗音乐视听创演的可能性,加强软件科技的开发应用与人文艺术的融合创新,为中国、为世界带来更多美好的艺术作品。
作 者 / Authors:
冯书雅,奥地利维也纳国际作曲家比赛评委,维也纳世界作曲锦标赛评委,上海交响乐团音乐创作课程导师。创作的AIGC+古琴与电子乐作品《未来交响·五行》被中国科学技术馆、中国科学技术大学授予“媒介先锋奖”。曾荣获全国大学生年度人物、上海大学生年度人物、上海音乐学院萧友梅校长奖。曾在《音乐天地》《世界音乐》《岭南音乐》《书法报》等国内外期刊杂志中发表论文、出版乐谱。曾参与国家艺术基金项目。