网易伏羲官网,ai大模型,虚擬人,机器人,遊戏ai研究實验室
网易伏羲简介
国内專業从事遊戏AI研究的机构,實验室以”創建人工智能与遊戏交叉领域的世界一流實验室”為宗旨,運用人工智能尖端技術為玩家營造新世代的遊戏体验,同时借助遊戏平台的海量資料和仿真環境,推动人工智能技術的發展。
网易伏羲官网: https://fuxi.163.com/

网易伏羲怎么样?
从臨近中国的兔年開始,生成式AI(又称AIGC)的發展可谓“兔”飛猛进。几乎每周都有許多新的訊息和成果發布,更低的門槛和更好的效果不斷冲擊大眾认知,让越来越多的人认知到生成式AI已經成為推进下一輪技術革新的重要动力。同时,也有越来越多的人開始思考一些問题,比如:為什么最好的生成效果不在中国?中国的生成式AI离国外有多遠?要做出最好的生成式AI,除了模型,我们还需要建設哪些東西?网易伏羲作為国内首个專注數字文娛领域的人工智能研究机构,从17年成立之初開始關注生成式AI的發展和落地可能,这些問题在过去的几年内不斷在團队内部被提及、討論,并驱动一系列工作的開展和推进。本文將介绍网易伏羲對这些問题的思考,以及当前的一些进展。自然语言与生成式AI
这一輪生成式AI的爆發,需要从自然语言處理技術的突破說起,17年谷歌提出Transformer架构,使得计算机可以更加高效地进行文本内容知識的学習,从而推动BERT、GPT等一些列大規模文本模型的诞生,从理解和生成的维度都獲得了巨大突破。自然语言處理这門連接人类和计算机交流的基礎学科,也成為驱动包括文本、圖像、音频、影片、三维模型等各个维度生成式AI爆發的核心基座。一方面人们从海量的互联网資料当中整理可以用于生成式AI訓练的資料,另外一方面透過自然语言来對齊各个模態的信息,使得这些知識可以互通。这也可以很好的解釋為什么英文生態的公司和机构在这一輪技術熱潮中更容易占据先机 — 当前規模最大、内容最丰富、质量最高的机器学習语料是由英文构成的。例如文本下遊微调資料,英文领域有像T0-SF,Muffin等大量優质的資料集,圖文领域也有像LAION-2B,MSCOCO等開源資料集。相比于国内,中文领域虽然这两年也有多个相關資料集的建設,如200G悟道文本预訓练資料集,“悟空”1亿圖文對資料集等,但是無論从數量还是质量上来比,与海外的資料还是存在着一定的差距。除此之外,英文生態本身也具備非常明确的先天優势,其包含了大量其他语种不具備的優质的内容。比如說全球最頂尖的学術論文、编程代碼、多个行業领域的規范标准。这些构成了英文的独天得天独厚的優势,也使得基于英文生態的研究方案可以更好的去推动和落地。如何走出資料困境
面對这样的資料困境,国内的研究者和机构又采取了哪些办法?歸結来看大概有4种策略:1、直接用開源模型,走API翻译
这可能是最直接的方案,尤其在圖文生成领域,去年stable diffusion模型開源之后国内有不少創業公司尝試直接基于该模型进行适配訓练和推理生成,同时利用 API的翻译接口將中文的输入轉化成英文實现對中文用户的支持。这条路线的好處是可以快速地將最新的英文生態的工作应用到国内。缺点也非常明顯,一方面是中文翻译可能引起语義的缺失,很多英文这个领域当中常用的說法在中文当中是没有办法很好的表达的,比如說中国的許多成语以及谚语:
海外資料的内容组成也大多由当地的人文地理,生活歷史构成,對于中文的知識缺乏很好的理解,比如說中国的歷史古跡、名人、美食和生活習俗。
第三点也是最核心的一点:已有開源模型數的資料据存在偏見,合規性和安全性都留有風险。舉例說,这些模型在种族問题上不平等,也存在大量裸露、暴力的内容。直接將这些資料模型用于国内的生產,存在着巨大的隐患,所以从年初開始,相關部門對生成式AI的能力构成加大了审核力度。
2、海外資料翻译
这种方案是第一种方案的改进版。具備一定研究能力的机构,会選择將海外資料整理下来之后进行英文到中文的翻译,借助英文資料已有的成果,构建更加可靠的自有模型,目前国内有不少研究机构和企業采取了这条路线。優点是可以繼承英文的丰富的資料生態,同时可以對涉黃、涉政的資料进行系統性筛選。缺点还是存在领域差異,包括對一些特定的中文表述、生態、文化習俗的缺失,以及資料本身还是帶有非常强的偏見,甚至是歧視。即使去除了不合規的資料,这些隐性的問题还是很难解决的。比如“穿旗袍的女孩”,“七夕節日”等等。3、中文資料构建
这是一条相對难走的道路,需要大量前期的积累。資料的整理的工作往往在短期内难以獲得成效,其阶段性价值也难以衡量。但完善的高质量資料的建設,將對生成式AI后期的工作推进帶来可靠的助力。所以在伏羲以往的討論当中,这也被认定為是一条难走却又正确的道路。自建中文資料集的好處在于可以解决中文場景的一系列基礎性問题,弥补模型對中文知識的欠缺,更好的去控制資料安全,从而對資料的合規性进行有效审核。国内目前也有一些做了中文資料构建的这些工作,高质量對齊數量例如coco-cn,資料量級别在十万級别,資料量較少。wukong資料集是目前較大規模的開源圖文資料集,但相比海外的對标資料集目前还是存在一定差距。許多場景之下,相關的研究人员也開始呼吁国内的政府和企業可以推进高质量的中文資料集的共建,我们也看到有許多国内同行開始加入到这个行列。4、多语言兼容
自建資料集虽好,但依然無法解决其他语言優质内容缺乏的問题。所以多语言兼容是目前看起来大規模预訓练模型技術比較切實可行的方案。当然,这个方案目前依旧在验證当中,当前已經有一些相關的工作,透過多语言的方案,將英文場景下圖文理解,文圖生成功能,擴展到其他的语种中,打通了英文体系和其他语种的障碍。在ChatGPT的訓练过程当中,已經体现展现出跨语言的可行性以及潛力。由于有大量的多元資料融合,目前GPT的中文能力已經比許多純中文预訓练模型更加出色。在圖文生成领域,Niji模型的跨语言能力和生成效果都是不错的。伏羲的破境之舉
从生成式AI的整体效果考慮,伏羲選择了一条比較长期的技術路线。在兼容開源資料的同时,又分為4步推进,首先是建設高质量的大規模中文資料集;其次构建中文领域的優质理解模型;然后基于資料集和理解模型重构圖文生成算法,做到语義的有效提升;最后引入專家和人类的反馈引導模型生成用户更加需要的高质量内容。1、建設大規模中文資料
伏羲联合网易多个部門,包括网易雷火、传媒、云音樂等核心業務,从用户和業務维度提供對資料的理解和需求,完成對于優质資料的定義,建設包括文本质量,圖像美觀度,版權合規性以及倫理評估等評价标准。以此框架作為約束共同推进資料构建,同时設计了一套基于分布式任務的資料可信系統,各專家團队各自提供資料质量評审模型,完成共同打分后再交由資料治理引擎統一管理。2、构建中文领域的理解模型
基于伏羲自研千亿文本模型的技術积累,“玉言”系列理解模型先后登頂知名中文榜單FewCLUE和CLUE分类榜單,在CLUE1.1分类任務排行榜(包含AFQMC[文本相似度]、TNEWS[短文本分类]、IFLYTEK[长文本分类]、OCNLI[自然语言推理]、WSC[代词消歧]、CSL[關键词辨識]6个理解任務)上超过人类水平。玉言系列中的百亿生成模型与對话模型已完成開源,理解模型也会在近期開源。在文本理解的基礎之上,伏羲自2021年起着力打造“玉知”多模態圖文理解大模型,采用圖片-文本双塔結构和模块化的訓练思想,基于亿級别的中文圖文資料對,先后迭代了三种規格的模型版本,在中文圖文理解水平上达到業界领先水平,并具有良好的泛化性,在下遊各类任務如分类,检索,推荐等方面表现優異;并且,在圖文模型的预訓练过程中,针對包含不同文本长度的圖文對采用不同的訓练策略,这使得“玉知”模型對语義具有較强的理解能力。同时,利用网易伏羲開源的EET高效推理框架,對模型压缩、算法适配、硬體底層等方面进行優化,使其推理速度提升4倍,滿足了线上的高并發需求,降低了部署資源的損耗。“玉知”多模態理解大模型優于Chinese-CLIP的CN-CLIPViT-H/14
玉知模型也成功在网易的多个業務中得到验證,如网易資訊和网易云音樂的搜索、推荐、智能标注等場景。网易資訊透過圖文大模型构建的圖文内容表征,在推荐環節采用基于该圖文向量的dropoutnet召回優化,對召回源、列表页影片試投、列表页試投整体等效果明顯改进,實现影片和整体大盤的業務指标提升,已在线上業務中落地使用。网易云音樂透過圖文大模型构建的内容表征引擎和内容相似检索引擎,已成功应用于云音樂影片、长音频、广告等多个内容業務,對内容冷启动效率、CTR预估模型等,帶来顯著的线上收益。同时进一步联合華為團队,充分分析互联网行業資料集特性,對多模態模型結构进行優化,優選合适编碼器并采用多阶段訓练模式,共建玉知-悟空模型,进一步构建伏羲在中文跨模態理解领域的领先優势。
3、圖文生成算法重构
在圖文理解预訓练模型的基礎上,伏羲进一步推进自研文圖生成模型——“丹青”的研發,一种语義增强的文圖生成擴散模型。依托于擴散模型的原理,在广泛的(8亿)圖文資料上訓练以达到較好的生成結果。不同于常見的基于擴散模型的文圖生成方法,伏羲自研的模型还具備以下特点:1.模型創新:文圖生成的语義能力,非常强依賴對用户输入文本的表征能力,依托于伏羲自研的”玉知”模型在中文语境下的表征能力,自研生成模型在中文場景下具有的超强语義表征能力。此外,伏羲自研模型还侧重文本与圖片交互的,强化了在文圖引導部分的参數作用,能够让文本更好地引導圖片的生成,因此生成的結果也更加贴近用户意圖。2.圖片多尺度的訓练:在广泛的資料集中,自研模型在充分考慮圖片的不同尺寸和清晰度問题,將不同尺寸和分辨率的圖片进行分桶,从而进行的多尺度訓练。在充分保證訓练圖片訓练的不失真的前提下,保留尽可能多的信息,自研模型能够适应不同分辨率的生成。3.資料策略:多阶段的訓练能够保證模型既具有广泛性,又保證生成結果的质量。初始阶段,使用亿級别的广泛分布的資料,让模型不仅在语義理解上具有广泛性,可以很好的理解一些成语,古文詩句,例如夫妻肺片,名花倾国等等。同时在生成的画風上也具有多样性,可以生成多种風格。在之后的阶段分别从圖文關联度,圖片清晰度,圖片美觀度等多个層面进行資料筛選,以優化生成能力,生成高质量圖片。- 中文場景下超强的语義理解能力:能够充分理解用户的输入,并且返回给用户想要的東西。尤其在成语,俗语,詩句的理解和生成具備一定優势:

- 風格的多样性 & 純正性 :覆蓋的風格广泛,例如年轻人熱愛的二次元,动漫風格,传統的山水国画風格,以及知名画家的特殊風格等:
- 中文場景的领域優势:善于生成中国元素的作品,例如宋代美女,传統佳節等場景:
4、人机协同增强的資料闭環
依賴于机器进行資料筛選,不可避免存在诸多缺陷和不完美。依托于网易伏羲的aop眾包能力,我们从不同角度引入了人工。在訓练阶段,人工从多个维度的評估,筛選出来大批高质量圖文匹配、高美觀度資料,以补足自动流程缺失能力,帮助基礎模型獲得更好的效果。同时,我们在模型的生成阶段,也引入人工的反馈,對模型的语義生成能力和圖片美觀度进行評分,筛選出大批量優质生成的結果,引入模型当做正反馈,實现資料闭環。更好提升了模型的理解能力和生成能力。


后續工作与展望
以上四个维度的建設,使得网易伏羲的圖文生成式AI具備較好的中文理解及美觀度表达能力,在做到与中国用户“心有靈犀”的工作道路上迈出了第一步。生成式AI技術革新的序幕刚刚開始拉起,随着生產力的不斷釋放和新的開源生態建立,在联通算法、資料、算力和人的工作上还有很多事情要做。除了持續優化生成效果,對于AI在將来工作流当中的价值、已有知識產權的保護、AI倫理的規范遵守等一些問题,也需要持續的思考和完善。目前,网易伏羲正在推进中文领域的生成式人工智能平台-“丹青約”的建設,并携手集團内部生態共同参与艺術風格和算法模型的設计和訓练。為行業用户提供高效微调适配、低成本模块化推斷、開源生態快速集成、生成模型定制加速等完整解决方案,為艺術家们提供更加靈活的生產力工具,寻找更新的艺術形態,為推动中文语義理解和科技創新注入新的力量。