書生通用大模型官网,上海人工智能實验室,開放世界理解、跨模態生成、多模態交互
書生通用大模型简介
如同人类的“五感”互相連通密不可分,人工智能的視觉、语言、音频等模態间的邊界日漸融合,随着人工智能感知、交互和生成能力的快速發展,多模態大模型正推动人工智能迈进“通感”时代。上海人工智能實验室(上海AI實验室)于近日發布書生通用大模型体系,其中,書生多模態大模型(以下简称“書生·多模態”;InternLMM,Intern Large Multimodal Model)是具備真實世界理解能力,可實现跨模態生成与交互的大模型。書生·多模態包含200亿参數,由80亿海量多模態样本訓练而成,支持350万语義标簽的辨識和理解,覆蓋開放世界常見的类别和概念,在80余种多模態与視觉任務中性能国際领先。
書生通用大模型官网: https://intern-ai.org.cn/home

主要功能
目前,書生·多模態具備開放世界理解、跨模態生成、多模態交互三大核心能力。
在多项多模態和視觉任務上达到世界頂尖水平在人工智能的研究中,“開放世界”指非预設、非学術集或封闭集定義的真實世界。传統研究中,人工智能仅能完成预定義任務,即学術集或封闭集定義的任務, 然而这种任務范围与真實的開放世界存在很大差距。例如,ImageNet-1K学術集包含1000种物体,其中約有2种花、48种鸟和21种鱼;而在真實世界中,花鸟鱼的种类數量分别約為45万、1万和2万。在開放世界中,書生·多模態正透過不斷学習,獲得更接近人类的感知和认知能力。在语義開放方面,書生·多模態可以辨識和理解開放世界中超过350万种语義,覆蓋日常生活中常見的物体类别、物体动作和光学字符等。書生·多模態完成了从解决预定義任務到执行開放任務的蜕變,為未来多模態AGI模型研究提供了有力的支持。在任務開放方面,書生·多模態可以將圖像視為一种新的语言,用户可利用自然语言指令,靈活定義和管理任意視觉任務。该大模型同时擁有多种級别的客製化視觉感知、理解和邏輯推理能力,能力范围覆蓋目标對象、输出格式、任務内容等模块。透過联合学習,書生·多模態可實现模態间的相互轉换。研究人员尝試让書生·多模態根据張大千的《湖山清夏圖》創作七言絕句。验證結果表明,經过联合学習,書生·多模態已經具備了較好的由圖像到文本的跨模態生成能力,并且已經擁有了相当深厚的中国文化积累。生成文本的同时,書生·多模態还给出了創作思路:根据圖片确定描繪的是山水清幽的自然景色画面;从画面中寻找能够表达出詩人思想情感的元素,如山峰高耸、云雾缭繞、松濤入画;根据元素构思出詩句;最后根据詩句的韻律和格律进行完善。書生·多模態还特别描述了第四句的靈感:借鑑了唐代詩人韦庄的名句“春水碧于天,画船聽雨眠”。
書生·多模態根据張大千的《湖山清夏圖》創作的七言絕句書生·多模態繼承在上一代書生在常規预定義視觉任務上性能的同时,还創新了人机交互的方式,用户透過光标点擊、聊天等方式,即可精准传达指令。書生·多模態降低了AI任務的門槛,使AI成為万千大眾都能使用的生產工具。多模態理解、生成和交互能力正成為大模型新一輪演化的重要方向。面向未来,書生·多模態將持續透過原始創新提升模型能力,透過開源開放賦能創新生態,让大模型更好服務于人。