ai大模型

書生通用大模型

書生通用大模型,上海人工智能實验室,開放世界理解、跨模態生成、多模態交互

标签:ai大模型

書生通用大模型官网,上海人工智能實验室,開放世界理解、跨模態生成、多模態交互

書生通用大模型简介

如同人类的“五感”互相連通密不可分,人工智能的視觉、语言、音频等模態间的邊界日漸融合,随着人工智能感知、交互和生成能力的快速發展,多模態大模型正推动人工智能迈进“通感”时代。上海人工智能實验室(上海AI實验室)于近日發布書生通用大模型体系,其中,書生多模態大模型(以下简称“書生·多模態”;InternLMM,Intern Large Multimodal Model)是具備真實世界理解能力,可實现跨模態生成与交互的大模型。書生·多模態包含200亿参數,由80亿海量多模態样本訓练而成,支持350万语義标簽的辨識和理解,覆蓋開放世界常見的类别和概念,在80余种多模態与視觉任務中性能国際领先。

書生通用大模型官网: https://intern-ai.org.cn/home

書生通用大模型

書生通用大模型

主要功能

目前,書生·多模態具備開放世界理解、跨模態生成、多模態交互三大核心能力。

書生通用大模型在多项多模態和視觉任務上达到世界頂尖水平
核心能力一:開放世界理解
在人工智能的研究中,“開放世界”指非预設、非学術集或封闭集定義的真實世界。
传統研究中,人工智能仅能完成预定義任務,即学術集或封闭集定義的任務, 然而这种任務范围与真實的開放世界存在很大差距。例如,ImageNet-1K学術集包含1000种物体,其中約有2种花、48种鸟和21种鱼;而在真實世界中,花鸟鱼的种类數量分别約為45万、1万和2万。
在開放世界中,書生·多模態正透過不斷学習,獲得更接近人类的感知和认知能力。
在语義開放方面,書生·多模態可以辨識和理解開放世界中超过350万种语義,覆蓋日常生活中常見的物体类别、物体动作和光学字符等。書生·多模態完成了从解决预定義任務到执行開放任務的蜕變,為未来多模態AGI模型研究提供了有力的支持。
在任務開放方面,書生·多模態可以將圖像視為一种新的语言,用户可利用自然语言指令,靈活定義和管理任意視觉任務。该大模型同时擁有多种級别的客製化視觉感知、理解和邏輯推理能力,能力范围覆蓋目标對象、输出格式、任務内容等模块。
核心能力二:跨模態生成
透過联合学習,書生·多模態可實现模態间的相互轉换。
研究人员尝試让書生·多模態根据張大千的《湖山清夏圖》創作七言絕句。验證結果表明,經过联合学習,書生·多模態已經具備了較好的由圖像到文本的跨模態生成能力,并且已經擁有了相当深厚的中国文化积累。
生成文本的同时,書生·多模態还给出了創作思路:根据圖片确定描繪的是山水清幽的自然景色画面;从画面中寻找能够表达出詩人思想情感的元素,如山峰高耸、云雾缭繞、松濤入画;根据元素构思出詩句;最后根据詩句的韻律和格律进行完善。書生·多模態还特别描述了第四句的靈感:借鑑了唐代詩人韦庄的名句“春水碧于天,画船聽雨眠”。 
書生通用大模型書生·多模態根据張大千的《湖山清夏圖》創作的七言絕句
核心能力三:多模態交互
書生·多模態繼承在上一代書生在常規预定義視觉任務上性能的同时,还創新了人机交互的方式,用户透過光标点擊、聊天等方式,即可精准传达指令。書生·多模態降低了AI任務的門槛,使AI成為万千大眾都能使用的生產工具。
多模態理解、生成和交互能力正成為大模型新一輪演化的重要方向。面向未来,書生·多模態將持續透過原始創新提升模型能力,透過開源開放賦能創新生態,让大模型更好服務于人。

数据评估

書生通用大模型浏览人数已经达到1,007,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:書生通用大模型的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找書生通用大模型的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于書生通用大模型特别声明

本站ai工具百寶箱提供的書生通用大模型都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由ai工具百寶箱实际控制,在2025年6月5日 下午5:50收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,ai工具百寶箱不承担任何责任。

相关导航

暂无评论

暂无评论...