现场Live震撼!Omagent框架开源强劲!工业应用已经全面开花-人工智能

首页 2024-07-06 14:56:06

第一家提出自动驾驶和研发的公司是 google,巧合的是,它发布了 transformer 模型也为今天大模型的发展奠定了基础。

自动驾驶已经完成了从概念到现实的华丽转变,完全重塑了传统的驾驶模式,而大型模型行业正在经历的传奇旅程正如自动驾驶技术的发展 ——

顶尖的R&D团队竞相投身其中,不断加快技术产品创新的抢跑,以及不断被推向极致的用户体验。

一家企业在大型模型赛道上一直处于领先地位,推动产业边界向前拓展

为什么是联汇科技?

当行业刚刚开始关注大模型时,他们锚定了多模式大模型,并获得了工业和信息化部大模型测试的高分 001 号证书;

去年,当人们关注的时候「百模大战」,他们不仅发布了自我研究 OmModel 多模态大模型 V3 该版本还发布了中国首批由大型模型驱动的独立智能应用程序。

在世界人工智能大会期间,今年,他们再次发布了一系列技术成果,将大型技术产品推向更深更广的应用水平

联汇科技团队具有很强的前瞻性思维,这与他们的首席科学家赵天成博士密切相关。 AI 该领域的顶尖学者 Maxine Eskenazi,在 CMU LTI (卡内基梅隆大学语言技术研究所)完成硕士学位和博士学位的天才少年,不仅可以称之为「AI 名门正派」,更难得的是,更难得的是,赵天成对技术发展和战略规划有着独特的见解。

赵天成博士指出,在 AI 在主导的第四次工业革命浪潮中,自主智能将成为变革的核心变量。在人类第一次接触和掌握创造智慧的奥秘之后,我们将目睹新时代的到来 —— 在这个时代,机器、软件甚至系统将被赋予前所未有的独立决策能力,只能广泛应用于各个工作领域,开启前所未有的效率和创新。

2024 年是智能体的第一年。

我们正处于 L2 等级,并逐渐向 L3、L4 在进步的过程中。

OmAgent 来了!

WAIC 期间,第二代多模态智能体育联汇科技正式发布 OmAgent

去年同期,联汇科技率先发布了国内首批由多模态大模型驱动的自主智能体。因此,今年联汇的第二代多模态智能体 OmAgent 惊喜是什么?

首先是感知模块的新升级。

随着 AI 联汇科技发现,虽然万物感知模型在智能识别和处理方面潜力巨大,但受推理速度瓶颈的限制。与小型模型在推理速度上的优势相比,Idealab 的 G-DINO 和联汇科技 OmDet 速度性能不尽如人意,极大地限制了它们在边缘计算设备中的应用。

最新发布的联汇科技 OmDet V2,全面加速万物感知,万物感知模块从底层重建,推出 EFH 由于一系列模型加速优化技术、语言向量缓存、轻量化特征编码和解码等技术,高性能集成头包括 EFH 与每个环节的机制优化相比, G-DINO 和联汇的第一代感知模型,OmDet V2 每一个环节都实现了 20 速度提高了一倍以上

这种提升意味着 OmDet V2 未来边缘正在打开 AI 全新的可能性与具体的智能。

凭借 OmDet V2 单个推理速度和精确分析能力 GPU 可承载对 500 路视频流的实时万物感知分析是对技术性能的新刷新。同时,这也意味着打开边缘 AI 的可能,OmDet V2 让万物感知模型摆脱云束缚,走向边缘设备,为人形机器人、家庭智能计算中心等前沿应用提供强有力的智能支持。

这一创新不仅重新定义了大模型产品的开发思维,而且为更实时、更安全、更注重隐私的大模型应用环境奠定了基础。

第二是提高思维决策能力

思维是多模态智能主体的核心。只有具备思维能力,智能主体才能根据感知和记忆结果做出决策判断和独立行为,成为真正的助手。然而,现有的多模态思维模式有明显的局限性,如只能基于一张图片进行思考和决策,不能理解和处理多个相关图片。

要解决这个问题,联汇科技新发布了第二代思维大模型 OmChat V2,基于多模态模型原生预训练的生成大模型不仅提供 8B、40B、60B 多个版本适应不同的需求。它可以很好地支持视频、图形混合、文本和其他复杂的输入,完美地适应智能身体决策过程中所需的复杂场景。

OmChat V2 支持高达 512K、50 万的上下文长度相当于视频长度 30 分钟,仅次于 Google Gemin-1.5,并远超 GPT-4o 及微软 LLaVa-1.5。

OmChat V2 在 Mantis-Eval、Q-Bench、MileBench Real、MVBench 平均性能在测试中处于行业前列。

更简单、更直接的说法是,OmChat V2 不仅能看到时序关系,还能看懂多图关系。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 判断时序关系

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?理解多图关系

真正的大模型和智能体技术普惠落地,联汇科技也率先完成了许多国内产品 GPU 通过高效稀疏激活和动态专家方法,提高推理效率 20 倍,Om OS 大模型运行平台也是第一个支持多区域大模型分布式推理平台。异构九头蛇推理可以提高计算能力利用率 3 倍。

在这方面,联汇科技正式解锁了大量的行业应用场景。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?体育自动化解说

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?影视剧内容解构

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 工业智能助手

OmAgent 全面开源框架!

联汇科技在多模态智能体技术上取得了许多突破。赵天成博士一直从更宏观、更长远的角度看待是否开源。

他说:我们选择将军 OmAgent 框架的全面开源是为了鼓励更多的企业和开发者参与,通过知识共享和技术创新构建更开放、更丰富的智能生态,从而推动整个行业的更好发展。

OmAgent 框架不仅包括感知、记忆、决策等综合模块,还集成 OmDet、OmChat 许多不同类型的大型模型能力极大地促进了企业和开发者的应用和开发,促进了智能体技术的发展更深层次,更广领域的赋能。

通过 OmAgent,它可以快速准确地解决各种场景中的复杂问题。例如,一个问题的答案总是从电影和电视剧中找到的。虽然电影没有直接呈现答案,但 OmAgent 我们仍然可以通过对整部电影的整体理解来掌握情节,并根据原电影的内容进行思考和回答。

Step 01

Step 02

Step 03

Step 04

目前,OmAgent 框架已全面开源。

在 WAIC,联汇科技对 OmAgent 完整的现场互动演示。

为使智能体更快地融入日常工作和生活,联汇正式发布 Om 多模式智能体全新产品系列 —— 空间运营智能体,知识服务智能体,为行业用户打造「超级助手」。

智能体的空间操作它是通过相机、拾音器等物联网设备和接入的各种数据源对空间物理环境的全面感知,深入整合大模型思维能力,准确处理和分析多模态数据信息,洞察运营中的关键问题和潜在机遇,结合记忆和学习,实现物理空间的思维、规划和决策,成为用户空间管理的有效助手。

应用范围涵盖线下零售、营业厅、机房、工业园区、文化旅游景点、城市街区等单一空间和连锁环境,实现空间的精细运营和管理。

与现实物理世界空间运营智能体的运营管理相比,知识服务智能体更注重数字世界的管理和数字资产的价值挖掘。

可作为行业定制的人工智能助手,广泛应用于办公、生产、运维、营销、培训、客户服务等场景,通过知识管理、知识检索、知识问答、知识生成等核心能力,将企业、组织和个人在特定领域积累的经验、技术和业务流程转化为结构化行业知识,提高用户决策质量,优化操作流程,最终将无形的知识资产转化为有形的生产力。

2024 无疑将是智能体的第一年,智能体也正成为大模型着陆的最佳途径。

关于未来,赵天成博士透露了他的预判 ——

  • 智能主体的未来不是单打独斗,而是大模型的组合拳,特别是当各种大模型协同作战时,它们可以释放出远远超过单一大语言模型的潜力。

  • 智能主体将打破传统聊天机器人的界限,其应用形式将经历创新,变得更加多样化和深入人类活动的各个方面。

  • 随着边缘 AI 随着大型服务器的兴起,大型服务器将不再局限于大型服务器,它们将走向边缘,嵌入到许多小型设备中,实现真正的无处不在。

以上是现场Live震撼!Omagent框架强势开源!行业应用的详细内容已经全面开花,更多请关注其他相关文章!


p