豆包视觉理解模型正式发布,千tokens输入价格比行业价格便宜85%
在12月18日举办的火山引擎Force大会上,字节跳动正式发布豆包视觉理解模型,为企业提供极具性价比的多模态大模型能力。豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。
更加强大,已进化为“六边形战士”
与春季大会时相比,此次火山引擎宣布豆包大模型家族迎来了全面升级。对比5月15日发布以来,豆包通用模型pro在综合能力上提升32%,数学能力提升43%,专业知识提升54%,推理能力提升13%。
而火山引擎公布的豆包大模型的tokens调用量增长也充分说明了其落地的广泛和快速。豆包大模型自发布以来,其日均tokens调用量呈现快速增长的趋势。截至12月15号,豆包大模型日均tokens使用量突破4万亿,自发布以来7个月的时间里增长超过33倍。
豆包也发布了视觉理解模型,它可以被看作是字节跳动豆包大模型家族中的视觉理解专家。作为一款多模态基础模型,它擅长处理复杂视觉任务,如图像识别、物体检测及场景理解,确保对图像信息的全面捕捉与理解。这个模型对视觉内容中呈现的知识、文化背景、状态、情绪、数量、性质、位置等信息有更好的识别能力,可更好地基于指令进行视觉内容识别,并对中国传统文化信息有更强的理解。在教育、旅游、电商购物等多个领域,该模型展现出广泛的应用潜力。
火山引擎总裁谭待
火山引擎总裁谭待表示,豆包视觉理解模型不仅具有高精度识别视觉内容的能力,还展现了出色的理解与推理能力。它能够基于图像信息进行复杂的逻辑运算,胜任诸如分析图表、处理代码以及解答学科问题等多种任务。目前,这一模型已成功接入豆包App及PC端产品中。
此外,在音乐大模型和文生图大模型方面,也实现了大幅度的升级。豆包音乐大模型如今能够根据描述或图片自动生成3分钟,结构完整的音乐作品,并支持10余种不同的风格和情绪的随心选。
升级后的文生图大模型包括一键P图和一键海报两大亮点功能。前者是基于国内率先实现产品化的通用图像编辑模型,文生图模型零样本稳定跟随用户需求编辑图片,同时增强了响应能力和保持能力。它提出了SeedEdit框架,不引入新的参数将图像生成扩散模型转换为图像编辑模型。
后者是基于原生具备文字渲染能力的文生图模型,通过打通LLM和DIT构架,构建高质量文字渲染数据,大幅提升文字生成准确率,尤其是结构更复杂、字符数量更加庞大的中文汉字场景。它具有原生的文字渲染能力,文字与整体画面的融合更为圆融,天生自然。
更易落地,对企业用户更加“亲切”
对于大多数希望接入AI的企业和团体来说,“落地”始终是一个核心痛点,而火山引擎则在各个方面都降低了AI接入和使用的门槛,大大降低了落地难度,对企业用户而言显得更加“亲切”。
例如,AI应用开发平台“扣子”发布1.5升级版本,提供全新的应用开发环境,支持GUI搭建界面,并且可以一键发布为小程序、H5、API等多种应用形态。并且,扣子还增强了多模态能力,通过智能语音OpenAPI,在语音识别和合成方面进行了全面升级,并且与火山引擎视频云的RTC集成,提供了高质量的实时语音通话能力。这使得智能体不仅能够“说话”,还能“交流”,并且可以轻松与各种硬件集成,增强智能体与物理世界的互动。
此外,扣子1.5还推出了模板商店,提供了大量可一键复制的精品模板,进一步降低了构建AI应用的难度。
除了扣子,火山引擎还发布了企业专属AI应用开发平台HiAgent1.5版本,通过多方面能力升级,助力企业敏捷构建AI能力中心。例如,hiagent更懂AI转型,提供100+行业应用模板,让企业开箱即用,并提供配套AI咨询帮助企业找到AI落地路径;同时,HiAgent可以与企业现有系统,如CRM、IM、OA或垂直领域系统集成、打通和交互,可以把企业内部或外部的系统接口、工具等封装为插件,沉淀为企业的插件中心/工具集市场,供各智能体调用并实现智能体和现有业务系统产生交互和集成。
并且,HiAgent提供更强的知识融合能力,通过graphRAG帮助企业打造AI知识助手,让知识检索更精准、知识回答更丰富、知识管理可视化,帮助企业打造自己的AI能力中心并做深做厚。
此外,火山引擎还发布和升级了一系列强大的AI工具和产品,例如,如一站式大模型服务平台火山方舟发布了AI搜推引擎、模型记忆应用产品,火山引擎云基础设施服务打造了以AI负载为中心的AIInfra,从云原生步入到AI云原生,为新AI时代提供计算效率新范式。对于大多数企业用户而言,这些工具和产品的使用门槛更低,价格更低,使用效果也更直观,是开始接入AI的理想选择。
已落地多个行业,取得初步成果
目前,火山引擎的豆包大模型已经在多个行业落地,而获得的反馈和成果都很好。例如在汽车行业,在春季大会上火山引擎联手联盟伙伴成立了“汽车大模型生态联盟”,联盟成员包括多家知名车企和汽车相关企业,希望基于“汽车大模型生态联盟”,围绕汽车大模型应用场景及路径、汽车大模型行业标准、汽车大模型评估体系建设落地,行业白皮书发布等方向为汽车行业创新合作发展带来新模式。如今,火山引擎已经与梅赛德斯奔驰、广汽、上汽、赛力斯和领克等多家企业实现合作,大大提升了智能汽车的AI能力,提升了用户满意度。
在金融行业的数字化转型进程中,大模型技术经过一年的初步尝试与快速发展,正逐步在金融领域实现落地应用。在这一转型过程中,智能体作为一种关键性的连接工具,起到了将复杂模型与实际应用场景有效对接的重要作用,被视为推动金融行业智能化升级的一个重要方向。
火山引擎通过扣子和HiAgent两大智能体开发平台,以及豆包App等生态资源,为华泰证券、国信证券、招商银行等多家金融机构的大模型落地提供了有力支撑。这些金融机构借助火山引擎的技术优势,积极探索智能体的创新应用,推动了自身业务的智能化升级。
以华泰证券为例,其推出的“华泰股市助手”智能体在豆包APP及扣子平台上线后,迅速吸引了大量用户的关注和使用,对话人数持续攀升,显示出智能体在金融领域的应用潜力和市场接受度。招商银行作为业内首家将智能体引入豆包App的金融机构,其高层对智能体的价值给予了高度评价,体现了金融机构对智能化转型的积极态度和前瞻性布局。
此外,国信证券等金融机构也已完成智能体平台的建设,为未来的智能化服务奠定了坚实基础。同时,一些消费金融公司、银行金科企业等中小金融机构也开始利用智能体进行小成本尝试,探索适合自身发展的智能化路径。
火山引擎在教育行业拥抱大模型的尝试中也提供了一些助力,浙江大学、南开大学和同济大学等知名学府的合作,展现了其AI技术在教育领域的应用潜力。
在浙江大学,火山引擎为师生们提供了一个AI“搭子”,通过先进的AI技术,助力教学和科研的智能化升级。这一合作不仅提升了教学资源的整合效率,还为师生们带来了更加个性化的学习体验。
与南开大学的合作更是树立了全国“AI+教育”的新典范。火山引擎助力南开大学打造了国内首个全面融合大模型能力的智慧校园,通过落地一批试点“AI+教育”场景化应用,显著提升了教学质量、科研效率和管理服务水平。双方协同研发的南开大学大模型应用开发平台,更是让使用大语言模型变得简单、易用,为学校的数字化转型注入了强劲动力。
同时,同济大学在5月发布了《人工智能赋能学科创新发展行动计划(2024-2027)》,将在加强人工智能学科建设,系统性推动人工智能赋能学科创新发展,赋能人才培养、科学研究、社会服务、国际合作、数字校园等领域实现全方位高质量发展。基于AI全面赋能"学科专业转型升级"、"教学管评创新应用"、"智慧校园科学决策"的新认识,同济大学与火山引擎达成了合作,通过HiAgent平台构建AI应用服务于师生,同时为同济师生进行AI通识的培养,提供低门槛的智能体平台帮助师生进一步掌握AI相关知识与技能,为“人人学AI”提供了便利的途径。
结语:
AI的出现,正与当年的互联网一样,已经在深刻改变着社会和千行百业,也改变着我们的生活方式。AI大模型如今在各行业的应用和落地还面临着不少挑战,如何将强大的AI以更加平易近人的方式来落地,是所有科技企业需要研讨的问题。而“强大且亲切”的豆包大模型,为我们提供了一种可行的思路。