谷歌在搜索、地图和Gemini平台上推出全新度假规划功能,助力用户安排旅行
2025年3月28日 04:00
谷歌近日宣布在其搜索引擎、地图和 Gemini 平台上推出一系列新功能,这些功能旨在帮助用户更加便捷地规划夏季假期。这一消息正值越来越多的用户开始寻求类似 OpenAI 的 ChatGPT 等工具进行旅行规划之际。在谷歌搜索中,AI 概述功能现已增强,用户可以在搜索结果页面的顶部看到信息快照,帮助他们获取特定地区或国家的旅行创意。从本周开始,用户只需输入 为以自然为主题的哥斯达黎加制定行程 等查询,即可浏览相关照片和评论,并查看地点在可扩展地图上的位置。当用户准备保存行程时,可以选择 导出 选项,将推荐内容通过 Docs 或 Gmail 分享,或者将其保存为谷歌地图中的自定义列表。此外,谷歌还将 Gemini 平台的 Gems 功能免费开放给所有用户。Gems 是一种工具,允许用户为 Gemini 内的任何任务创建自定义 AI 专家。这意味着,用户现在可以设置一个旅行规划助手,帮助他们选择旅行目的地和建议行李清单。在酒店方面,谷歌过去一直允许用户跟踪机票降价的通知,而现在也将在酒店方面提供类似功能。用户可以选择所选日期和目的地的酒店价格跟踪选项,设置如星级或海滩访问等筛选条件。如果价格下降,谷歌会通过电子邮件向用户发送通知。此功能将于本周在移动设备和桌面浏览器上全球上线。在地图方面,谷歌也推出了一项新的功能,让用户可以将截图转化为完整的度假计划。很多人在规划假期时,常常会截图保存想要访问的地方,但在相册中容易遗忘这些照片。现在,用户可以允许地图访问他们的照片,应用程序会自动识别截图中提到的地点,方便用户审查和保存感兴趣的地点。这些保存的地点将在地图上显示,用户可以清晰地查看自己的旅行计划。此功能本周将在美国的 iOS 平台上线,Android 版本也将很快推出。划重点: 新功能帮助用户获取旅行创意,方便制定行程。 用户可跟踪酒店价格变动,及时获取降价通知。 地图应用能识别用户截图中的地点,便于整理旅行计划。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16691法国初创企业 Twin 推出 AI 代理,助力 Qonto 客户自动化发票检索
2025年3月28日 04:00
法国初创公司 Twin 在悄然无声中亮相,标志着 AI 代理从理论走向实践。近日,Twin 宣布与金融科技初创公司 Qonto 合作,推出其首款自动化代理产品 发票操作员。Qonto 为超过50万家客户提供企业银行账户服务,每月处理数百万张发票。然而,许多客户在收集和上传发票方面耗费了大量时间。为了解决这一问题,Twin 在过去三个月内开发了发票检索工具。用户只需启动发票操作员,系统会自动获取缺失发票的交易列表。接着,用户会看到需要登录的服务列表,系统会在浏览器窗口中显示代理的操作。当用户需要输入登录凭据时,代理会暂停,待用户输入完毕后,用户只需点击一个按钮,代理便会继续其工作。完成后,发票操作员会自动查找过往交易,下载相关发票,并将 PDF 文件附加到用户的 Qonto 账户中。Twin 的联合创始人兼首席执行官雨果梅西耶(Hugo Mercier)在产品演示中提到,Qonto 需要覆盖数以万计的服务,而这在传统的机器人流程自动化(RPA)中几乎是不可能实现的,因为每个网站都需要定制脚本,并且网站一旦更改,脚本也需要相应调整。相比之下,API 自动化产品如 Zapier 花费了十年时间才支持8000个应用,而 Twin 在几个月内就为其发票操作员支持了成千上万的应用。Twin 的系统背后,运行的是基于 Chromium 的浏览器,利用的是 OpenAI 的计算机使用代理(CUA)模型。Twin 还是15家获得 CUA 测试资格的公司之一。除了发票检索外,Twin 认为其他行业同样可以受益于 B2B 代理应用。例如,代理可以自动管理电商公司的订单、分类市场目录或为呼叫中心代理检索信息。Twin 设想的未来是,AI 代理在多种任务中将变得更加经济、高效和精准。现在,大家都在关注 Twin 是否能将支撑发票操作员的核心代理平台发展成为开发者可在自己应用中使用的产品。划重点: Twin 与 Qonto 合作推出发票操作员,解决客户发票检索难题。 该工具利用 AI 技术,能高效处理数百万张发票。 Twin 未来计划扩展代理应用,服务更多行业。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16690Hakimo 获得 1050 万美元融资,致力于用人工智能重塑物理安全
2025年3月28日 04:00
随着犯罪率的上升,安保团队人手不足以及传统系统带来的误报,企业对于更智能、更可靠的保护需求日益迫切。为了满足这一需求,总部位于加州门罗公园的人工智能安保初创公司 Hakimo 近日宣布完成1050万美元的 A 轮融资,以推动其通过自主、人工智能驱动的监控系统来改造物理安全的使命。此次融资由 Vertex Ventures 和 Zigg Capital 主导,此外,RXR Arden Digital Ventures、Defy.vc 以及 Gokul Rajaram 等也给予了支持。本轮融资后,Hakimo 的总融资额已达到2050万美元。Hakimo 推出了一种首创的 AI 操作员,作为一种自主的安全代理,能够监控摄像头、检测入侵、响应事件,并且甚至能够发出语言警告,功能与人类安保人员类似。然而,与人类不同的是,它不会疲惫,不会漏掉任何画面,并能在几秒钟内做出反应。这种 AI 操作员的核心是结合了计算机视觉和生成性人工智能的强大技术,使其不仅能 看,还能够理解并实时应对复杂场景。当事件升级时,Hakimo 的人机协作系统确保受过训练的安保专业人员能够及时介入处理关键威胁,从而实现机器智能与人类判断的无缝协作。Hakimo 成立于2020年,由两位斯坦福大学的人工智能研究员 Sam Joseph 和 Sagar Honnungar 创办,他们看到了将最新的机器学习进展应用于这一滞后行业的机会。借助硬件成本的下降、监控摄像头的广泛部署以及计算机视觉的突破,他们组建了团队,从根本上重新思考物理安全。Hakimo 的系统能够与现有的 ONVIF 兼容的安全系统直接集成,且无需昂贵的硬件升级,能够在几天内跨多个站点部署。传统的安保方式日益不可持续,安保人员不仅昂贵且难以招聘,还常常无法提供持续的覆盖。Hakimo 的解决方案正是在企业急需实时、可靠且经济的保护服务之时推出。Hakimo 目前已在多个行业获得信任,包括财富500强企业、汽车经销商、建筑工地、企业办公室和自存仓库等。其系统已监控超过500万小时的视频,并在2024年内成功预防了数千起安全事件,协助执法部门逮捕嫌疑人,甚至挽救了生命。Hakimo 的平台设计能够随着客户的需求而不断发展,并且能够同时监控多个站点,与 ServiceNow、Slack 等软件及网络安全 SIEM 工具集成,为物理和数字安全工作流提供统一的界面。随着融资的到位和业务的快速增长,Hakimo 正准备引领组织在物理安全方面的转型,努力实现安全的主动、智能和无缝。划重点: Hakimo 获得1050万美元融资,致力于改造物理安全。 其首创的 AI 操作员能够实现自主监控和即时反应。 Hakimo 的平台设计灵活,已在多个行业赢得超过100个客户信任。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16688Cline现已支持Gemini 2.5 Pro:AI开发迎来新助力
2025年3月28日 01:00
2025 年 3 月 28 日消息,随着人工智能技术的飞速发展,Google DeepMind推出的Gemini 2.5 Pro模型因其卓越的性能和多模态能力备受关注。今日,知名AI开发工具Cline宣布正式支持Gemini 2.5 Pro,为开发者提供了一个免费且强大的选择,进一步推动了AI驱动的编码和调试效率。这一消息在技术社区引发广泛讨论。Cline与Gemini 2.5 Pro的强强联合Cline是一款广受欢迎的AI辅助开发工具,通常集成于VSCode等开发环境中,帮助开发者通过自然语言指令快速生成代码、管理项目甚至调试复杂问题。据最新消息,Cline团队于 3 月 27 日发布更新,新增了对Gemini 2.5 Pro的支持。这一更新不仅丰富了Cline的模型选择,也为用户带来了更高效的开发体验。Gemini 2.5 Pro是Google最新推出的实验性AI模型,被誉为"迄今为止最智能的模型"。它具备高达 100 万个token的上下文窗口(未来将扩展至 200 万个),支持文本、图像、音频、视频等多种模态输入,并在编码、数学、科学等领域的基准测试中表现出色。尤其是在SWE-Bench Verified等代码相关评估中,Gemini 2.5 Pro以63.8%的成绩名列前茅,仅次于Anthropic的Claude 3.7 Sonnet。Cline官方发布了详细说明,介绍了如何在Cline中免费使用Gemini 2.5 Pro。据介绍,用户只需更新Cline至最新版本,并在设置中选择Gemini 2.5 Pro作为模型,即可通过Google AI Studio或OpenRouter等API提供商免费体验其功能。这一举措降低了开发者的使用门槛,尤其是对于需要处理大型代码库或复杂多步任务的用户来说,Gemini 2.5 Pro的长上下文能力和推理能力无疑是一大福音。开发社区的反响消息发布后,开发者社区迅速做出了反应。多位技术专家表示,在Cline上尝试了Gemini 2.5 Pro后,结果令人震撼。他们特别提到:"大型上下文将显著提升构建和调试的效率,相比Claude有过之而无不及。"这反映了Gemini 2.5 Pro在实际应用中的潜力,尤其是在需要处理长文档或多文件项目时。另有开发者指出,Cline的更新已经增加了对Gemini 2.5 Pro的支持,并且目前通过Google Gemini和OpenRouter两种途径均可免费使用。不过,也有评论指出了一个小缺点:"两者目前的速度都有些慢。"这可能与模型的高计算需求或API的实验性阶段有关,但并未削减开发者对其功能的期待。此外,来自日本的技术爱好者也评论道:"Gemini 2.5 Pro实验版现已在Cline系工具中通过OpenRouter可用,真是令人兴奋!"这表明Cline的支持更新已在全球范围内引起关注,尤其是在多语言开发者群体中。Gemini 2.5 Pro的特点与Cline的适配Gemini 2.5 Pro的亮点在于其"思考"能力。与传统模型直接输出答案不同,它能在生成响应前逐步推理,确保结果更准确、更贴合上下文。这种特性在Cline的场景下尤为实用。例如,开发者可以通过Cline上传整个代码仓库,让Gemini 2.5 Pro分析并优化代码,或从单一提示生成完整的应用程序。Cline作为一个自主AI工具,本身就强调高效的代码生成与项目管理。Gemini 2.5 Pro的加入进一步增强了其能力,尤其是在以下几个方面:长上下文处理:无需额外的RAG(检索增强生成)技术,就能一次性处理大型代码库或文档。多模态支持:开发者可以上传图片、音频等非文本内容,与文本提示结合生成更丰富的输出。高级编码能力:从单行提示生成可执行游戏代码,到复杂的Web应用开发,Gemini 2.5 Pro展现了强大的"代理性"编码能力。不过,社区反馈也提到了一些需要优化的地方。例如,有用户反映Cline在与Gemini 2.5 Pro配合时,响应有时过于冗长,甚至可能重复回答。这些问题可能需要在后续版本中进一步调整。如何在Cline中使用Gemini 2.5 Pro根据Cline官方指引,用户可以通过以下步骤免费体验Gemini 2.5 Pro:更新Cline:确保使用的是最新版本(截至 3 月 27 日已包含Gemini 2.5 Pro支持)。选择API提供商:目前支持Google AI Studio和OpenRouter两种免费途径。用户需在对应平台注册并获取API密钥。配置模型:在Cline设置中选择"Gemini 2.5 Pro"(模型ID可能为gemini-2.5-pro-exp-03-25)。开始使用:输入提示或上传文件,即可享受Gemini 2.5 Pro带来的高效开发体验。需要注意的是,由于Gemini 2.5 Pro尚处于实验阶段,其API可能受到速率限制(例如Google AI Studio免费层每天 50 次请求),且响应速度可能因网络或服务器负载而有所波动。对开发者与行业的意义Cline对Gemini 2.5 Pro的支持不仅为个人开发者提供了免费试用的机会,也为AI驱动的软件开发树立了新标杆。相比竞争对手如OpenAI的o3-mini(200K token上下文)或Anthropic的Claude 3.7 Sonnet(200K token上下文),Gemini 2.5 Pro的超大上下文窗口和多模态能力使其在处理复杂任务时更具优势。对于企业而言,这一组合可能带来以下价值:代码生成与维护:快速生成高质量代码,减少手动调试时间。内容处理:分析长篇文档或多媒体素材,提取关键信息。教育与培训:基于内部知识库生成个性化学习内容。尽管如此,Gemini 2.5 Pro的实验性质意味着它仍在不断完善中。Cline团队和Google DeepMind未来可能会通过用户反馈进一步优化模型性能和工具集成。Cline现已支持Gemini 2.5 Pro,这一更新标志着AI开发工具与尖端模型的又一次深度融合。通过免费提供这一功能,Cline不仅降低了开发者接触顶级AI技术的门槛,也为Gemini 2.5 Pro的广泛应用铺平了道路。开发社区的热烈反响表明,这一组合已经在全球开发者中引发了期待与探索热潮。尽管速度问题尚待解决,但Gemini 2.5 Pro的长上下文、多模态和推理能力无疑为AI辅助开发带来了新的可能性。未来,随着Cline和Gemini 2.5 Pro的持续优化,我们有理由期待更多创新应用的诞生。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16676阿里巴巴发布最新视觉推理模型 QVQ-Max
2025年3月28日 01:00
2025 年 3 月 28 日,阿里巴巴旗下的AI研究团队Qwen再次掀起波澜,于凌晨三点正式发布了其最新的视觉推理模型QVQ-Max。这一消息迅速在业界引发热烈讨论,众多科技爱好者和行业专家纷纷表达了对这一全新AI模型的期待与关注。QVQ-Max:视觉与推理的突破性结合根据阿里巴巴Qwen团队的官方公告,QVQ-Max是一款仍在不断进化中的视觉推理模型。作为此前QVQ-72B-Preview的正式升级版,该模型针对传统AI在视觉信息处理上的不足进行了大幅优化。它不仅能够"看懂"图片和视频,还能结合这些多模态信息进行深入的分析与推理,从而提供从数学问题、生活场景到编程任务甚至艺术创作等广泛领域的解决方案。Qwen团队鼓励用户通过Qwen Chat平台体验这一模型。用户只需上传任意图片或视频,提出问题,并点击"Thinking"按钮,即可见证QVQ-Max的推理能力。这一功能的开放性与易用性无疑为开发者与普通用户提供了一个直观了解模型性能的窗口。发布亮点:凌晨上线彰显研发热情QVQ-Max的发布不仅因其技术突破引人注目,其发布时间也成为业内热议的话题。据报道,阿里巴巴团队在深夜三点发布新模型,展现了不懈的研发热情。据技术分析师透露,原本在编写小程序Demo准备休息的开发者们被Qwen团队负责人林老师的消息吸引林老师以"云淡风轻"的语气宣布了新模型的发布。这一细节引发了业界对阿里巴巴AI团队夜以继日研发精神的赞叹。专业技术媒体进一步总结了QVQ-Max的特点,指出其不仅具备视觉理解能力,还能基于此进行多领域的推理分析。公开的测试结果显示,QVQ-Max在处理复杂任务时表现出色,应用场景覆盖广泛,令人耳目一新。技术亮点与行业意义从业内讨论来看,QVQ-Max的推出标志着阿里巴巴在多模态AI领域的又一次重大进展。相比传统语言模型,QVQ-Max在视觉信息的处理与推理能力上迈出了关键一步。这种能力使其在教育、编程、创意设计等领域具备广阔的应用潜力。例如,学生可以通过上传数学题目图片获得详细解题步骤,开发者可以借助模型分析代码相关的视觉内容,而艺术家则可能利用它生成灵感或优化创作。此外,QVQ-Max的发布恰逢阿里巴巴近期在AI领域的密集布局。此前,Qwen团队已推出了多个备受好评的模型,如QwQ-32B和Qwen 2. 5 系列,而此次QVQ-Max的亮相进一步巩固了阿里巴巴在全球AI竞赛中的地位。有分析人士指出,这一模型的问世不仅是技术实力的展示,也反映了中国科技企业在AI研发上的加速步伐。用户体验与未来展望目前,用户已可以通过Qwen Chat平台免费试用QVQ-Max。阿里巴巴表示,这只是该模型演化过程中的一个阶段,未来还将持续优化其性能并扩展功能。初步反馈显示,用户对其推理速度和准确性普遍给予好评,但也有声音期待模型在更复杂的多模态任务中进一步验证其能力。随着QVQ-Max的发布,阿里巴巴不仅为AI社区带来了新的研究方向,也为普通用户提供了更多探索智能技术的机会。在全球AI竞争日益激烈的背景下,这一模型的亮相无疑为行业注入了新的活力。未来,QVQ-Max的表现与发展值得持续关注。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16675快手可灵AI全面焕新升级 上新AI音效、资产管理等新功能
2025年3月28日 01:00
快手旗下的可灵AI平台宣布进行全面焕新升级。此次更新以可灵AI,灵感成真为核心理念,从视觉体系到交互体验进行了全方位的优化,旨在为创作者提供更高效、更便捷的创意素材生产与管理工具。在视觉设计方面,可灵AI采用了极简主义风格,全新的Logo设计简洁而富有现代感,搭配自然的排版和黑白主色调,极大地减少了视觉干扰,让创作者的创意能够更加突出地展现出来。这种简洁的设计语言不仅象征着清晰的创作方向,也体现了AI技术赋能下的无限可能性。在功能上,可灵AI平台也进行了显著的拓展。新增的AI音效功能为创作者的作品注入了更多灵魂,提供了丰富的音频表达方式,让视频内容更加生动有趣。同时,资产管理功能的加入则大大提升了创作者的文件管理效率,优化了创作流程,使得创作者能够更加专注于创意本身,而无需为素材管理耗费过多精力。此次更新不仅是对可灵AI平台的一次技术升级,更是对创作者需求的深度响应。通过这些改进,可灵AI希望能够激发创作者的灵感,让每一个创意都能更轻松地转化为现实中的作品。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16674SplxAI 获 700 万美元融资,助力组织安全部署 Agentic AI
2025年3月27日 10:00
在人工智能(AI)技术迅猛发展的背景下,SplxAI 公司宣布成功获得700万美元的种子融资,由 LAUNCHub Ventures 领投,Rain Capital、Inovo、Runtime Ventures、DNV Ventures 及 South Central Ventures 也参与了投资。此次融资将用于加速 SplxAI 平台的开发与推广,帮助企业确保内部 AI 代理和面向客户的 AI 应用程序的安全性。图源备注:图片由AI生成,图片授权服务商MidjourneySplxAI 是一家专注于 Agentic AI 的攻防安全公司,旨在为安全领导者和 AI 开发者提供有效的安全测试工具。公司的首席执行官兼联合创始人克里斯蒂安坎伯表示,随着 AI 代理的大规模部署,系统复杂性显著增加,潜在的安全漏洞也随之增多。SplxAI 的高级平台能够进行自动化安全测试和动态修复,帮助企业在快速发展的大型语言模型(LLM)环境中,持续监测和保障 AI 系统的安全性。根据预测,到2028年,33% 的企业应用将整合 Agentic AI。伴随着技术的进步,企业面临着新的安全威胁,这些威胁往往难以识别。尽管很多组织为其 AI 系统提供实时保护,但现有的防护措施往往训练不足,导致安全策略过于宽松或严格。SplxAI 平台以其先进的 AI 安全技术著称,能够模拟复杂的攻击场景,自动识别并缓解 AI 代理中的潜在攻击向量。平台覆盖文本、图像和语音等多种形式,借助最全面的攻击数据库,SplxAI 持续更新其威胁信息,以便帮助企业主动保障 AI 应用的安全,降低风险。LAUNCHub Ventures 的合伙人斯坦西拉科夫表示,AI 代理的推广将改变商业格局,但也伴随着滥用的风险。SplxAI 独特的自动化安全测试方案为管理这一风险提供了可行的方法。与传统的人工安全测试或外包服务相比,SplxAI 的自动化测试方案不仅节约成本,而且更为高效。手动风险评估的费用是自动化方案的五倍之多,且耗时较长,容易让企业处于不利地位。SplxAI 的自动化测试系统可以实时识别 AI 应用中的漏洞,从而确保企业安全、合规且高效地进行开发。SplxAI 的创始团队来自 Zscaler 和 Cisco,并汇聚了多位获得国际知名安全竞赛奖项的 AI 红队成员。公司最近推出了一款开创性的开源软件工具 Agentic Radar,旨在通过静态代码分析,绘制 Agentic 工作流中的依赖关系,识别工具和组件,并暴露缺乏安全措施的环节。自2024年8月推出平台以来,SplxAI 实现了127% 的季度增长,目前的客户包括 KPMG、Infobip、Brand Engagement Network 和 Glean 等知名企业。划重点: SplxAI 获得700万美元融资,将加速其 AI 安全平台的开发与推广。 SplxAI 致力于保障企业 AI 应用的安全,采用自动化测试和动态修复措施。 自2024年8月以来,SplxAI 实现了127% 的季度增长,客户包括多个知名公司。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16673阿里通义千问 QwenQ-32B 上线 中科院科研项目大规模接入
2025年3月27日 10:00
近日,阿里巴巴宣布其最新的开源大模型 通义千问 QwenQ-32B,已在多个中科院科研项目中得到广泛应用。这一创新标志着人工智能在科研领域的进一步深入,尤其是在气候变化和水资源管理方面的潜力。中国科学院国家天文台、青藏高原研究所和南海海洋研究所等单位,均已开始利用 QwenQ-32B 进行科研项目。这些项目的核心之一是青藏所推出的全球首个水能粮大模型 洛书,该模型已在青藏高原及相关能源企业进行了测试。洛书模型结合了 思源 科学模型、通义千问推理模型 QwenQ-32B 以及多模态模型 Qwen2.5-VL,旨在精准分析和预测特定区域在不同时间尺度的水量和来源。近年来,青藏高原的气候变暖速度是全球平均值的两倍,导致冰川、湖泊和河流的水量发生显著变化。这样的变化不仅影响水资源的供给,还对能源需求和粮食生产造成不确定性。因此,AI 大模型的引入有助于描绘和预测这些复杂的相互关系,支持水电站等行业做出科学决策。青藏所助理研究员夏萃慧表示,洛书的最终目标是实现产业应用,其推理过程透明且可追溯。这意味着用户能够在短短几秒内,获取特定时间段对水量影响最大的气候变量以及其作用地点,从而有效分析气候变化可能带来的影响。同时,中科院国家天文台也在升级其天文观测助手 星语,将底层模型从 Qwen2.0升级至 QwenQ-32B。通过这一升级,星语能够自动对观测目标进行排序,调度望远镜,并生成数据报告,大幅减少了人工干预的需要。在即将进行的近邻星系巡天项目中,QwenQ-32B 的引入使得天文观测的效率得到了显著提升。此外,基于 QwenQ-32B,星语的科教应用将为全国20万所中小学和众多天文爱好者提供丰富的天文知识内容。QwenQ-32B 模型刚刚发布,体积更小但性能不俗,整体性能可与全球最强开源推理模型相媲美。该模型采用宽松的 Apache2.0协议,全球用户可免费下载和商业使用,这无疑为各界研究人员提供了更为便利的工具。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16672Anthropic 即将发布 Claude 3.7,支持 50 万上下文窗口
2025年3月27日 10:00
Anthropic 公司计划推出新版本的 Claude3.7Sonnet,该版本将支持500,000个上下文窗口,相比当前的200,000个窗口大幅提升。根据 TestingCatalog 的消息,这一扩展功能已经在功能标记中显现出来。此次更新将使用户能够在提示中输入更大容量的内容。尽管有报道称这一功能的具体可用性尚不明确,但社交媒体平台 X 上的多个用户对此表示期待。一位用户表示,500,000个窗口对于编码场景来说将非常棒。 另一位用户也对此兴奋不已,称 这是我听到的最好的消息, 并表示目前的200,000个上下文窗口是 Claude Code 的最大短板。在当前的 AI 模型中,OpenAI 的 o3-mini 和 o1模型同样支持200,000个上下文窗口,而 GPT-4.5的研究预览模型则提供128,000个上下文窗口。与此相比,谷歌的 Gemini2.0Flash 模型已经具备了1,000,000个令牌的上下文窗口,并且新发布的 Gemini2.5Pro 也具有相同能力。此外,谷歌还宣布即将推出2,000,000个上下文窗口的功能。上个月,Anthropic 公司发布了 Claude3.7Sonnet,这是一款具有扩展思维能力的混合模型。根据测评,其在 SWE-bench 的准确率达到了62.3%,而 OpenAI 的 o3-mini(高性能)则为49.3%。独立分析平台 Artificial Analysis 将其评选为最佳的非推理编码模型。除了 Claude3.7Sonnet,Anthropic 还推出了 Claude Code,这是一款可以直接在终端操作的智能编码工具。该工具能够在代码库中修复 bug、解决合并冲突、创建提交和拉取请求,并回答有关架构和逻辑的问题。公司最近还为 Claude 添加了网页搜索功能,这是用户期待已久的特性,目前该功能已在美国的付费用户中进行预览。根据公司的博客,免费用户和其他地区的用户也将很快获得访问权限。用户可以在 Claude 网页应用的设置中启用网页搜索功能,允许聊天机器人在需要时从互联网上提取信息。目前,这一功能仅适用于 Claude3.7Sonnet 版本。划重点: Anthropic 计划推出 Claude3.7Sonnet,支持500,000个上下文窗口,显著提升输入容量。 Claude Code 是一款新的编码工具,能够直接在终端中修复 bug 和处理代码问题。 Claude 新添加的网页搜索功能现已在美国的付费用户中进行预览,将很快开放给更多用户。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16671AI 看图说话 更懂细节!腾讯开源多模态理解技术HaploVL
2025年3月27日 10:00
3月27日,腾讯开源团队宣布推出了一项创新的多模态理解技术HaploVL。这一技术旨在通过单个Transformer架构实现高效的多模态融合,显著提升AI在视觉和语言交互中的表现,特别是在细粒度视觉理解任务上。在人工智能领域,多模态大模型(LMMs)近年来迅速崛起,它们能够实现复杂的视觉-语言对话和交互。然而,现有的多模态模型大多采用视觉编码器 + 大语言模型的组合架构,这种架构虽然有效,但在处理细粒度任务时存在不足。例如,预训练的视觉编码器(如CLIP)可能会忽略图像中的关键细节,如物体颜色或小目标位置,导致模型在某些任务上的表现不佳。此外,现有的统一架构模型(如Fuyu)虽然简化了流程,但需要大量的数据和计算资源来训练,且性能仍落后于组合式模型。HaploVL的出现正是为了解决这些问题。它采用单Transformer架构,通过动态融合文本和视觉信息,让文本嵌入能够捕捉所需的视觉线索,同时显著减少了训练数据的需求。在性能上,HaploVL不仅能够与现有的组合式模型相媲美,还在细粒度视觉理解任务上表现出色。HaploVL的架构设计充满巧思。它通过多模态嵌入层直接对图像和文本进行编码,并在模型前端设置了一个预解码器(视觉知识引擎),用于动态融合图文信息。这一设计类似于雷达,能够扫描图像中的细节,并捕捉图像内部的关联和多图之间的时序关系。后解码器(语言生成引擎)则基于融合后的特征生成自然语言回复,继承了大语言模型的语言能力,能够快速学习多模态关联并生成逻辑连贯的回答。HaploVL的训练方法也颇具创新性。它采用了两阶段训练方法,首先在预训练阶段对模型进行初始化,然后在微调阶段对特定任务进行优化。这种训练方式不仅提高了模型的泛化能力,还减少了对大规模数据集的依赖。在实验中,HaploVL在多项多模态基准测试中展现出优异的性能,尤其是在细粒度视觉理解任务上。例如,在边缘物体感知和推理任务中,HaploVL能够准确识别图像中的高亮区域,并生成与之相关的自然语言描述。这一能力在实际应用中具有重要意义,例如在自动驾驶、智能安防等领域,细粒度视觉理解能够帮助系统更准确地感知环境并做出决策。Code: https://github.com/Tencent/HaploVLMArxiv: https://arxiv.org/abs/2503.14694
信息源:AIBase 来源:https://www.aibase.com/zh/news/16670告别低质信息图!清华、微软联手打造BizGen,一键生成专业级幻灯片和海报,让你的内容瞬间高大上!
2025年3月27日 10:00
还在为制作信息图和幻灯片绞尽脑汁,对着屏幕抓耳挠腮吗?还在被那些文字模糊、排版混乱的高科技生成工具气得想摔电脑吗?别担心,你的救星来了!清华大学、微软研究院等顶尖机构联手推出了一款名为BizGen的秘密武器,它就像一位技艺高超的设计大师,能够根据你提供的文章内容,瞬间变幻出专业水准的信息图和幻灯片,让你的工作效率直接起飞!你可能会疑惑,市面上不是已经有很多文本转图像的工具了吗?没错,但它们大多只能处理一些简单的句子,对于需要承载大量信息的文章级内容,就显得力不从心,生成的图片往往文字不清、布局错乱,简直是车祸现场。你辛辛苦苦写了一篇长文,想用一张精美的信息图来概括重点,结果生成出来的东西连基本的文字都认不全,这难道不是一场噩梦吗?BizGen正是为了解决这个痛点而生的。它瞄准了信息密度极高的商业内容,比如需要清晰呈现大量数据和复杂逻辑的信息图和幻灯片。面对篇幅长、信息量大的文本提示,以及布局复杂、区域众多的设计要求,BizGen展现出了前所未有的实力。这背后的秘密武器是什么呢?首先,BizGen团队打造了一个规模空前的、高质量的商业内容数据集Infographics-650K。这个数据集就像一个巨大的素材库,里面不仅有海量精美的商业信息图和幻灯片,更重要的是,每一份素材都配备了极其精细的布局信息和描述。你可以把它想象成一个拥有65万个设计模板的宝藏,每一个模板都标注了各种元素的精确位置和功能,这为BizGen的学习和理解复杂的商业设计奠定了坚实的基础。要知道,高质量的商业设计数据获取难度极高,需要大量的人力和商业授权。BizGen团队通过创新的数据引擎,巧妙地解决了这个难题。其次,BizGen引入了一项名为布局引导的交叉注意力机制的独门绝技。这项技术就像一位经验丰富的指挥家,能够将长篇文章级的提示分解成无数个针对不同区域的小指令,然后根据预先设定的超高密度布局**,将这些指令精确地注入到图像的不同区域中。这样一来,每个视觉元素和文本区域都能得到精细的控制,避免了传统方法中全局处理导致的混乱和错误。以前的文本转图像模型就像一个粗心的画家,一股脑地将所有文字和图像元素堆砌在一起,而BizGen则像一位细致的工匠,根据设计蓝图,将每一个零部件都精确地安装到位。为了进一步提升生成质量,BizGen还在推理阶段使用了一种布局条件控制生成(layout conditional CFG)的方法。这项技术就像一位苛刻的质检员,能够在生成的每一个子区域中仔细检查,及时修正可能出现的瑕疵,确保最终呈现出完美的作品。那么,BizGen的实际效果如何呢?为了验证其能力,研究团队构建了一个名为BizEval的专业评测基准。实验结果令人惊喜!与目前最先进的模型,如FLUX、SD3和DALL·E3相比,BizGen在视觉文本的准确性和布局的精准控制方面都取得了显著的优势。尤其是在处理包含大量文字图层的信息图时,BizGen的文字拼写准确率远超其他模型。用户研究也表明,用户在排版质量方面更偏爱BizGen生成的结果。更有趣的是,即使是之前在文本渲染方面表现出色的FLUX,在面对BizGen时也显得黯然失色,这可能暗示着FLUX也曾接受过信息图数据的训练。研究还发现,更大的训练数据集、更高的图像分辨率对于提升BizGen的性能至关重要。就像一位经验丰富的老师需要接触更多的案例才能教出更优秀的学生,BizGen也需要在海量高质量的数据中不断学习和提升。而更高的分辨率则能确保即使是细小的文字也能清晰呈现。更令人兴奋的是,BizGen不仅支持十种不同的语言,还能生成多种风格的信息图。这意味着,无论你的目标受众是哪国人,无论你想要哪种设计风格,BizGen都能轻松满足你的需求。此外,BizGen在生成多图层透明信息图方面也展现出了巨大的潜力。总而言之,BizGen的出现,无疑为商业内容生成领域带来了一场革命。它凭借其独特的技术优势和卓越的生成质量,极大地降低了制作专业级信息图和幻灯片的门槛,让每个人都能轻松地将复杂的信息转化为引人入胜的视觉内容。未来你只需要输入一篇文章,BizGen就能自动生成一份精美的演示文稿或一份条理清晰的信息海报,这将会为我们的工作和生活带来多么巨大的便利!让我们共同期待BizGen在未来能够绽放出更加耀眼的光芒!项目地址:https://top.aibase.com/tool/bizgen论文地址:https://arxiv.org/pdf/2503.20672
信息源:AIBase 来源:https://www.aibase.com/zh/news/16669天玑 9400+ 旗舰5G智能体AI芯片定档4月11日
2025年3月27日 10:00
联发科今日正式揭晓,其旗舰级处理器天玑9400+将于4月11日正式亮相。这款被业界视为联发科历史上性能最强的芯片,将在继承天玑9400架构优势的基础上,实现新的突破。天玑9400+的核心配置依然沿用了天玑9400的设计思路,但进行了关键升级。具体而言,它配备了1颗Cortex-X925超大核,其CPU频率提升至3.7GHz,相较于天玑9400的3.62GHz,单核性能得到进一步优化。此外,该处理器还包含3颗Cortex-X4超大核和4颗Cortex-A720大核,共同构成了强大的CPU阵容。在GPU方面,天玑9400+延续了天玑9400的Immortalis-G925MC12配置。联发科方面透露,天玑9400+将继续采用台积电N3E制程工艺。而根据天玑9400在安兔兔跑分中的卓越表现,其总成绩已突破300万分,业界普遍预测,作为加强版的天玑9400+,其跑分成绩有望再创新高,进一步巩固联发科在安卓阵营手机芯片领域的领先地位。值得注意的是,OPPO Find X8s将全球首发搭载天玑9400+处理器,且其发布会时间定于4月10日,比芯片发布会提前一天,这无疑为这款新机增添了更多看点。与此同时,vivo X200s也已确认将搭载该芯片。此外,根据多方爆料,未来还将有更多新机搭载天玑9400+,包括iQOO Neo系列、真我GT系列、一加Ace系列以及REDMI K80Ultra等,这些新机型的推出将进一步丰富消费者的选择。联发科天玑9400+的发布,不仅预示着手机芯片性能的新一轮升级,也将为消费者带来更加流畅、高效的手机使用体验。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16668