美图WHEE接入DeepSeek R1,提示词优化可自动补全关键词
2025年3月27日 04:00
近日,美图公司旗下的 AI 素材生成器 WHEE 宣布与 DeepSeek R1满血版成功接入。这一合作旨在将 DeepSeek 的专业提示词设计能力与 WHEE 的易用性相结合,帮助用户在无专业背景的情况下轻松生成高质量的图像内容。用户只需输入简单的词汇,AI 便能一键生成专业提示词,大大降低了使用门槛。在 AI 创作领域,提示词的质量往往直接影响到 AI 输出内容的水平。然而,许多用户在使用过程中常常面临 词不达意 的问题。尤其是对于新手来说,由于缺乏专业知识,他们往往难以设计出符合要求的提示词,导致 AI 的潜力未能得到充分发挥。此次 WHEE 接入 DeepSeek R1,通过提示词优化功能,能够自动补全光影、构图和风格等关键词,从而生成更为丰富和完整的文案内容。WHEE 的相关负责人指出,DeepSeek 的接入不仅是功能上的叠加,更是一个 翻译器 和 灵感孵化器,能通过多种方案的对比来激发创作者的灵感。借助 DeepSeek 强大的语义理解和联想能力,WHEE 希望降低创作者的使用门槛,助力创意的精准落地。据了解,美图公司旗下的多款产品,如美图设计室、开拍、WHEE、MOKI 等均已接入 DeepSeek R1。划重点: WHEE 接入 DeepSeek R1,降低了无专业背景用户的提示词使用门槛。 提示词优化功能可自动补全关键词,生成丰富的文案内容。 行业专家指出,该技术填补了用户创意与专业指令之间的技术鸿沟。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16653亚马逊 Alexa 基金扩展投资范围,青睐人工智能初创企业
2025年3月27日 04:00
亚马逊于2015年成立了 Alexa 基金,最初旨在支持早期语音技术初创企业。随着大型语言模型的崛起以及亚马逊推出基于生成性人工智能的 Alexa+,该基金决定扩展投资范围,更多地关注人工智能初创企业。Alexa 基金负责人保罗伯纳德表示,随着人工智能的迅速发展,基金的使命已经超越了最初的语音技术,开始投资包括人工智能硬件和智能助手等多个领域。伯纳德指出:虽然 Alexa 基金的使命已经随着时间的推移而演变,但人工智能的快速发展为我们提供了一个关键的转折点,使基金能够在服务其原始使命的同时,接受新技术。 他还表示,基金目前正在投资一些推动人工智能硬件、生成媒体、智能助手和新兴人工智能架构的初创企业。目前,Alexa 基金已经投资了四家新兴企业,涵盖了不同的领域:首先是 NinjaTech AI,这是一家全能的人工智能公司,提供一个聊天机器人,能够生成代码、图像和视频,进行深入研究,以及为用户安排会议。该平台与 Quora 的 Poe 等其他 AI 助手平台类似,并利用亚马逊的 AWS 基础设施。其次是 Hedra,一家 AI 媒体公司,用户可以通过其工作室生成图像、音频和视频。Hedra 最近推出了其 Character-3AI,专注于各种形式的内容创作。去年,该公司从 a16z Games Speedrun、Abstract 和 Index Ventures 等投资者那里筹集了1000万美元。第三个是 Ario,这是一款以家庭管理为核心的人工智能应用,旨在处理日常的安排和任务。Ario 开发了学校邮件解码器,能够通过学校的通讯创建事件和待办事项。伯纳德对这款应用赞赏有加,认为它能够理解任务背后的个人背景。最后,HeyBoss 则致力于 氛围编程,让用户仅通过描述便可以创建网站、应用、游戏或原型。该领域还涌现出像 Cursor、Lovable、Replit 和 Bolt.new 等其他初创企业。对亚马逊而言,这些初创企业不仅能够利用其云计算和人工智能技术,同时也为亚马逊提供了一个测试平台。许多初创企业能够优先接触亚马逊的私有 API 和 SDK,并获得高管的支持和与亚马逊商业部门的合作机会。划重点: Alexa 基金扩展投资方向,将重点放在人工智能初创企业上。 已投资四家初创公司,涵盖 AI 硬件、内容生成和家庭管理等领域。 各大公司都在积极资助人工智能领域的初创企业,推动技术创新。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16652英伟达或将收购 Lepton AI,进军服务器租赁市场
2025年3月27日 04:00
近日,有消息称,全球半导体巨头英伟达(Nvidia)正在接近收购初创公司 Lepton AI 的交易,交易金额可能达到数亿美元。Lepton AI 成立于两年前,专注于租赁使用英伟达 AI 芯片的服务器,并将这些服务器租赁给其他企业。根据《信息》(The Information)网站的报道,这笔交易正在紧锣密鼓地进行中,尽管英伟达方面尚未对此进行正式回应。Lepton AI 在2023年5月完成了一轮1100万美元的种子融资,由 CRV 和 Fusion Fund 领投。尽管成立时间不久,但 Lepton AI 已经在市场上建立了一定的知名度,成为了服务器租赁行业的重要参与者之一。与 Lepton AI 类似,另一家同样处于服务器租赁市场的初创公司 Together AI 则在过去的一年里筹集了超过5亿美元的风险投资,显示出这一市场的吸引力和潜力。服务器租赁市场近年来迅速发展,尤其是在 AI 和机器学习需求激增的背景下,越来越多的公司需要强大的计算能力以支持其业务。通过收购 Lepton AI,英伟达不仅可以拓展其产品组合,还能更好地满足客户在 AI 领域的需求。该公司最近还收购了合成数据初创公司 Gretel,这显示出其在 AI 领域持续扩张的决心。英伟达在全球科技行业中的影响力不断增强,其战略布局不仅包括硬件的研发,还涉及到云计算服务的拓展。此次收购如果成行,将使英伟达在服务器租赁市场中占据一席之地,进一步提升其在 AI 产业链中的竞争力。划重点: 英伟达正在接近收购初创公司 Lepton AI,交易金额预计为数亿美元。 Lepton AI 专注于租赁使用英伟达 AI 芯片的服务器,已经在市场上建立了一定的知名度。 此次收购将帮助英伟达拓展其产品组合,增强在 AI 领域的市场竞争力。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16651阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni
2025年3月27日 01:00
3月27日,阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。Qwen2.5-Omni采用了创新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本、图像、音频、视频的跨模态理解,并以流式方式生成文本和自然语音响应。其中,Thinker模块如同大脑,负责处理多模态输入并生成高层语义表征及对应文本内容;Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。此外,该模型还提出了一种新的位置编码技术TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。该模型在实时音视频交互方面表现出色,支持分块输入和即时输出,能够实现完全实时的交互。在语音生成的自然性和稳定性方面,Qwen2.5-Omni超越了许多现有的流式和非流式替代方案。在全模态性能方面,Qwen2.5-Omni在同等规模的单模态模型进行基准测试时,表现出卓越的性能,其音频能力优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。此外,Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。Qwen2.5-Omni在包括图像、音频、音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench中,Qwen2.5-Omni达到了SOTA的表现。在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。目前,Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope和GitHub上开源开放,用户可以通过Demo体验互动功能,或是通过Qwen Chat直接发起语音或视频聊天,沉浸式体验全新的Qwen2.5-Omni模型强大性能。Qwen Chat:https://chat.qwenlm.aiHugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7BModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7BDashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omniGitHub:https://github.com/QwenLM/Qwen2.5-OmniDemo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
信息源:AIBase 来源:https://www.aibase.com/zh/news/16637商汤集团 2024 年财报出炉:生成式 AI 业务收入大幅增长 103%
2025年3月26日 13:00
商汤集团发布了其年度财务报告,展示了公司在过去一年中的经营成果。整体上,商汤集团在 2024 年度实现了 37.7 亿元人民币的收入,同比增加了 10.8%。在这份财报中,生成式 AI 业务的表现尤为亮眼,其收入达到了 24 亿元,年增长率高达 103.1%。这一增长标志着商汤的生成式 AI 业务连续两年实现三位数的增长。根据财报,生成式 AI 业务的收入在公司整体收入中占比显著提升,由 2023 年的 34.8% 上升至 63.7%。这表明商汤在该领域的业务拓展和市场需求持续走强。尽管公司整体收入有所增长,但净亏损为 43.07 亿元,较去年有所缩窄,降幅为 33.7%。毛利则为 16.2 亿元,毛利率为 42.9%。商汤集团的官方发言人指出,日日新大模型的训练与推理成本已经达到了业内领先水平,日日新多模态大模型也继续位列中国大模型的第一梯队。值得关注的是,商汤科技联合创始人及首席科学家王晓刚透露,商汤将在即将到来的 4 月上海车展上发布下一代端到端自动驾驶方案,并将在今年推出日日新大模型 6.0。划重点: 商汤集团 2024 年整体收入达到 37.7 亿元,同比增长 10.8%。 生成式 AI 业务收入达 24 亿元,同比激增 103.1%,占公司整体收入的 63.7%。 商汤计划于 4 月车展发布新一代自动驾驶方案,同时推出日日新大模型 6.0。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16636成都:力争2025年人工智能产业规模达到1300亿元
2025年3月26日 13:00
成都市经济和信息化局近日召开了一场媒体吹风会,发布了《2025年成都市人工智能产业链发展工作要点》。根据计划,成都将积极推进人工智能及机器人产业的发展,力争到2025年实现核心产业规模达到1300亿元,年增速超过30%。这项计划旨在加快成都成为全国人工智能与机器人产业发展的高地。为了实现这一目标,成都将聚焦 AI 三要素,即算力、算法和数据。首先,在算力方面,成都将加快重点数据中心项目的建设,计划将全市的算力规模扩大至20000P。此外,成都还将发放 算力券,并优化其供给机制,以支持企业和项目的发展。在算法领域,成都的目标是培育10个大模型,使其通过国家备案,并计划累计培育不少于80个行业大模型。同时,成都将集中攻关30项核心技术,以提高算法的竞争力和应用效果。数据方面,成都将推进国家数据标注基地的建设,鼓励引育20家数据标注企业,并建设不少于8个高质量的数据集和5个数据要素服务站。这一系列措施的实施,将为人工智能技术的应用奠定坚实的数据基础。划重点: 成都计划到2025年实现人工智能核心产业规模达到1300亿元,年增速超过30%。 重点推动算力、算法和数据三大领域的发展,加快相关基础设施建设。 聚焦70个典型应用场景,涵盖多个行业,以促进人工智能技术的实际应用。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16635蚂蚁集团发布 EnergyTS 大模型 提升新能源预测能力
2025年3月26日 13:00
蚂蚁集团旗下的蚂蚁数科正式推出了一款名为 EnergyTS 的能源电力时序大模型。这款模型的发布被业界视为蚂蚁在人工智能领域的重要布局,尤其是在新能源行业的应用。EnergyTS 能够通过精准的预测功能,帮助企业更好地把握发电量和供需情况,从而优化经营策略,提升运营效率。EnergyTS 是为新能源行业量身定制的,专注于电力领域的时序数据处理。模型充分吸收了新能源行业的专业知识,并结合了多种场景的多模态数据。其优势包括多尺度训练、多模态融合和多任务学习等,同时还具备零样本冷启动的能力,意味着用户可以在不需要额外训练的情况下,实现开箱即用。在实际应用方面,EnergyTS 广泛适用于光伏发电、风力发电、储能、微电网、电力交易和虚拟电厂等多个领域。根据蚂蚁数科提供的数据,EnergyTS 在发电预测方面表现出色。例如,在 T 1 天的预测中,其平均绝对误差(MAE)为 0.0233,相比谷歌的 TimesFM-V2.0 提升了约 22.4%。而在 T 3 天的预测任务中,EnergyTS 的性能更是较谷歌提升了 46.8%,相比亚马逊的 Chronos-Large 则提升了 62.4%。划重点: EnergyTS 是蚂蚁数科推出的新能源电力时序大模型,能精准预测发电量和供需情况。 在发电预测中,EnergyTS 的表现显著优于谷歌和亚马逊的相关模型。 该模型有助于打破欧美企业在能源 AI 技术领域的垄断,提升行业运营效率。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16634雷鸟AR眼镜与通义深度定制大模型联手,交互体验提升显著
2025年3月26日 10:00
在增强现实(AR)眼镜领域,雷鸟创新正在引领一场革命。随着 AI 技术的飞速发展,AR 眼镜正逐渐被认为是未来消费电子的重要载体。而雷鸟创新与阿里云的深度合作,致力于将 AI 与 AR 进行无缝融合,为用户带来更流畅的交互体验。在过去,AR 眼镜虽然能够展示数字与物理世界,但两者之间缺乏有效的交互。而如今,随着 AI 大模型的进步,AR 眼镜不仅能够呈现视觉信息,更能通过 AI 技术实时分析和理解用户所处的环境。这种结合为用户提供了更丰富的应用场景,尤其是在生活助手等方面,提升了便捷性和准确性。图源备注:图片由AI生成,图片授权服务商Midjourney雷鸟创新创始人兼 CEO 李宏伟指出,AR 眼镜将为人类提供与 AI 高度一致的感官能力,从而使 AI 真正成为人类的 外脑。他坚信,未来2-3年内,AI 将推动 AR 眼镜成为最重要的新型硬件,创造下一个 iPhone 时刻。然而,仅仅依靠大模型的通用能力来实现多场景交互还不够。雷鸟与通义的合作着眼于为 AR 眼镜量身定制大模型,以满足特定需求。李宏伟强调,AR 眼镜的用户体验需要足够的准确性和确定性,否则用户难以接受。例如,如果路牌识别的准确率只有50%,用户将会感到不安。为了实现这一目标,雷鸟选择了通义的大模型,因为其在多模态识别方面表现出色,能够处理图像、文字、视频和音频等多种输入形式。用户在使用 AR 眼镜时,只需通过摄像头便能获得对周围环境的实时解读,比如识别未知植物或建筑物。此外,通义模型还具备即时翻译功能,让用户在陌生国度也能自如交流,极大提高了沟通效率。雷鸟创新与通义的合作不仅让 AR 眼镜在多个场景下实现了更好的交互体验,也为未来的消费电子行业开启了新的机遇。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16633蚂蚁数科推出新型能源电力预测模型 EnergyTS,助力新能源行业优化运营
2025年3月26日 10:00
在新能源行业的快速发展中,准确的发电量预测和供需管理显得尤为重要。3月26日,蚂蚁数科发布了全新的能源电力时序大模型 EnergyTS。这一模型的推出,旨在通过高精度的数据分析,帮助企业优化经营策略,提升运营效率。EnergyTS 模型在光伏场景下的表现尤为突出,其发电量预测的准确率超越了谷歌的 TimesFM-V2.0和亚马逊的 Chronos-Large 等业界知名模型。根据评测数据,EnergyTS 在行业评测集中的表现让人眼前一亮,这一优势使其成为新能源领域的一项重要工具。该模型的适用范围广泛,能够有效应用于光伏发电、风力发电、储能系统、微电网、电力交易及虚拟电厂等多个场景。更为便捷的是,企业在使用 EnergyTS 时无需进行额外的训练,直接 开箱即用,大大减少了上手难度。此外,随着全球对可再生能源需求的增加,能源电力领域的技术创新也愈发重要。EnergyTS 不仅帮助企业预测未来的发电量,还能有效分析供需情况,为企业在市场竞争中提供更加科学的数据支持。这意味着,企业在制定经营策略时,能够更好地把握市场脉搏,调整经营方向,最终实现经济效益的最大化。蚂蚁数科的 EnergyTS 模型为新能源行业带来了新的机遇与挑战,通过先进的数据处理能力,助力企业在激烈的市场环境中立于不败之地。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16632知乎首次实现单季度盈利:AI将进一步融入多元化社区场景
2025年3月26日 10:00
近日,知乎正式公布了其2024年第四季度及全年业绩报告。数据显示,知乎全年营收达到36亿元,与去年相比下降了14.3%。然而,在第四季度,知乎实现了显著的业绩突破,营收达到8.6亿元,经调整后的净利润为9710万元,经营利润为2310万元,成功实现了全面盈利。这也是知乎自上市以来,首次在单个季度内实现全面盈利目标。在用户数据方面,知乎的表现同样亮眼。第四季度,知乎的月平均活跃用户(MAUs)数量达到了8140万,月均订阅会员数也攀升至1410万。这一增长不仅反映了知乎在用户规模上的持续扩大,也体现了其社区生态的活跃度和用户粘性的提升。从收入来源看,付费会员服务仍然是知乎的主要盈利点。尽管2024年的付费会员收入较2023年的18.3亿元下降了3.5%,达到17.6亿元,但其在知乎整体营收中的占比仍然显著。这一数据表明,尽管面临一定的市场压力,知乎的付费会员模式仍然具有强大的吸引力和盈利能力。对于这一业绩,知乎创始人、董事长兼CEO周源表示:2024年对知乎而言是一个重要的转折点。我们按照年初制定的战略规划有序执行,并在第四季度成功实现了盈利。我们的社区生态得到了优化,变得更加蓬勃且可信赖,用户指标全年持续向好,创作者活跃度也在不断提升。此外,我们依托优质的内容和强大的可信赖专家网络,持续投资于AI应用,将AI进一步融入多元化社区场景,积极探索AI时代全新的用户交互方式,并快速提升自身的竞争优势。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16631全球首个音乐推理大模型 Mureka O1 震撼上线,AI 音乐创作迈入新纪元
2025年3月26日 10:00
国内科技公司昆仑万维正式推出了全球首个音乐推理大模型 Mureka O1,这款模型的推出标志着 AI 音乐创作技术的一次重大突破。Mureka O1不仅引入了链式思维(CoT)能力,还显著提高了音乐生成的质量与效率,给全球音乐界带来了强烈震撼。Mureka O1是在昆仑万维新升级的音乐生成基础模型 Mureka V6的基础上开发而成,它支持多达10种语言的歌词创作、纯音乐生成和音色克隆等多项功能。这款大模型的诞生意味着,国产 AI 音乐生成产品的功能更加丰富多样,能够满足不同用户的需求。与其前身 Suno V4相比,Mureka O1在主客观评测中表现得相当优异。在主观听感测试中,Mureka O1的人声、背景音乐和混音的质感明显优于 Suno V4,而在配器丰富度、作曲结构以及旋律质量等指标上也有显著提升。同时,Mureka O1生成完整歌曲的速度也比 Suno V4快了一倍,为用户带来了更高效的创作体验。Mureka O1通过引入思考与自我批判的能力,能够在生成过程中加入更具逻辑性和连贯性的元素。这使得 AI 生成的音乐在风格和结构上更符合用户的预期,旋律也更加动听。此外,Mureka V6还首次提供了五种 API 服务,使得开发者能够方便地将其音乐生成能力整合到各自的产品中,实现商业价值。用户在使用 Mureka O1时,可以通过简单的操作生成个性化的音乐作品,甚至不需要提示词,只需选择风格即可。同时,高级模式下,用户可以输入歌词,系统将根据用户的需求生成相应的音乐。这一功能不仅大大简化了音乐创作过程,还提供了丰富的创作自由度。在 Mureka O1的助力下,音乐创作将变得更加高效和多样化,无论是专业的音乐人还是音乐小白,都能轻松享受创作的乐趣。无疑,Mureka O1的发布为 AI 音乐创作开辟了新的方向。体验地址:https://www.mureka.ai/
信息源:AIBase 来源:https://www.aibase.com/zh/news/16630谷歌拆分AI 助手Pixie项目,避免与 Gemini 项目竞争
2025年3月26日 10:00
近日,科技媒体《The Information》报道称,谷歌公司决定拆分其 AI 助手 Pixie 项目,以避免其与全平台通用的 Gemini 项目之间的竞争。根据报道,谷歌 CEO 皮查伊在层的评估后做出了这一调整。拆分后的 Pixie 项目有部分功能被转化为 Pixel 手机的 截图应用,而其余的技术则融入到 Gemini 的多任务处理能力中。据了解,Pixie 项目原本是为了为谷歌即将发布的 Pixel9系列手机开发的全新 AI 助手。该助手基于谷歌自主研发的 Gemini Nano 模型,设计目的是要超越现有的 Google Assistant,实现跨应用任务的高效执行。然而,谷歌在项目推进过程中意识到,Pixie 的功能可能会与 Gemini 产生直接的竞争,因而决定进行拆分和整合。具体来说,拆分后的 Pixel 截图应用将整合部分 Pixie 的能力,以提升用户在本地操作时的体验。用户可以通过这一应用更方便地进行屏幕截图和相关操作,提升了 Pixel 手机的实用性。与此同时,剩余的技术将被用于增强 Gemini 的多任务处理能力,使其在执行复杂任务时更加高效。虽然 Pixie 项目未能按原计划推出,但有消息透露,谷歌或将在未来的 Pixel10中开发一种名为 Pixel Sense 的新工具。根据科技媒体的推测,Pixel Sense 可能会专注于特定场景的功能,而不是作为一个全面的助手。此次拆分与整合,不仅是谷歌内部对项目的重新评估,也反映了其在 AI 领域不断调整战略的决心。面对激烈的市场竞争,谷歌似乎更倾向于将资源集中于能够提升用户体验的核心项目上,以保持其在科技领域的领先地位。
信息源:AIBase 来源:https://www.aibase.com/zh/news/16629