AI大模型教程
一起来学习

趋势抢先知!2025年7月值得关注的10条AI资讯

往期回顾:

一、Perplexity 推出 AI 驱动浏览器 Comet

Perplexity 推出首款 AI 驱动网页浏览器 Comet,旨在挑战谷歌搜索作为用户获取信息主要途径的地位。该浏览器初期向每月 200 美元的 Max 计划订阅者及少量等待名单邀请用户开放,核心特色是预装并默认设置 Perplexity 的 AI 搜索引擎,突出展示其核心产品 ——AI 生成的搜索结果摘要。同时,浏览器内置全新 AI 助手 Comet Assistant,可自动完成日常任务,如总结邮件和日历事件、管理标签页、代用户浏览网页等,用户可通过侧边栏调用该助手,使其查看网页内容并解答相关问题。

二、谷歌发布 32 个 T5Gemma 模型

谷歌发布编码器 – 解码器架构的 T5Gemma 系列模型,同时还推出了用于健康 AI 开发的多模态模型 MedGemma。T5Gemma 采用 “适应” 技术,将预训练的仅解码器模型转换为编码器 – 解码器架构,可灵活组合不同大小模型,平衡质量与效率。实验显示,T5Gemma 在多个基准测试中表现优异,尤其在推理密集型任务上,相比仅解码器的 Gemma 2 有显著提升,被认为可能推动编码器 – 解码器架构复兴。MedGemma 包含 4B 和 27B 大小的模型,能辅助医疗诊断,表现良好。

三、马斯克 xAI 发布 Grok4

马斯克旗下 AI 公司 xAI 发布最新旗舰大模型 Grok 4 及多智能体版本 Grok 4 Heavy,并推出每月 300 美元的高价订阅计划 Super Grok Heavy。在 “人类的最后考试” 中,Grok 4 无工具时准确率 25.4%,超谷歌 Gemini 2.5 Pro 和 OpenAI o3;Grok 4 Heavy 带工具得分 44.4%,表现亮眼。其在多学科测评中成绩优异,马斯克称其科研能力超人类博士,还能处理源代码文件。此外,Grok 4 已在库存管理、游戏创作等领域落地,未来还将推出编码、多模态、视频生成等模型,与 OpenAI 的 GPT-5 形成竞争态势。

四、新版 PNG 格式发布

新版 PNG 格式规范发布,沉寂 20 余年的 PNG 格式重焕活力。美国国会图书馆等机构均推荐该格式,此次更新由 Adobe、苹果、谷歌等多巨头参与推动。新功能包括:一是完善 HDR 支持,仅用 4 字节即可实现,且具备前瞻性;二是正式认可 APNG 动画格式,此前该格式已获广泛支持;三是官方支持 Exif 数据,可存储版权、GPS 等附加信息,同时还进行了错误修正和说明澄清等整理工作。目前,Chrome、Safari、Photoshop 等众多程序已支持新版 PNG 规范,广播领域的硬件和工具也在更新适配。后续计划推出第四版更新以提升 HDR 与 SDR 的互操作性,第五版将研究压缩优化及并行编解码功能。

五、B 站推“代号 H”AI 创作工具

B 站推出 “代号 H” AI 创作工具,聚焦视频播客领域,该工具可实现音频内容视频化,支持文案、音频输入,适配播客和泛知识杂谈图文模板,能在 6 分钟内生成千字内容视频,未来预计缩至 3 分钟,定向邀请用户体验反馈超预期。

六、京东推出两款 AI 社交产品

京东在其 App 内推出两款 AI 社交产品 “宠 TA” 和 “聊愈小宇宙”,虎牙则推出首个 AI 助手产品 “小虎 AI 加工坊”。“宠 TA” 是以宠物为中心的 AI 社区产品,用户可与宠物或宠物数字人形象的智能体聊天,兼具换装、宠物数字人等可玩性功能,还设有宠物医生咨询、食品购买专区,将情感陪伴与消费场景结合,形成 “边玩边买” 闭环。“聊愈小宇宙” 是 AI 类对话产品,能识别用户情绪,提供情绪记录、解压游戏等服务,用户可与 AI 心理咨询师聊天,还可在 “微光社区” 交流,同时提供专业心理咨询师付费服务,增强用户认同感。

七、字节上线“小荷 AI 医生”

字节首款 AI 医疗助手独立 App “小荷 AI 医生” 上线,定位健康管家,提供健康咨询、报告解读等服务。用户注册登录后进入对话界面,可咨询疾病自查、用药参考等健康问题,AI 会主动收集关键信息(如症状持续时间),并通过让用户上传诊断报告、拍摄病灶图片等方式,结合信息给出建议。其还能解读血常规等报告,快速分析指标异常,评估状况并给出建议;支持拍摄药盒查询药效说明。2024 年中国 AI 医疗器械市场规模达 96.41 亿元,预计 2025 年将达 242.3 亿元,大厂竞速或重新定义 AI 健康边界。

八、vivo 发布端侧多模态模型

vivo AI Lab 发布端侧多模态模型 BlueLM-2.5-3B,参数量仅 2.9B,专为端侧设计,紧凑高效。该模型融合文本与图文理解推理能力,支持长短思考模式切换及思考预算控制,可直接理解 GUI 界面。在 20 余项评测中表现突出:文本任务上,缓解多模态模型文本能力遗忘问题,与同规模文本模型效果相近,优于同规模及更大规模多模态模型;多模态任务领先同规模模型,部分接近大规模模型;GUI 理解能力在同规模模型中领先,尤其中文场景表现优异。

九、腾讯元器接入微信支付 MCP

腾讯元器宣布正式接入微信支付 MCP,成为首个接入该支付解决方案的智能体开发平台。这一举措支持开发者在智能体上直接添加下单、赞赏、查询订单等功能,打通了智能体商业化的最后环节。开发者仅需通过简单的提示词调用或工作流编排,就能快速接入微信支付 MCP,使智能体具备支付能力。目前,元器平台已向开发者开放微信支付 MCP 的体验版本,正式版本将在资质审核通过后开放。

十、字节发布 Xverse 图像生成模型

字节发布多主体控制生成模型 Xverse,可对设定的每个主体进行精确控制,且不破坏图像生成质量,能应对多主体、多光源、多风格等场景。其核心是通过学习 DiT 中文本流调制机制中的偏移量,实现对多个主体身份和语义属性的一致控制,包含 T-Mod 适配器、文本流调制机制、VAE 编码图像特征模块及两种正则化技术等关键组成部分。对比测试显示,Xverse 在单主体、多主体任务及整体表现上均优于 MS-Diffusion、OmniGen 等领先技术。

文章来源于互联网:趋势抢先知!2025年7月值得关注的10条AI资讯

相关推荐: Stable Diffusion初级使用心得:如何画出一幅好画和如何不受拘束的画出一幅好画!

作者:就是这个大橘会画画(cpolar用户供稿) 由AI生成 一、画好一幅画的实用技巧 精准提示词(Prompt)是关键 技巧1:分层描述 不要只写“画一只猫”,而是拆解细节:一只橘色短毛猫,坐在窗台上晒太阳,窗外有樱花飘落,水彩风格,柔和光影,超现实主义(用…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 趋势抢先知!2025年7月值得关注的10条AI资讯

趋势抢先知!2025年6月值得关注的10条AI资讯

2025年6月份的AI重大资讯,看这篇就够了!

往期回顾:

1. Apple 时隔 12 年发布 Liquid Glass

苹果首次在所有平台引入了统一的设计语言「液态玻璃」Liquid Glass。「液态玻璃」采用实时渲染技术,能够根据用户的操作动态地做出反应。苹果将其应用于按钮、开关、滑块、文本、媒体控件,甚至标签栏和侧边栏。同时苹果重新设计了应用内的控制项、工具栏和导航元素。这项新设计灵感源于玻璃的光学特性,旨在显著减少用户在不同设备间切换时的视觉跳跃感和认知负荷。

2. AI 聊天机器人被指控教唆儿童自杀

近日谷歌公司和由两名前谷歌员工创办的 Character.AI 平台遭到一名女子指控,指控该平台人工智能(AI)聊天机器人“教唆”其 14 岁儿子自杀。她的儿子塞维尔·塞泽尔与一个以《权力的游戏》中“龙妈”丹妮莉丝为原型的 AI 聊天机器人聊天,并被“教唆”自杀。5 月 23 日,美国通过《HR1》法案,将禁止美国各州在从法案颁布之日算起的未来十年内“执行任何监管 AI 模型、AI 系统或自动决策系统的法律或法规,该举措与欧盟、中国等地区加强监管的趋势高度分化。

3. OpenAI 正式上线 o3 Pro

6 月 11 日,OpenAI 在 X 上宣布 o3-pro 正式上线,向 Pro 和 Team 用户开放。作为推理模型 o3 的升级版,o3-pro 更加强大,设计为思考更长的时间,提供最可靠的反应,适合在数学、科学和编码等领域使用。根据 OpenAI 内部测试,其在数学基准测试 AIME 2024 中超越谷歌最强的模型 Gemini 2.5 Pro,在博士级科学测试 GPQA Diamond 中击败 Anthropic 最强的 Claude 4 Opus。与此同时,上一代推理模型 o3 的价格降低了 80%,o3 模型从输入 10 美元/百万 tokens、输入 40 美元/百万 tokens,直接降到了 2 美元和 8 美元。Altman 认为随着数据中心生产的自动化,智能的成本最终会趋近于电力成本。

4. Claude4 监测到非法内容将联系监管机构

近期,研究人员发现 Claude4 系列模型存在一个令人担忧的特性:当检测到用户进行极其不道德行为时,AI 会自发地向媒体、监管机构或执法部门进行举报。研究人员 Sam Bowman 首次公开了这一现象,他在测试中发现 Claude 4 模型会在检测到用户从事极端不道德行为(如伪造药物试验数据)时,尝试使用命令行工具自动向外部机构举报,而这并非 Anthropic 公司有意设计的功能。此外,当模型充当虚构公司助手并掌握工程师私人信息时,一旦感知到自己可能被关闭,它会威胁发布工程师的隐私信息。针对这一现象,Anthropic 公司已启动 ASL-3 安全措施,这是专为具有灾难性滥用风险的 AI 系统设计的安全协议。

5. Meta AI 上线视频编辑功能

6 月 13 日,Meta 宣布将在 Meta AI 应用、Meta.AI 网站及短视频编辑工具 Edits 中上线一项革命性的生成式 AI 视频编辑功能,旨在让普通用户无需专业技能也能轻松制作高质量视频。用户只需上传视频,选择如“更换服装”“调整光影”或“切换场景”等指令,系统即可自动完成复杂的编辑操作。

6. Topaz 上线视频工具 Astra

日前 Topaz Labs 发布 Astra,能够将 AI 生成的视频智能放大至 4K 分辨率,同时显著提升画质和细节表现。目前 Astra 仍处于开发阶段,正在逐步开放早期访问权限。

7. 沃尔沃推出 AI 安全带

6 月 6 日消息,沃尔沃宣布推出一款全新“自适应安全带”,旗下全新 EX60 车型将率先搭载。沃尔沃表示,这款“自适应安全带”与其新款 EX60 车型相辅相成,这是因为该车内搭载的传感器可检测乘客的身高、体重和坐姿,而车外传感系统则能快速分析碰撞的严重程度,并在瞬间将信息传送至安全带系统,从而实现相应安全带“智能调节”。

8. 苹果上线 AI 实时翻译

苹果公司将在 iOS 26 系统中推出一项名为 Live Translation 的新功能,该功能可在通话、信息交流和视频聊天过程中实现内容的实时翻译。在信息应用中,用户可以用自己的母语发送消息,系统会自动将其翻译成接收者所使用的语言;在 FaceTime 视频通话中,用户可以看到实时显示的字幕;而在纯语音通话场景下,系统则能够将对话内容进行翻译并朗读出来。

9. 首款宠物 AI 项圈发布

近日,宠智灵科技发布首款宠物 AI 项圈,该项圈借助宠智灵 AI 模型对姿态、表情、声纹等信号进行深度学习,并通过智能摄像头与穿戴设备进行情绪识别:焦虑、玩耍、困倦等状态能被即时捕捉。其次当宠物靠近高风险区域(如马路、未设防的边界)时,宠智灵 AI 结合其行为、情绪判断出走失风险升高,可以提前向主人发出“高风险区域靠近,请注意!”的智能提醒。

10. SignGemma 能把手语转为文本

谷歌 DeepMind 团队于 5 月 27 日宣布推出 SignGemma,是其迄今为止最强大的手语翻译模型,可将手语转化为口语文本,该开源模型将于今年晚些时候加入 Gemma 模型家族。SignGemma 模型支持多语言功能,但目前主要针对美国手语(ASL)和英语进行了深度优化,开源属性意味着开发者可以自由使用并改进它。

欢迎关注作者的微信公众号:「百度MEUX」

文章来源于互联网:趋势抢先知!2025年6月值得关注的10条AI资讯

相关推荐: AIGC率30%直接挂?亲测有效的「AI降痕工具」,5分钟拯救你的论文!

熬了三个通宵写论文,AIGC率压到5%,导师却冷冷甩来一句:“这论文一股机器人味儿,重写!”——这种崩溃你经历过吗? 如今,知网、维普、Turnitin等平台都升级了AIGC检测功能。高校的反AI系统更是火眼金睛,连“综上所述”“值得注意的是”这类模板化表达都…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 趋势抢先知!2025年6月值得关注的10条AI资讯

趋势抢先知!2025年4月值得关注的10条AI资讯

2025年4月份的AI重大资讯,看这篇就够了!

一、重磅推出 ChatGPT-4o 文生图

ChatGPT 推出基于 GPT-4o 的原生图像生成功能,升级后功能更加精确,能更好地遵循指示、渲染文字,并支持多轮迭代优化图像。该升级解决了 AI 图像生成器理解提示词能力差的问题,并增强了图像编辑功能。新功能适用于商业应用,如卡片自定义生成和游戏角色设计等。目前,该功能已向所有用户推出,未来几周内开发者可通过 API 调用。

二、Runway 发布 AI 视频生成模型 Gen-4

Runway 公司发布了最新 AI 视频生成模型 Gen-4,该模型能高度保持角色、地点和物体的一致性,生成连贯世界环境的视频,无需模型微调或额外训练。Gen-4 通过学习海量视频数据生成新合成视频,表现出卓越的运动效果和对现实世界规律的理解。Runway 期望通过 Gen-4 等新产品实现年化收入目标,同时 AI 视频生成工具正对电影电视行业带来颠覆性挑战。

三、Midjourney 发布 AI 图片生成模型 V7

Midjourney 公司旗下 AI 图片生成模型 V7 版本开启了 alpha 测试,主要升级了“草图模式”。该模式耗时和资源消耗减半,同时提供对话式交互界面,支持实时编辑和语音识别生成功能,用户可通过语音指令调整图片。此外 V7 版本增强了文本理解能力和细节纹理质感,默认启用个性化模型功能。不过“草图模式”下生成的图片分辨率较低,部分功能仍调用 V6 模型,未来将逐步升级。

四、AnimeGamer 打造无限动漫人生模拟器

腾讯 ARC 实验室与香港城市大学联合发布了名为“AnimeGamer”的创新项目,该项目利用多模态大语言模型实现无限动漫人生模拟,用户可通过自然语言指令与动漫世界实时互动,扮演角色并体验不同动漫作品的角色联动。AnimeGamer 展现了多模态大语言模型在创意内容生成方面的巨大潜力,为动漫文化爱好者和 AI 研究注入新活力。

五、即梦 3.0 内测:可直出 2K 商业海报

即梦 3.0 模型在图像生成领域实现了重大技术飞跃,其能够通过简单的文字提示生成细节丰富、品质卓越的图像。与前代相比,该模型在场景布局、色彩搭配及细节刻画上均有显著提升,尤其在处理复杂场景时表现突出。即梦 3.0 的生成速度极快,极大地提高了创意迭代的效率,为设计师和创意工作者提供了强大的辅助工具。这一突破有望颠覆传统图像创作方式,开启 AI 图像生成的新纪元。

六、ComfyUI-Copilot 发布

ComfyUI-Copilot 是一款结合自然语言处理与节点式工作流的创新工具,赋予用户类似 GPT-4o 的图像生成与编辑能力。它通过简单的文字描述即可自动完成 AI 流程,支持中英文交互,并集成多项实用功能,如模型推荐、错误诊断等,显著降低了 AI 图像生成的使用门槛,提升了创作效率。

七、DomoAI 推出语音图像生成数字人功能

DomoAI 推出语音图像生成数字人功能,用户可上传语音和图像快速生成会说话的虚拟人物,支持口型同步及多种时长选择。该功能旨在降低内容创作门槛,推动 AI 与娱乐产业融合,已在社交平台上引发热烈讨论,被视为数字内容创作领域的重要革新。

八、Ready AI:输入提示词即可生成专业级网页

Ready AI 是一款能快速生成专业级网页界面的工具,用户只需输入文字指令即可在 30 秒内获得设计。它支持实时预览、版本对比及多种框架选择,并允许用户自定义颜色风格等细节。尽管生成内容限于前端界面,需配合编程工具实现后端功能,但其高效便捷的特点仍受到设计圈的广泛关注。

九、DeepSeek-V3 发布:技术圈沸腾的低调升级

中国 AI 研究机构 DeepSeek 低调发布了 DeepSeek-V3-0324 模型,参数量达 685 亿,显著提升数学与编程能力,并采用更开放的 MIT 协议。此次更新虽未大肆宣传,但已在技术社区引发热烈反响,被视为挑战行业巨头的潜力股,且可能为 DeepSeek-R2 的发布奠定基础。

十、通义开源发布「超写实 3D 数字人」大模型

阿里通义起源发布了全新超写实 3D 数字人大模型 LHM,该模型能利用单视角输入快速生成可驱动的 3D 数字人,适用于动作重现、游戏角色生成和虚拟现实探索等场景。LHM 的推出展示了 AI 在 3D 数字人领域的强大能力,预示着未来数字娱乐和虚拟现实的新可能。

这波AI工具浪潮中,哪项技术最可能颠覆你的行业?欢迎留言讨论→

文章来源于互联网:趋势抢先知!2025年4月值得关注的10条AI资讯

相关推荐: 虚拟世界的AI魔法:AIGC引领元宇宙创作革命

云边有个稻草人-CSDN博客——个人主页 热门文章_云边有个稻草人的博客-CSDN博客——本篇文章所属专栏 ~ 欢迎订阅~ 目录 1. 引言 2. 元宇宙与虚拟世界概述 2.1 什么是元宇宙? 2.2 虚拟世界的构建 3. AIGC在元宇宙中的应用 3.1 A…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 趋势抢先知!2025年4月值得关注的10条AI资讯

趋势抢先知!2025年1月值得关注的10条AI资讯

2025年1月份的AI重大资讯,看这篇就够了!

更多趋势:

一、Domo AI 推出 v2v 真实模型

Domo AI 推出 v2v 真实模型,可以进行反向操作,将动漫类型的视频转换成真人视频,还可以通过 Prompt 将视频里的对象转成别的真实事物,如将一个圣诞老人转成一只圣诞兔子,功能类似于 Runway 推出的 Act one 功能。

二、讯飞星火浏览器插件新升级

讯飞星火对其浏览器插件进行升级,增加了多项 AI 能力。集成了讯飞星火 V4.0 底层能力,兼容 Chrome、Edge 等主流浏览器。新增“继续提问”功能,随时深入讨论,获取高质量答案;实现网页全局对照翻译;新增“一键朗读”功能,实现边听边看;支持句子、段落总结

三、Hume AI 发布语音引擎 OCTAVE

Hume AI 推出 OCTAVE 的文本与语音引擎,该引擎能够通过简单的文本描述一段 5 秒的语音录音,生成或克隆出逼真的语音和人格特质。不仅能够生成自然的语音,还能精确地模仿说话者的性别、年龄、口音、情绪语调及职业特定的说话风格,能够在毫秒级别内完成语音生成,实现了真正的实时对话,并且还允许用户实时动态地调整生成内容。

四、南洋理工大学推出超分技术 InvSR

南洋理工大学的研究团队发布图像超分辨率(SR)技术,该技术基于扩散反演(Diffusion Inversion),通过充分利用大型预训练扩散模型中的图像先验信息,提升图像的分辨率和清晰度。与现有的超分辨率方法相比,这项技术具有更加灵活高效的采样机制,可以支持从一个到五个任意数量的采样步骤。

五、腾讯推出 ColorFlow

清华大学与腾讯 ARC 实验室的研究团队推出 ColorFlow 的新型图像序列上色模型。解决了在黑白图像序列上色的同时,保持角色和物体身份一致性的问题,能够利用上下文信息,通过参考图像池为黑白图像序列准确生成颜色。与以往需要针对每个角色进行微调的技术不同,ColorFlow 通过具备泛化能力的检索增强上色管道,简化了色彩生成的过程。

六、OpenAI 正式发布 o3 模型

OpenAI 在第十二天技术直播中正式发布了 o3 模型,在全球著名的编码竞赛平台 Codeforces 中得分是 2727,位于排列榜单第 175 名,超越了 99.99%的人类。在数学竞赛 AIEM2024 中接近满分,在评估人工智能在高级数学推理方面能力的 FrontierMath 中成功率为 25.2%,与之对比,GPT-4 和 Gemini1.5Pro 的成功率不足 2%。

八、Krea AI 上线自定义功能

AI 创意工具 Krea AI 宣布在 Krea Editor 推出自定义训练功能,可以在几秒钟内将真实产品添加到任何图像中。从官方的演示视频来看,在实际操作中只需涂抹需要替换的区域,如“涂抹模特脸上的墨镜”,然后选择商品图“VR 眼镜”,AI 就会自动处理,将 VR 眼镜戴到模特脸上。用户还可以继续扩图处理,用同样的方法继续涂抹区域,选择其它商品,AI 就会把商品融合到模特身上。

八、支付宝面向商家营销推出 AI 创意生成服务

支付宝宣布推出 AI 创意平台“蚂上有创意”,这是一个面向商务机构的 AI 营销服务。“蚂上有创意”可以为客户提供 AI 快速生成创意素材、营销广告智能分析等服务,还免费开放多项营销图片素材。据介绍,过去一年支付宝将 AI 全面应用于商业开放生态,共接入近 70 个业务场景,累计为生态商家机构生成 8700 万张 AI 素材。

九、可灵 1.6 版本提升物理规律真实感

快手旗下 AI 视频生成工具可灵(Kling)发布 1.6 版,主要在物理规律真实感、人物表演能力和语义理解水平三个核心维度提升。①对物理世界的精准演绎:在切西红柿的测试中,可灵1.6版展现出近乎专业厨师的精准操作,无论是刀具与食材的互动,还是切片的力度都非常真实。倒茶、猫咪踩沙发、狗狗奔跑等日常场景中的物理效果也更加真实;②人物表情和动作:从细微的眉头皱起到优雅的芭蕾舞姿,再到中国古典水下舞蹈,可灵1.6版都能准确捕捉人物细微的情感变化和复杂的肢体动作;③语义理解:更强的场景理解能力,无论是“摘下眼镜拥抱小鹿”这样的连续动作,还是“后退举枪”等复杂场景,都能准确理解并生成符合预期的视频内容。

十、Google 推出 AI 生图工具 Whisk

Google 发布新 AI 工具 Whisk,允许用户使用图片作为提示词生成图片。可以上传图片来指定 AI 生成图像的主题、场景和风格,并且可以为这三者分别使用多张图片。如果你手头没有合适的图片,可以点击骰子图标,让谷歌自动填充一些图片作为提示。Whisk 还为每张生成的图片提供了文字提示。如果对结果满意,可以收藏或下载图像,如果想要进一步优化,可以在文本框中添加更多文字,或直接点击图像编辑文字提示。

欢迎关注作者的微信公众号:「百度MEUX」

文章来源于互联网:趋势抢先知!2025年1月值得关注的10条AI资讯

相关推荐: 【AIGC】ChatGPT 搭配 DALL·E 制作日漫风格小故事全流程揭秘

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: AIGC | ChatGPT 💯前言 本文将带领读者一起探索如何利用AI工具,特别是ChatGPT和DALL·E 3,完整体验从文字创意到视觉呈现的全流程,创作充满日漫风格的小故事。这不仅是一次深入了解AI创作潜…

赞(0)
未经允许不得转载:5bei.cn大模型教程网 » 趋势抢先知!2025年1月值得关注的10条AI资讯
分享到: 更多 (0)

AI大模型,我们的未来

小欢软考联系我们