Perplexity 推出首款 AI 驱动网页浏览器 Comet，旨在挑战谷歌搜索作为用户获取信息主要途径的地位。该浏览器初期向每月 200 美元的 Max 计划订阅者及少量等待名单邀请用户开放，核心特色是预装并默认设置 Perplexity 的 AI 搜索引擎，突出展示其核心产品 ——AI 生成的搜索结果摘要。同时，浏览器内置全新 AI 助手 Comet Assistant，可自动完成日常任务，如总结邮件和日历事件、管理标签页、代用户浏览网页等，用户可通过侧边栏调用该助手，使其查看网页内容并解答相关问题。

二、谷歌发布 32 个 T5Gemma 模型

谷歌发布编码器 – 解码器架构的 T5Gemma 系列模型，同时还推出了用于健康 AI 开发的多模态模型 MedGemma。T5Gemma 采用 “适应” 技术，将预训练的仅解码器模型转换为编码器 – 解码器架构，可灵活组合不同大小模型，平衡质量与效率。实验显示，T5Gemma 在多个基准测试中表现优异，尤其在推理密集型任务上，相比仅解码器的 Gemma 2 有显著提升，被认为可能推动编码器 – 解码器架构复兴。MedGemma 包含 4B 和 27B 大小的模型，能辅助医疗诊断，表现良好。

三、马斯克 xAI 发布 Grok4

马斯克旗下 AI 公司 xAI 发布最新旗舰大模型 Grok 4 及多智能体版本 Grok 4 Heavy，并推出每月 300 美元的高价订阅计划 Super Grok Heavy。在 “人类的最后考试” 中，Grok 4 无工具时准确率 25.4%，超谷歌 Gemini 2.5 Pro 和 OpenAI o3；Grok 4 Heavy 带工具得分 44.4%，表现亮眼。其在多学科测评中成绩优异，马斯克称其科研能力超人类博士，还能处理源代码文件。此外，Grok 4 已在库存管理、游戏创作等领域落地，未来还将推出编码、多模态、视频生成等模型，与 OpenAI 的 GPT-5 形成竞争态势。

四、新版 PNG 格式发布

新版 PNG 格式规范发布，沉寂 20 余年的 PNG 格式重焕活力。美国国会图书馆等机构均推荐该格式，此次更新由 Adobe、苹果、谷歌等多巨头参与推动。新功能包括：一是完善 HDR 支持，仅用 4 字节即可实现，且具备前瞻性；二是正式认可 APNG 动画格式，此前该格式已获广泛支持；三是官方支持 Exif 数据，可存储版权、GPS 等附加信息，同时还进行了错误修正和说明澄清等整理工作。目前，Chrome、Safari、Photoshop 等众多程序已支持新版 PNG 规范，广播领域的硬件和工具也在更新适配。后续计划推出第四版更新以提升 HDR 与 SDR 的互操作性，第五版将研究压缩优化及并行编解码功能。

五、B 站推“代号 H”AI 创作工具

B 站推出 “代号 H” AI 创作工具，聚焦视频播客领域，该工具可实现音频内容视频化，支持文案、音频输入，适配播客和泛知识杂谈图文模板，能在 6 分钟内生成千字内容视频，未来预计缩至 3 分钟，定向邀请用户体验反馈超预期。

六、京东推出两款 AI 社交产品

京东在其 App 内推出两款 AI 社交产品 “宠 TA” 和 “聊愈小宇宙”，虎牙则推出首个 AI 助手产品 “小虎 AI 加工坊”。“宠 TA” 是以宠物为中心的 AI 社区产品，用户可与宠物或宠物数字人形象的智能体聊天，兼具换装、宠物数字人等可玩性功能，还设有宠物医生咨询、食品购买专区，将情感陪伴与消费场景结合，形成 “边玩边买” 闭环。“聊愈小宇宙” 是 AI 类对话产品，能识别用户情绪，提供情绪记录、解压游戏等服务，用户可与 AI 心理咨询师聊天，还可在 “微光社区” 交流，同时提供专业心理咨询师付费服务，增强用户认同感。

七、字节上线“小荷 AI 医生”

字节首款 AI 医疗助手独立 App “小荷 AI 医生” 上线，定位健康管家，提供健康咨询、报告解读等服务。用户注册登录后进入对话界面，可咨询疾病自查、用药参考等健康问题，AI 会主动收集关键信息（如症状持续时间），并通过让用户上传诊断报告、拍摄病灶图片等方式，结合信息给出建议。其还能解读血常规等报告，快速分析指标异常，评估状况并给出建议；支持拍摄药盒查询药效说明。2024 年中国 AI 医疗器械市场规模达 96.41 亿元，预计 2025 年将达 242.3 亿元，大厂竞速或重新定义 AI 健康边界。

八、vivo 发布端侧多模态模型

vivo AI Lab 发布端侧多模态模型 BlueLM-2.5-3B，参数量仅 2.9B，专为端侧设计，紧凑高效。该模型融合文本与图文理解推理能力，支持长短思考模式切换及思考预算控制，可直接理解 GUI 界面。在 20 余项评测中表现突出：文本任务上，缓解多模态模型文本能力遗忘问题，与同规模文本模型效果相近，优于同规模及更大规模多模态模型；多模态任务领先同规模模型，部分接近大规模模型；GUI 理解能力在同规模模型中领先，尤其中文场景表现优异。

九、腾讯元器接入微信支付 MCP

腾讯元器宣布正式接入微信支付 MCP，成为首个接入该支付解决方案的智能体开发平台。这一举措支持开发者在智能体上直接添加下单、赞赏、查询订单等功能，打通了智能体商业化的最后环节。开发者仅需通过简单的提示词调用或工作流编排，就能快速接入微信支付 MCP，使智能体具备支付能力。目前，元器平台已向开发者开放微信支付 MCP 的体验版本，正式版本将在资质审核通过后开放。

十、字节发布 Xverse 图像生成模型

字节发布多主体控制生成模型 Xverse，可对设定的每个主体进行精确控制，且不破坏图像生成质量，能应对多主体、多光源、多风格等场景。其核心是通过学习 DiT 中文本流调制机制中的偏移量，实现对多个主体身份和语义属性的一致控制，包含 T-Mod 适配器、文本流调制机制、VAE 编码图像特征模块及两种正则化技术等关键组成部分。对比测试显示，Xverse 在单主体、多主体任务及整体表现上均优于 MS-Diffusion、OmniGen 等领先技术。

文章来源于互联网:趋势抢先知！2025年7月值得关注的10条AI资讯

相关推荐: Stable Diffusion初级使用心得：如何画出一幅好画和如何不受拘束的画出一幅好画！

作者：就是这个大橘会画画（cpolar用户供稿）由AI生成一、画好一幅画的实用技巧精准提示词（Prompt）是关键技巧1：分层描述不要只写“画一只猫”，而是拆解细节：一只橘色短毛猫，坐在窗台上晒太阳，窗外有樱花飘落，水彩风格，柔和光影，超现实主义（用…

未经允许不得转载：5bei.cn大模型教程网 » 趋势抢先知！2025年7月值得关注的10条AI资讯

趋势抢先知！2025年6月值得关注的10条AI资讯

2025-08-05 分类：AI创作阅读(0)

2025年6月份的AI重大资讯，看这篇就够了！

往期回顾：

1. Apple 时隔 12 年发布 Liquid Glass

苹果首次在所有平台引入了统一的设计语言「液态玻璃」Liquid Glass。「液态玻璃」采用实时渲染技术，能够根据用户的操作动态地做出反应。苹果将其应用于按钮、开关、滑块、文本、媒体控件，甚至标签栏和侧边栏。同时苹果重新设计了应用内的控制项、工具栏和导航元素。这项新设计灵感源于玻璃的光学特性，旨在显著减少用户在不同设备间切换时的视觉跳跃感和认知负荷。

2. AI 聊天机器人被指控教唆儿童自杀

近日谷歌公司和由两名前谷歌员工创办的 Character.AI 平台遭到一名女子指控，指控该平台人工智能（AI）聊天机器人“教唆”其 14 岁儿子自杀。她的儿子塞维尔·塞泽尔与一个以《权力的游戏》中“龙妈”丹妮莉丝为原型的 AI 聊天机器人聊天，并被“教唆”自杀。5 月 23 日，美国通过《HR1》法案，将禁止美国各州在从法案颁布之日算起的未来十年内“执行任何监管 AI 模型、AI 系统或自动决策系统的法律或法规，该举措与欧盟、中国等地区加强监管的趋势高度分化。

3. OpenAI 正式上线 o3 Pro

6 月 11 日，OpenAI 在 X 上宣布 o3-pro 正式上线，向 Pro 和 Team 用户开放。作为推理模型 o3 的升级版，o3-pro 更加强大，设计为思考更长的时间，提供最可靠的反应，适合在数学、科学和编码等领域使用。根据 OpenAI 内部测试，其在数学基准测试 AIME 2024 中超越谷歌最强的模型 Gemini 2.5 Pro，在博士级科学测试 GPQA Diamond 中击败 Anthropic 最强的 Claude 4 Opus。与此同时，上一代推理模型 o3 的价格降低了 80%，o3 模型从输入 10 美元/百万 tokens、输入 40 美元/百万 tokens，直接降到了 2 美元和 8 美元。Altman 认为随着数据中心生产的自动化，智能的成本最终会趋近于电力成本。

4. Claude4 监测到非法内容将联系监管机构

近期，研究人员发现 Claude4 系列模型存在一个令人担忧的特性：当检测到用户进行极其不道德行为时，AI 会自发地向媒体、监管机构或执法部门进行举报。研究人员 Sam Bowman 首次公开了这一现象，他在测试中发现 Claude 4 模型会在检测到用户从事极端不道德行为（如伪造药物试验数据）时，尝试使用命令行工具自动向外部机构举报，而这并非 Anthropic 公司有意设计的功能。此外，当模型充当虚构公司助手并掌握工程师私人信息时，一旦感知到自己可能被关闭，它会威胁发布工程师的隐私信息。针对这一现象，Anthropic 公司已启动 ASL-3 安全措施，这是专为具有灾难性滥用风险的 AI 系统设计的安全协议。

5. Meta AI 上线视频编辑功能

6 月 13 日，Meta 宣布将在 Meta AI 应用、Meta.AI 网站及短视频编辑工具 Edits 中上线一项革命性的生成式 AI 视频编辑功能，旨在让普通用户无需专业技能也能轻松制作高质量视频。用户只需上传视频，选择如“更换服装”“调整光影”或“切换场景”等指令，系统即可自动完成复杂的编辑操作。

6. Topaz 上线视频工具 Astra

日前 Topaz Labs 发布 Astra，能够将 AI 生成的视频智能放大至 4K 分辨率，同时显著提升画质和细节表现。目前 Astra 仍处于开发阶段，正在逐步开放早期访问权限。

7. 沃尔沃推出 AI 安全带

6 月 6 日消息，沃尔沃宣布推出一款全新“自适应安全带”，旗下全新 EX60 车型将率先搭载。沃尔沃表示，这款“自适应安全带”与其新款 EX60 车型相辅相成，这是因为该车内搭载的传感器可检测乘客的身高、体重和坐姿，而车外传感系统则能快速分析碰撞的严重程度，并在瞬间将信息传送至安全带系统，从而实现相应安全带“智能调节”。

8. 苹果上线 AI 实时翻译

苹果公司将在 iOS 26 系统中推出一项名为 Live Translation 的新功能，该功能可在通话、信息交流和视频聊天过程中实现内容的实时翻译。在信息应用中，用户可以用自己的母语发送消息，系统会自动将其翻译成接收者所使用的语言；在 FaceTime 视频通话中，用户可以看到实时显示的字幕；而在纯语音通话场景下，系统则能够将对话内容进行翻译并朗读出来。

9. 首款宠物 AI 项圈发布

近日，宠智灵科技发布首款宠物 AI 项圈，该项圈借助宠智灵 AI 模型对姿态、表情、声纹等信号进行深度学习，并通过智能摄像头与穿戴设备进行情绪识别：焦虑、玩耍、困倦等状态能被即时捕捉。其次当宠物靠近高风险区域（如马路、未设防的边界）时，宠智灵 AI 结合其行为、情绪判断出走失风险升高，可以提前向主人发出“高风险区域靠近，请注意！”的智能提醒。

10. SignGemma 能把手语转为文本

谷歌 DeepMind 团队于 5 月 27 日宣布推出 SignGemma，是其迄今为止最强大的手语翻译模型，可将手语转化为口语文本，该开源模型将于今年晚些时候加入 Gemma 模型家族。SignGemma 模型支持多语言功能，但目前主要针对美国手语（ASL）和英语进行了深度优化，开源属性意味着开发者可以自由使用并改进它。

欢迎关注作者的微信公众号：「百度MEUX」

文章来源于互联网:趋势抢先知！2025年6月值得关注的10条AI资讯

相关推荐: AIGC率30%直接挂？亲测有效的「AI降痕工具」，5分钟拯救你的论文！

熬了三个通宵写论文，AIGC率压到5%，导师却冷冷甩来一句：“这论文一股机器人味儿，重写！”——这种崩溃你经历过吗？如今，知网、维普、Turnitin等平台都升级了AIGC检测功能。高校的反AI系统更是火眼金睛，连“综上所述”“值得注意的是”这类模板化表达都…

未经允许不得转载：5bei.cn大模型教程网 » 趋势抢先知！2025年6月值得关注的10条AI资讯

趋势抢先知！2025年4月值得关注的10条AI资讯

2025-07-01 分类：AI创作阅读(0)

2025年4月份的AI重大资讯，看这篇就够了！

一、重磅推出 ChatGPT-4o 文生图

ChatGPT 推出基于 GPT-4o 的原生图像生成功能，升级后功能更加精确，能更好地遵循指示、渲染文字，并支持多轮迭代优化图像。该升级解决了 AI 图像生成器理解提示词能力差的问题，并增强了图像编辑功能。新功能适用于商业应用，如卡片自定义生成和游戏角色设计等。目前，该功能已向所有用户推出，未来几周内开发者可通过 API 调用。

二、Runway 发布 AI 视频生成模型 Gen-4

Runway 公司发布了最新 AI 视频生成模型 Gen-4，该模型能高度保持角色、地点和物体的一致性，生成连贯世界环境的视频，无需模型微调或额外训练。Gen-4 通过学习海量视频数据生成新合成视频，表现出卓越的运动效果和对现实世界规律的理解。Runway 期望通过 Gen-4 等新产品实现年化收入目标，同时 AI 视频生成工具正对电影电视行业带来颠覆性挑战。

三、Midjourney 发布 AI 图片生成模型 V7

Midjourney 公司旗下 AI 图片生成模型 V7 版本开启了 alpha 测试，主要升级了“草图模式”。该模式耗时和资源消耗减半，同时提供对话式交互界面，支持实时编辑和语音识别生成功能，用户可通过语音指令调整图片。此外 V7 版本增强了文本理解能力和细节纹理质感，默认启用个性化模型功能。不过“草图模式”下生成的图片分辨率较低，部分功能仍调用 V6 模型，未来将逐步升级。

四、AnimeGamer 打造无限动漫人生模拟器

腾讯 ARC 实验室与香港城市大学联合发布了名为“AnimeGamer”的创新项目，该项目利用多模态大语言模型实现无限动漫人生模拟，用户可通过自然语言指令与动漫世界实时互动，扮演角色并体验不同动漫作品的角色联动。AnimeGamer 展现了多模态大语言模型在创意内容生成方面的巨大潜力，为动漫文化爱好者和 AI 研究注入新活力。

五、即梦 3.0 内测：可直出 2K 商业海报

即梦 3.0 模型在图像生成领域实现了重大技术飞跃，其能够通过简单的文字提示生成细节丰富、品质卓越的图像。与前代相比，该模型在场景布局、色彩搭配及细节刻画上均有显著提升，尤其在处理复杂场景时表现突出。即梦 3.0 的生成速度极快，极大地提高了创意迭代的效率，为设计师和创意工作者提供了强大的辅助工具。这一突破有望颠覆传统图像创作方式，开启 AI 图像生成的新纪元。

六、ComfyUI-Copilot 发布

ComfyUI-Copilot 是一款结合自然语言处理与节点式工作流的创新工具，赋予用户类似 GPT-4o 的图像生成与编辑能力。它通过简单的文字描述即可自动完成 AI 流程，支持中英文交互，并集成多项实用功能，如模型推荐、错误诊断等，显著降低了 AI 图像生成的使用门槛，提升了创作效率。

七、DomoAI 推出语音图像生成数字人功能

DomoAI 推出语音图像生成数字人功能，用户可上传语音和图像快速生成会说话的虚拟人物，支持口型同步及多种时长选择。该功能旨在降低内容创作门槛，推动 AI 与娱乐产业融合，已在社交平台上引发热烈讨论，被视为数字内容创作领域的重要革新。

八、Ready AI：输入提示词即可生成专业级网页

Ready AI 是一款能快速生成专业级网页界面的工具，用户只需输入文字指令即可在 30 秒内获得设计。它支持实时预览、版本对比及多种框架选择，并允许用户自定义颜色风格等细节。尽管生成内容限于前端界面，需配合编程工具实现后端功能，但其高效便捷的特点仍受到设计圈的广泛关注。

九、DeepSeek-V3 发布：技术圈沸腾的低调升级

中国 AI 研究机构 DeepSeek 低调发布了 DeepSeek-V3-0324 模型，参数量达 685 亿，显著提升数学与编程能力，并采用更开放的 MIT 协议。此次更新虽未大肆宣传，但已在技术社区引发热烈反响，被视为挑战行业巨头的潜力股，且可能为 DeepSeek-R2 的发布奠定基础。

十、通义开源发布「超写实 3D 数字人」大模型

阿里通义起源发布了全新超写实 3D 数字人大模型 LHM，该模型能利用单视角输入快速生成可驱动的 3D 数字人，适用于动作重现、游戏角色生成和虚拟现实探索等场景。LHM 的推出展示了 AI 在 3D 数字人领域的强大能力，预示着未来数字娱乐和虚拟现实的新可能。

这波AI工具浪潮中，哪项技术最可能颠覆你的行业？欢迎留言讨论→

文章来源于互联网:趋势抢先知！2025年4月值得关注的10条AI资讯

相关推荐: 虚拟世界的AI魔法：AIGC引领元宇宙创作革命

云边有个稻草人-CSDN博客——个人主页热门文章_云边有个稻草人的博客-CSDN博客——本篇文章所属专栏 ~ 欢迎订阅~ 目录 1. 引言 2. 元宇宙与虚拟世界概述 2.1 什么是元宇宙？ 2.2 虚拟世界的构建 3. AIGC在元宇宙中的应用 3.1 A…

未经允许不得转载：5bei.cn大模型教程网 » 趋势抢先知！2025年4月值得关注的10条AI资讯

趋势抢先知！2025年1月值得关注的10条AI资讯

2025-02-19 分类：AI创作阅读(109)

2025年1月份的AI重大资讯，看这篇就够了！

更多趋势：

一、Domo AI 推出 v2v 真实模型

Domo AI 推出 v2v 真实模型，可以进行反向操作，将动漫类型的视频转换成真人视频，还可以通过 Prompt 将视频里的对象转成别的真实事物，如将一个圣诞老人转成一只圣诞兔子，功能类似于 Runway 推出的 Act one 功能。

二、讯飞星火浏览器插件新升级

讯飞星火对其浏览器插件进行升级，增加了多项 AI 能力。集成了讯飞星火 V4.0 底层能力，兼容 Chrome、Edge 等主流浏览器。新增“继续提问”功能，随时深入讨论，获取高质量答案；实现网页全局对照翻译；新增“一键朗读”功能，实现边听边看；支持句子、段落总结。

三、Hume AI 发布语音引擎 OCTAVE

Hume AI 推出 OCTAVE 的文本与语音引擎，该引擎能够通过简单的文本描述一段 5 秒的语音录音，生成或克隆出逼真的语音和人格特质。不仅能够生成自然的语音，还能精确地模仿说话者的性别、年龄、口音、情绪语调及职业特定的说话风格，能够在毫秒级别内完成语音生成，实现了真正的实时对话，并且还允许用户实时动态地调整生成内容。

四、南洋理工大学推出超分技术 InvSR

南洋理工大学的研究团队发布图像超分辨率(SR)技术，该技术基于扩散反演(Diffusion Inversion)，通过充分利用大型预训练扩散模型中的图像先验信息，提升图像的分辨率和清晰度。与现有的超分辨率方法相比，这项技术具有更加灵活高效的采样机制，可以支持从一个到五个任意数量的采样步骤。

五、腾讯推出 ColorFlow

清华大学与腾讯 ARC 实验室的研究团队推出 ColorFlow 的新型图像序列上色模型。解决了在黑白图像序列上色的同时，保持角色和物体身份一致性的问题，能够利用上下文信息，通过参考图像池为黑白图像序列准确生成颜色。与以往需要针对每个角色进行微调的技术不同，ColorFlow 通过具备泛化能力的检索增强上色管道，简化了色彩生成的过程。

六、OpenAI 正式发布 o3 模型

OpenAI 在第十二天技术直播中正式发布了 o3 模型，在全球著名的编码竞赛平台 Codeforces 中得分是 2727，位于排列榜单第 175 名，超越了 99.99%的人类。在数学竞赛 AIEM2024 中接近满分，在评估人工智能在高级数学推理方面能力的 FrontierMath 中成功率为 25.2%，与之对比，GPT-4 和 Gemini1.5Pro 的成功率不足 2%。

八、Krea AI 上线自定义功能

AI 创意工具 Krea AI 宣布在 Krea Editor 推出自定义训练功能，可以在几秒钟内将真实产品添加到任何图像中。从官方的演示视频来看，在实际操作中只需涂抹需要替换的区域，如“涂抹模特脸上的墨镜”，然后选择商品图“VR 眼镜”，AI 就会自动处理，将 VR 眼镜戴到模特脸上。用户还可以继续扩图处理，用同样的方法继续涂抹区域，选择其它商品，AI 就会把商品融合到模特身上。

八、支付宝面向商家营销推出 AI 创意生成服务

支付宝宣布推出 AI 创意平台“蚂上有创意”，这是一个面向商务机构的 AI 营销服务。“蚂上有创意”可以为客户提供 AI 快速生成创意素材、营销广告智能分析等服务，还免费开放多项营销图片素材。据介绍，过去一年支付宝将 AI 全面应用于商业开放生态，共接入近 70 个业务场景，累计为生态商家机构生成 8700 万张 AI 素材。

九、可灵 1.6 版本提升物理规律真实感

快手旗下 AI 视频生成工具可灵(Kling)发布 1.6 版，主要在物理规律真实感、人物表演能力和语义理解水平三个核心维度提升。①对物理世界的精准演绎：在切西红柿的测试中，可灵1.6版展现出近乎专业厨师的精准操作，无论是刀具与食材的互动，还是切片的力度都非常真实。倒茶、猫咪踩沙发、狗狗奔跑等日常场景中的物理效果也更加真实；②人物表情和动作：从细微的眉头皱起到优雅的芭蕾舞姿，再到中国古典水下舞蹈，可灵1.6版都能准确捕捉人物细微的情感变化和复杂的肢体动作；③语义理解：更强的场景理解能力，无论是“摘下眼镜拥抱小鹿”这样的连续动作，还是“后退举枪”等复杂场景，都能准确理解并生成符合预期的视频内容。

十、Google 推出 AI 生图工具 Whisk

Google 发布新 AI 工具 Whisk，允许用户使用图片作为提示词生成图片。可以上传图片来指定 AI 生成图像的主题、场景和风格，并且可以为这三者分别使用多张图片。如果你手头没有合适的图片，可以点击骰子图标，让谷歌自动填充一些图片作为提示。Whisk 还为每张生成的图片提供了文字提示。如果对结果满意，可以收藏或下载图像，如果想要进一步优化，可以在文本框中添加更多文字，或直接点击图像编辑文字提示。