每日AI快讯

更新日期：2025-12-23
查看次数：621
站点标签：大模型研究报告

立即前往

详细介绍

每日AI快讯热闻

daily-ai-news-image02

AI工具集每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等，让你随时了解人工智能领域最新趋势、更新突破和热门大事件.

12月23·周二

GLM-4.7上线并开源：更强的编码

智谱AI正式上线并开源新一代大模型 GLM-4.7，该版本在编码、推理与智能体能力上实现显著提升。在多项主流基准测试中，编程能力达到开源模型领先水平，在SWE-bench Verified中获得73.8%的SOTA分数，工具调用任务τ²-Bench得分87.4分，超越Claude Sonnet 4.5。来源：智谱

12月22·周一

MiniMax 通过港交所聆讯，有望成为“AGI 全球第一股”

MiniMax通过港交所聆讯并披露招股书，冲刺IPO。MiniMax成立于2022年初，若成功上市，将是全球从成立到IPO最快的AI公司。2024年，MiniMax收入同比增长782%至3050万美元，净亏损为4.65亿美元。其变现方式包括订阅服务、基于token的应用内购买、线上营销服务以及按使用量计费的企业级API服务。来源：第一财经

智谱冲刺港股“大模型第一股”，估值244亿

智谱通过港交所聆讯，冲刺港股“大模型第一股”。智谱成立于2019年6月，是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。其MaaS平台提供语言、多模态、智能体、代码四类模型，支持本地化和云端部署。2025年11月，智谱日均token消耗量达4.2万亿，已为约8000万台设备提供支持。来源：智东西

英伟达新模型NitroGen能打遍几乎所有游戏

英伟达开源通用游戏AI模型NitroGen，模型能通过观看游戏画面直接生成手柄操作信号，支持跨1000余款不同类型游戏的零样本游玩。模型基于4万小时游戏视频数据集训练，采用为机器人设计的GR00T架构，具备强大的跨游戏泛化能力。来源：机器之心

12月19·周五

扣子编程，开启免费公开测试

在火山引擎Force大会上，扣子开发平台正式升级为“扣子编程”并开启免费公开测试。此次升级标志着平台从AI应用搭建工具转型为赋能开发者创造力的平台，推出全新的Vibe Coding开发范式。用户只需用自然语言描述业务需求，即可自动生成智能体、工作流及跨端应用。来源：扣子Coze

OpenAI最强代码模型GPT-5.2-Codex上线

OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex，模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能，在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库，支持复杂重构与迁移任务。来源：机器之心

VTP：MiniMax海螺视频团队，首次开源！

MiniMax视频团队开源视觉生成模型关键组件VTP，首次提出tokenizer的scaling性质。技术通过融合多种表征学习方法，将latent易学性与通用表征学习建立关联，显著提升下游生成系统性能。来源：MiniMax稀宇科技

苹果开源 SHARP 模型，1 秒内 AI 让照片变 3D“活”起来

苹果公司宣布开源其新型AI模型SHARP，能在一秒内将单张2D照片转换为逼真的3D场景。与传统方案相比，处理速度提升了三个数量级，实现了近乎实时的3D转换体验。模型基于先进的3D高斯泼溅技术，通过神经网络单次前馈即可预测数百万个3D高斯球的位置与外观。来源：IT之家

12月18·周四

Google 发布了高速、低成本模型 Gemini 3 Flash

谷歌正式发布高速、低成本模型Gemini 3 Flash，模型在多项基准测试中表现优异，其性能已超越前代Gemini 2.5 Pro，在部分指标上接近Gemini 3 Pro和GPT-5.2等前沿模型。新模型具备前沿级推理与多模态能力，响应速度提升3倍，同时显著降低了成本。来源：机器之心

美团 LongCat-Video-Avatar 发布，实现开源SOTA级拟真表现

美团发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar，模型在动作拟真度、长视频稳定性与身份一致性三大维度实现显著突破。模型原生支持音视频联合生成及视频续写等功能，通过创新的跨片段隐空间拼接技术，有效解决了长视频生成中的画质退化问题，可稳定生成5分钟高质量视频。来源：龙猫LongCat

通用Agent模型Seed1.8正式发布

字节跳动正式发布通用Agent模型Seed1.8，模型集成了搜索、代码生成与图形界面交互等多元能力，支持图文输入并具备原生视觉理解功能。在多项基准测试中表现优异，其在GUI Agent任务上的OSWorld得分达61.9，搜索任务BrowseComp-en得分67.6，均处于行业领先水平。来源：字节跳动Seed

更大更强！限时免费！阶跃星辰 GUI Agent 全面升级

阶跃星辰宣布其GUI Agent模型Step-GUI全面升级，新版模型支持200多个任务场景，具备更长推理步骤、更强语义理解与泛化能力。模型可在手机、PC、汽车等多端使用，并实现最短10分钟快速部署。公司开放了API供免费使用，并公开发布了技术报告与GUI-MCP协议。来源：阶跃星辰

Meta 发布 SAM Audio，多模态音频分离新突破

Meta发布首个统一多模态音频分离模型SAM Audio，支持通过文本、视觉或时间段提示从复杂音频中精准提取目标声音。模型基于感知编码器视听技术，用户可点击视频中物体分离对应音频，或输入”狗吠”等文本指令过滤噪音。来源：IT之家

估值达465亿！明星AI编程独角兽Lovable再拿新融资

瑞典AI编程初创公司Lovable近日完成新一轮融资，估值飙升至66亿美元，较半年前暴涨超三倍，成为欧洲最具价值初创公司之一。本轮融资吸引了Accel等知名风投参与，标志着AI编程工具赛道竞争加剧。来源：智东西

爱诗科技携手阿里云达成全栈AI合作 AI视频全球化再启航

爱诗科技与阿里云签署全面合作协议，双方将在AI视频生成领域建立深度协同。阿里云将为爱诗科技提供全栈AI支持，涵盖基础设施及大模型服务，助力其自研视频生成模型PixVerse的全球化部署。来源：爱诗科技AIsphere

12月17·周三

即梦网页版全面升级，打造一站式AI片场

即梦AI网页版全面升级，打造一站式”AI片场”。核心更新包括：上线基于Seedance 1.5 Pro的”视频3.5 Pro”模型，支持音视频联合生成及方言口型匹配；智能多帧2.0实现”视频+视频”拼接与片段精细化编辑，支持最长20个素材的一镜到底；图片4.1与4.5模型分别强化平面设计能力与人像美观度。来源：即梦AI

OpenAI 最强 AI 生图模型GPT Image 1.5登场

OpenAI发布全新旗舰图像生成模型GPT Image 1.5，模型在提示词遵循、细节保留和文本渲染方面实现重大突破，能精准生成或编辑图像并保持原图光线、构图等核心特征。来源：IT之家

小米正式发布并开源新模型 MiMo-V2-Flash

小米正式发布开源大模型MiMo-V2-Flash，模型采用MoE架构，总参数3090亿，活跃参数150亿。在多项基准测试中表现优异，其编程能力尤为突出，在SWE-bench测试中以73.4%的解决率超越所有开源模型。模型通过混合滑动窗口注意力、多Token预测等技术创新，实现了150 tokens/秒的高推理速度及极低的推理成本。来源：APPSO

腾讯混元世界模型1.5发布，国内首个开放实时体验

腾讯正式发布混元世界模型1.5（WorldPlay），是国内首个支持实时交互体验的世界模型。用户通过文字或图片输入即可生成专属3D互动世界，能通过键盘、鼠标或手柄自由探索。模型具备24FPS实时生成、分钟级3D几何一致性及空间记忆能力，离开后返回场景保持一致。来源：腾讯混元

Seedance 1.5 pro 音视频创作模型正式发布

字节跳动发布新一代音视频创作模型 Seedance 1.5 pro，实现音视频联合生成。模型支持从文本到音视频的合成及图像引导生成，在精准音画同步、多语言与方言口型匹配、电影级运镜控制及动态叙事表现上取得突破。来源：字节跳动Seed

12月16·周二

LiblibAI 上线「Wan 2.6」视频模型，中国版 SORA2 来了！

LiblibAI平台全球首发通义万相Wan 2.6视频生成模型，支持视频参考生成、声画同步和多镜头智能调度三大核心功能。模型可直出15秒1080P高清视频，实现完整叙事生成，无需二次剪辑。其视频参考生成能力可复刻5秒内任意角色形象与音色，支持单/双人表演及多人对话场景的声画同步。来源：哩布哩布AI

商汤小浣熊3.0来了，AI办公智能体一键生成高质量PPT

商汤科技发布AI办公智能体“小浣熊3.0”，实现从生成草稿到交付成品的三大跃迁。智能体具备一键生成高质量PPT能力，支持图表、图片等全元素编辑，可交付直接可用的演示文稿。其“长链条思考”能力支持百万级数据量秒级处理与多模态分析，能深度理解复杂任务。来源：商汤科技SenseTime

Wan2.6正式发布！上线国内首个角色扮演功能

阿里巴巴发布通义万相2.6多模态模型，是国内首个支持角色扮演功能的视频生成系统。模型支持音画同步、多镜头叙事和音频驱动生成，可直出15秒高清视频。角色扮演功能允许用户上传参考视频，AI能复刻角色外观与音色，生成单人或多人表演内容。在图像生成方面，模型提升了艺术风格融合与细节刻画能力，支持图文混排、多图融合等商用级创作。来源：通义万相Wan

英伟达发布 Nemotron 3 开源 AI 模型系列，吞吐量达上一代 4 倍

英伟达发布Nemotron 3开源AI模型系列，包含Nano、Super和Ultra三种规格。其中Nano版本（300亿参数）已上线，其采用混合专家架构，宣称吞吐量达上一代4倍，推理token生成减少60%，具备100万token上下文窗口。该系列专为多智能体系统设计，旨在解决通信开销和推理成本等挑战。来源：IT之家

通义百聆语音双子星，同步开源！

阿里云通义百聆开源语音双子星模型Fun-CosyVoice3与Fun-ASR。Fun-CosyVoice3支持仅3秒音频即可实现跨9种语言、18种方言的音色克隆与情感控制，首包延迟降低50%，中英混说错误率下降56.4%。Fun-ASR在嘈杂环境下识别准确率达93%，支持31种语言混说及方言识别，将流式识别首字延迟降至160毫秒。来源：通义大模型

12月15·周一

商汤Seko2.0重磅发布，合作短剧登顶抖音AI短剧榜No.1

商汤科技发布Seko 2.0多剧集生成智能体，作为行业首个创编一体AI工具，专为短剧创作者设计。版本通过SekoIDX技术解决多剧集角色一致性难题，SekoTalk实现业内首个2人以上精准对口型功能，可将传统3个月的50集制作周期缩短80%-90%。同时开源LightX2V推理框架，在消费级显卡上5秒即可生成5秒视频，完成国产芯片适配。来源：商汤科技SenseTime

蚂蚁旗下 AI 健康助手 AQ 启用中文名“蚂蚁阿福”

蚂蚁集团旗下的AI健康助手AQ更新版本并启用中文名“蚂蚁阿福”，同时上线“健康小目标”功能。应用可提供健康咨询、图片解读（报告、病例、处方、药盒均支持）、个人和家庭健康档案管理以及预约挂号、云陪诊等医疗健康服务。来源：IT之家

Google Gemini TTS升级：支持24种语言，语音更拟真

谷歌Gemini TTS模型，发布了升级版的Gemini 2.5 Flash和Pro文本转语音模型，提升了表达能力、语速控制和多说话人场景下的表现。新模型在风格、语调和发音方面提供更好的控制，能根据上下文调整语速，如在兴奋时加快、强调时放慢，还能在多语言对话中保持一致的角色声音，使对话更真实。来源：AI工具集

12月12·周五

GPT-5.2 正式发布！让打工人每周少干 10 小时

OpenAI正式发布GPT-5.2模型，推出Instant、Thinking、Pro三个版本，分别针对常规任务、复杂推理和高精度需求。模型在多项基准测试中表现突出，在GDPval知识工作任务评估中首次达到或超越人类专家水平，软件工程能力（SWE-Bench Pro）创下55.6%的新纪录。其幻觉率降低约30%，长文本处理准确率接近完美。来源：APPSO

智谱多模态开源周收官：四项视频生成核心技术开源

智谱AI在多模态开源周收官之际，宣布开源四项视频生成核心技术：SCAIL影视级角色动画框架实现复杂姿态控制；RealVideo实时流式视频生成系统将首响延迟压缩至2-3秒；Kaleido多主体生成框架在开源模型中达到SOTA水平；SSVAE频谱结构化变分自编码器将模型收敛速度提升3倍。来源：智谱

谷歌重磅开源！深度研究Agent拿下SOTA

谷歌开源深度研究Agent Gemini Deep Research，在DeepSearchQA基准测试中达到46.4%的SOTA水平，性能与GPT-5 Pro相当，而成本仅为后者的十分之一。该Agent基于Gemini 3 Pro模型，具备多步搜索和复杂信息整合能力，可自动生成深度研究报告。来源：智东西

迪士尼官宣 10 亿美元投资 OpenAI，允许 Sora 生成米老鼠等角色视频

迪士尼公司与OpenAI达成为期三年的战略合作协议，将向OpenAI投资10亿美元并获得股权。根据协议，OpenAI的Sora视频生成平台将获得迪士尼旗下超过200个角色的IP授权，包括米老鼠、漫威超级英雄、星球大战等经典形象。用户未来可通过Sora生成迪士尼角色短视频，部分精选内容还将在Disney+平台播出。来源：IT之家

12月11·周四

智谱开源 GLM-TTS ：基于多奖励强化学习的可控发音语音合成

智谱AI发布并开源工业级语音合成系统GLM-TTS。采用两阶段生成范式，支持仅3秒音色复刻与多方言克隆。字符错误率（CER）在强化学习优化后达0.89%，在开源模型中达到SOTA水平。关键技术突破包括多奖励融合强化学习、精细化发音控制（Phoneme-in）以及自研2D-Vocos声码器，显著提升了情感表达与发音准确性。来源：智谱

面壁智能 VoxCPM 1.5 开源，语音生成能力再升级

VoxCPM 1.5版本正式开源上线。将AudioVAE采样率从16kHz提升至44.1kHz，显著提升了音色克隆的细节丰富度。生成效率实现翻倍，仅需6.25个token即可生成1秒音频。同时，新增LoRA和全量微调脚本以支持深度定制，优化了模型稳定性，减少音频伪影。来源：面壁智能

阿里发布 Qwen3-Omni-Flash 全模态大模型

阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash。模型支持文本、图像、音视频的无缝输入与实时流式输出，显著提升了多轮对话的稳定性与语音生成的自然度。其系统提示控制能力实现飞跃，用户可精细设定如“甜妹”、“御姐”等特定人设风格。来源：IT之家

Adobe 与 ChatGPT 联手推出全新图像与 PDF 编辑功能

OpenAI宣布ChatGPT正式接入Adobe系列专业软件，包括Photoshop、Acrobat和Adobe Express。用户现可在ChatGPT内直接调用这些工具，通过自然语言指令完成图像编辑、PDF处理等专业任务。整合后，ChatGPT会根据用户指令动态生成相应的操作界面，例如在调整图像亮度时自动呈现曝光、阴影等专业调节选项。来源：IT之家

12月10·周三

GLM-ASR开源，智谱AI输入法发布

智谱AI发布并开源GLM-ASR系列语音识别模型，同时推出桌面端“智谱AI输入法”。系列包含云端领先模型GLM-ASR-2512和仅1.5B参数的开源SOTA端侧模型GLM-ASR-Nano-2512，后者在保证高精度的同时实现了更强的隐私保护与低延迟。来源：智谱

Mistral AI开源新一代编程模型：Devstral 2

Mistral开源代码大模型Devstral 2系列，包含123B和24B两个版本，均支持256K上下文。模型在SWE-bench Verified上分别取得72.2和68.0的高分，性能达开源头部水平，同时模型体积显著小于同类竞品。配套推出的Vibe CLI工具可将模型能力集成至终端，支持扫描项目结构、调用命令、自动生成代码变更等操作。来源：AI工具集

生成式AI媒体平台Fal再获1.4亿美元注资

生成式AI媒体平台Fal获得由红杉资本领投的1.4亿美元新一轮融资，英伟达风投Nventures等机构跟投，公司估值达45亿美元，较数月前增长两倍。公司为开发者提供图像、视频和音频AI模型托管服务，客户包括Adobe、Shopify等企业。来源：AI工具集

12月9·周二

AutoGLM开源：每台手机，都可以成为AI手机

智谱AI宣布开源AutoGLM项目，让AI真正学会”使用手机”。项目经过32个月研发，构建了完整的Phone Use能力框架，使AI能通过视觉理解手机界面并完成点击、滑动等操作，实现从外卖下单到批量处理通知等自动化任务。为保障隐私安全，系统主要在云端虚拟手机环境中运行。来源：智谱

蚂蚁集团通用 AI 助手灵光上线网页版

蚂蚁集团正式推出全模态通用AI助手灵光网页版，用户可通过浏览器直接访问。网页版延续了“30秒用自然语言生成小应用”的核心优势，实现了与移动端的数据与创作同步。用户可在电脑上描述需求，快速生成、编辑并管理对话和闪应用，并在手机端继续使用和分享。来源：IT之家

12月8·周一

智谱正式上线并开源 GLM-4.6V 系列多模态大模型

智谱AI正式上线并开源GLM-4.6V系列多模态大模型，包括106B和9B两个版本。模型原生支持基于视觉输入自主调用工具，可处理图文混排、识图购物等复杂任务。其128K长上下文窗口能理解长达150页的文档或1小时视频内容，在代码前端复刻等方面能力提升。来源：AI工具集

美团发布 LongCat-Image 图像生成模型，编辑能力登顶开源SOTA

美团发布并开源LongCat-Image图像生成模型，以6B参数在文生图和图像编辑能力上逼近更大模型。技术亮点包括：采用同源架构与渐进学习，在图像编辑可控性上达到开源SOTA；通过课程学习与字符级编码，显著提升中文文字生成的覆盖度与精准度；结合数据筛选与对抗训练，增强图像真实感。来源：龙猫LongCat

混元2.0上线：推理能力与效率业界领先

腾讯发布混元大模型最新版混元2.0，包含Think与Instruct两个版本。模型采用混合专家架构，总参数406B，支持256K上下文窗口。其在数学、科学、代码等复杂推理任务上表现优异，综合能力位居国内第一梯队。通过优化训练策略，模型在保持高准确率的同时显著降低思维链长度，推理效率领先。来源：腾讯混元

AI法律科技公司Harvey又获新融资（F轮），估值560亿！

美国AI法律科技公司Harvey宣布完成1.6亿美元F轮融资，估值达80亿美元。公司由前谷歌DeepMind研究员和顶级律所律师于2022年创立，专注于“AI+法律”领域，法律AI平台包含AI助理、文档库等功能，已与美国百强律所中的50家合作。Harvey已获7轮融资，总融资额超9.6亿美元，OpenAI创业基金、谷歌风投等多次参与投资。来源：智东西

12月5·周五

听得清，看得懂！豆包语音识别模型2.0来了

火山引擎发布豆包语音识别模型2.0。模型基于Seed混合专家架构，通过PPO强化学习实现深度上下文推理，关键词召回率提升20%。新增多模态视觉识别能力，可结合图像内容精准分辨易混淆词（如“滑鸡”与“滑稽”），支持日语、韩语、德语等13种语言的精准识别。来源：火山引擎

可灵数字人 2.0 功能正式上线！不止会说，更会演！

可灵全量上线数字人2.0版本，实现三大核心升级：表演力全面进化，支持精准的体态、手势与表情控制；口型与手部细节显著优化，增强真实感；单次生成视频时长延长至5分钟，覆盖科普、广告等长内容场景。来源：可灵AI

谷歌公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think

谷歌面向Gemini Ultra订阅用户（月费249.99美元）正式公测Gemini 3 Deep Think模式。模式采用并行推理技术，调用更多计算资源，在复杂数学、科学及逻辑问题中表现突破：在Humanity’s Last Exam测试中取得41%高分，GPQA Diamond测试达93.8%。来源：IT之家

AI视频生成产品 Pollo AI 获 1400 万美元融资

AI视频生成平台Pollo AI近日完成1400万美元首轮融资，由高成资本领投，真格基金跟投。其创始人朱陈彪（阿彪）无大厂背景，凭借SEO经验推动产品早期增长，7个月月活超400万。目前平台注册用户超2000万，已实现盈亏平衡。来源：晚点科技

Google推出Workspace Studio，赋能企业全员构建AI智能体

Google正式发布Workspace Studio，是基于Gemini 3多模态能力的新一代自动化工具。用户无需编码即可快速设计、管理并共享AI智能体，实现从简单任务到复杂流程的自动化。来源：AI工具集

12月4·周四

LiblibAI 上线 Seedream 4.5，一致性保持/多图参考能力全面升级！

国产SOTA图像模型Seedream 4.5在LiblibAI平台正式上线。相比4.0版本，新模型在一致性保持、精准文本/版式渲染、多图参考生成和真实质感模拟方面能力显著升级，尤其擅长处理中文海报、营销物料等本土化内容，支持最多10+参考图融合。来源：哩布哩布AI

小红书收购“点点”

小红书全资收购上海生动诗章科技有限公司，正式将旗下AI搜索产品“点点”纳入集团体系。此次收购强化AI搜索能力，提升内容电商竞争力。收购后，小红书将加速AI战略落地，应对字节跳动、阿里等巨头竞争，优化用户行为路径，巩固内容生态。来源：36氪

可灵 2.6 全量上线！听见画面，看见声音

可灵2.6全量上线，是其首个“音画同出”模型，能单次生成同时产出画面、自然语音、匹配音效及环境氛围。模型支持文生音画与图生音画两种创作路径，适配单人独白、旁白解说、多人对白、音乐表演及创意场景等多种应用。来源：可灵AI

豆包图像创作模型Seedream 4.5发布：聚焦商业生产力场景

火山引擎发布豆包图像创作模型Seedream 4.5并开启公测。模型在主体一致性、指令遵循、空间逻辑及美学表现上显著提升，重点强化多图组合生成、海报排版与Logo设计能力，可精准满足广告营销、电商运营、影视制作等商业场景需求。来源：火山引擎

12月3·周三

Mistral AI发布Mistral 3系列模型，全线回归Apache 2.0

Mistral AI发布新一代Mistral 3系列模型，全线回归Apache 2.0开源协议。系列包括675B参数的Mistral Large 3混合专家模型，以及14B/8B/3B的Ministral 3边缘端模型。Large 3在3000台H200 GPU上训练，具备图像理解能力，在LMArena开源模型中排名第二。来源：机器之心

Anthropic收购热门JavaScript工具链公司Bun

Anthropic宣布收购热门JavaScript工具链公司Bun，交易金额未公开。Bun创始人Jarred Sumner因其工具被Claude Code等AI编程产品广泛使用，并看好Anthropic在AI编程领域的前景而选择加入。此次收购将Bun的高性能运行时和打包技术深度整合进Claude Code及未来AI工具，以提升性能与分发效率。Bun将保持开源并继续独立发展。来源：InfoQ

亚马逊云科技发布 Nova 2 系列 AI 模型等十大AI更新

在AWS re:Invent大会上，亚马逊云科技发布十大AI更新：推出自研AI芯片Trainium4（性能提升6倍）及Trainium3服务器；第二代大模型Amazon Nova 2系列（Lite、Pro、Sonic、Omni）性能超越多款主流模型；Bedrock平台新增18款开源模型，包括阿里、Kimi等中国模型；推出AgentCore开发工具和四大智能体（如自主编程、安全运维），强化企业级AI应用。来源：智东西

商汤发布 NEO 架构，重新定义多模态模型效能边界

商汤科技联合南洋理工大学发布全球首个原生多模态架构NEO，突破传统”视觉编码器+投影器+语言模型”的拼凑范式。架构通过原生图块嵌入、三维旋转位置编码和原生多头注意力三大创新，实现视觉与语言的深层融合。来源：商汤科技SenseTime

12月2·周二

LiblibAI 上线「可灵O1」全能视频模型，速来体验

LiblibAI全球首发「可灵O1」统一多模态视频模型，是首个将视频内容增删、风格重绘、镜头延展等多项任务融于一体的大一统模型。模型支持最多7张参考图像保持内容一致性，可通过自然语言指令智能编辑视频，具备视频参考生成能力。来源：哩布哩布AI

Runway发布的最新视频生成AI模型Gen-4.5，代号”David”

Runway正式发布Gen-4.5视频生成模型，该模型以”Whisper Thunder (aka) David”的匿名身份登上Artificial Analysis榜单首位。Gen-4.5在运动质量、提示词遵循度和视觉逼真度方面树立新标准，ELO评分达1247分，超越Veo 3/3.1、Kling 2.5和Sora 2 Pro等主流模型。具备精确的物理模拟能力、复杂的场景构建和电影级画面质感，支持多种控制模式。来源：机器之心

英伟达拿出推理版VLA：Alpamayo-R1让自动驾驶AI更会动脑子

英伟达发布推理版视觉-语言-行动模型Alpamayo-R1，为自动驾驶系统赋予因果推理能力。模型突破传统端到端系统在长尾场景中的局限，通过”因果链”数据集让车辆理解”为何这样驾驶”而非简单执行指令。三大创新包括结构化因果标注体系、扩散式轨迹解码器和多阶段训练策略。来源：机器之心

PixVerse V5.5 来了！「导演级」音画同步一键生成

PixVerse发布PixVerse V5.5视频生成模型，实现国内首个分镜与音频同步生成技术。模型具备”导演级”智能，可一键生成5秒、8秒或10秒的多镜头叙事单元，自动完成远景、中景、近景的自然切换。创新之处在于同步生成人声、环境声和情绪配音，使角色口型、动作与音频完美契合。来源：爱诗科技AIsphere

12月1·周一

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

DeepSeek正式发布DeepSeek-V3.2版本，包含标准版和Speciale长思考增强版。标准版平衡推理能力与输出效率，达到GPT-5水平；Speciale版在IMO、ICPC等国际竞赛中斩获金牌，推理能力媲美Gemini-3.0-Pro。升级首次实现思考与工具调用融合，在Agent评测中达到开源模型最高水平。来源：DeepSeek

字节视频模型Vidi2超越Gemini 3 Pro！理解能力爆表

字节跳动发布新一代视频理解模型Vidi2，在时空定位等核心任务上的表现超越GPT-5与Gemini 3 Pro。模型能精准理解数小时的长视频内容，直接生成包含剪辑时间点、字幕、配乐等细节的完整JSON剪辑方案，实现从原始素材到成片的AI自动化剪辑。来源：量子位

阶跃开源4B Agent模型GELab-Zero，跑通所有安卓设备

阶跃星辰开源GELab-Zero，推出4B参数GUI Agent模型GELab-Zero-4B-preview。模型在多项基准测试中取得同尺寸SOTA成绩，能流畅执行复杂与模糊指令。项目同步开源了完整的推理工程基建，支持一键部署、多设备任务分发，解决移动端Agent规模化落地的工程难题。来源：量子位

11月28·周五

DeepSeek强势回归，开源IMO金牌级数学模型DeepSeek-Math-V2

DeepSeek开源新一代数学模型DeepSeek-Math-V2，实现IMO金牌级推理能力。模型突破性引入自我验证机制，通过“生成器-验证器-元验证”三重架构，使AI具备检查并修正自身推理过程的能力。在IMO 2025测试中取得83.3%高分，Putnam 2024测试接近满分。来源：机器之心

昆仑万维AI音乐平台Mureka正式发布V7.6与O2双模型

昆仑万维旗下AI音乐平台Mureka正式发布V7.6与O2双模型，推动AI音乐创作进入“专业品质×实时体验”新阶段。新模型基于MusiCoT细粒度音乐建模体系，在编曲结构、语义映射及声场音质方面实现显著提升，支持10种语言生成及自定义歌手功能。来源：昆仑万维集团

混元3D Studio升级，可直出艺术家级3D资产

腾讯混元3D Studio升级至1.1版本，集成全新美术级3D生成模型PolyGen 1.5，实现端到端原生四边形网格生成技术突破。模型首创自适应混合拓扑能力，可直接生成布线规整的专业级3D资产，在布线质量、结构完整度等关键指标上超越现有SOTA方法。来源：腾讯混元

政策库

每日AI快讯

详细介绍

每日AI快讯热闻

相关推荐

洞见研报

秘塔AI搜索

AI工具

甲子光年

智慧城市行业分析

智慧城市咨询圈