在教育和人工智能技术不断融合的今天,浙江大学与阿里巴巴达摩院联合发布了一项令人瞩目的研究成果:通过教学视频创建高质量的多模态教科书。这一创新举措不仅为大规模语言模型(VLMs)的训练提供了全新的数据源,也为未来教育内容的获取与应用带来了革命性的变化。“视频到教科书”:从海量教学视频中提取核心知识传统的VLM训练数据主要依赖于网页内容中的图文数据,但这些数据往往缺乏足够的知识密度和视觉关联性,难以支...
在人工智能领域的竞争愈发激烈的今天,北京月之暗面科技有限公司近日再次引发行业轰动,发布了全新的 k1.5多模态思考模型,将AI推理能力提升至前所未有的高度。经过短短三个月的密集研发,Kimi在继k0-math数学模型和k1视觉思考模型之后,再度突破自我,带来了一款多模态推理和通用推理能力都达到了行业领先水平的全新模型。全球领先的多模态推理能力这一次,Kimi的技术团队不仅在短链思维(short-C...
在人工智能领域的多模态推理技术中,Kimi发布的K1.5模型无疑是一次重要的技术突破。作为一款具有高度智能化的AI系统,Kimi的K1.5模型将视觉、语言、听觉等多种模态的数据融合,并进行跨模态推理,展现出超越传统单一模态系统的强大能力。本文将从技术原理、创新亮点、行业影响及未来发展方向等多个维度,深入探讨K1.5的价值与前景。一、多模态推理:从单一模态到多维认知传统的AI模型大多侧重于单一模态的...
在瑞士达沃斯论坛期间,OpenAI首席产品官凯文·维尔(Kevin Weil)在接受《华尔街日报》科技专栏作家乔安娜·斯特恩(Joanna Stern)采访时透露,OpenAI即将推出全新的GPT-03模型,并首度推出AI智能体工具,使ChatGPT能够在计算机上执行更复杂的实际操作,进一步推动人工智能(AI)的应用边界。GPT-03模型:更智能、更高效、更贴近人类思维维尔表示,GPT-03将成为...
近日,抖音母公司字节跳动正式发布其人工智能聊天机器人背后的核心驱动力——豆包大模型1.5 Pro,这标志着该公司在全球AI竞赛中迈出的又一关键步伐,并进一步巩固其在大语言模型领域的领先地位。豆包1.5 Pro:性能大幅提升,全面对标国际竞品据字节跳动官方微信公众号发布的信息,**豆包大模型1.5 Pro在多个权威基准测试中取得了卓越成绩,**在语言理解、逻辑推理、代码生成以及多模态交互等方面均实现...
近日,上海阶跃星辰智能科技有限公司宣布,其自主研发的视频生成模型Step-Video正式升级至V2版本,带来了显著的技术突破与全新功能,进一步提升了真实世界模拟能力,为视频内容创作提供更强大的技术支持。Step-Video V2:高效压缩与深度优化,开启智能视频生成新时代据阶跃星辰官方介绍,Step-Video V2在多个核心技术领域实现了全面升级,在提升生成效率和视频质量的同时,也增强了对复杂场...
人工智能(AI)正以前所未有的速度重塑全球,硅谷依然是这场科技革命的核心引擎。2025年,AI领域的最新趋势和挑战是什么?在近日举办的Scale With AI活动中,全球顶级AI研究员、投资人及创业者齐聚一堂,分享了关于人工智能的深度洞察。本文将带你解读60条关键洞察,揭示未来AI发展的核心趋势,帮助你把握行业风口。1. LLM预训练接近瓶颈,后训练成突破关键大模型开发进入新阶段预训练(Pre-...
近日,由Scale AI和Center for AI Safety(CAIS) 联合发起的全球AI挑战——「人类最后一次考试」(Humanity’s Last Exam,简称 HLE)公布了最新测试结果。令人震惊的是,即便是当前最强的AI大模型,正确率也未能突破10%。曾被寄予厚望的GPT-4.0、Claude 3.5、Gemini等行业领先模型,均未能展现出预期的智能表现,而中国的DeepSee...
——从《三体》到虚拟偶像,一场颠覆传统IP生态的「智能叙事炼金术」一、IP生态的范式转移:从“人脑创作”到“人机共生”2025年,全球IP经济规模突破5万亿美元,但传统IP开发周期长、试错成本高的痛点日益凸显。当OpenAI发布GPT-6实现多模态内容全链条生成,Midjourney V7支持电影级分镜自动渲染,一场“智能叙事革命”正以指数级速度重构IP产业。数据洞察:中国AI内容生成市场规模达3...
在全球人工智能应用加速落地的关键时刻,OpenAI、Perplexity AI 与 Anthropic 三大玩家几乎同日宣布重要升级:OpenAI 全新推出“Operator”代理,以多模态能力与强化学习技术挑战更复杂的日常自动化;Perplexity AI 则把类似功能带到了 Android 应用;而 Anthropic 则针对企业级客户提供了新的“Citations”引用功能,以完善其模型的可...
人工智能领域再度迎来一次里程碑时刻:2025年1月28日凌晨,国产AI先驱DeepSeek正式发布其全新的多模态AI模型——Janus-Pro-7B。这一模型在多项基准测试中取得耀眼成绩,并以完全开源的形式为全球开发者与研究人员敞开大门,体现了DeepSeek推动AI生态繁荣的雄心。一、多模态升级:自回归框架实现“图像理解”与“图像生成”分离1. 基于Janus模型的全新进化Janus-Pro-7...
2025年春节前,DeepSeek发布了V3版本和R1版本,并在除夕夜推出Janus-Pro,迅速引发轰动。整个假期,DeepSeek横扫GitHub和Hugging Face,成为科技圈讨论的焦点。然而,在庆祝其成功的同时,它也遭遇了国家级的DDoS攻击,服务屡次中断,影响了大量AI爱好者的使用体验。尽管如此,DeepSeek的迅速恢复显示了其强大的技术能力和韧性。打破成本壁垒,革新AI产业De...
全球知名的人工智能科学家许主洪(Steven Hoi)已正式加盟阿里巴巴,担任副总裁一职,负责阿里集团AI To C(面向消费者)业务的多模态基础模型与智能代理(Agents)的前沿研究与应用开发。此举标志着阿里巴巴在人工智能领域的再度升级,尤其是在推动AI技术应用于消费者产品上的突破。引领创新,推动AI技术与应用融合根据消息来源,许主洪将重点致力于提升阿里巴巴AI To C业务的多模态基础模型的...
快科技 2 月 9 日消息——在 AI 竞赛日趋白热化的今天,阿里巴巴正在加速布局 AI 消费市场。2 月 6 日,多家媒体证实,全球顶尖 AI 科学家许主洪(Steven Hoi)正式加入阿里巴巴,出任集团副总裁,主导 AI To C 业务的多模态基础模型及 AI Agents 相关研究。消息一出,业内纷纷解读,这位横跨学术、产业与创业的 AI 大牛,将成为阿里 AI 战略调整的关键棋子。而阿里...
去年底,Google DeepMind掀起了智能体时代的序幕,推出了面向未来的 Gemini 2.0 Flash 模型,标志着一只脚已经踏入2.0时代。时隔两个月,Gemini 2.0 系列全家桶终于正式亮相,这一次,不仅在性能上实现了进一步突破,还大举挥舞起AI性价比的大旗,并全面拥抱多模态能力。在DeepSeek的“鲶鱼效应”不断催化下,Google此次发布的 Gemini 2.0 系列产品各...
在人工智能领域,开源的力量正在悄然重塑着技术的开发与部署模式。今天,我们聚焦一款崭露头角的开源AI平台——Oumi,它凭借强大的功能和灵活的架构,正吸引着全球开发者和企业的目光。Oumi是什么?解构AI开发新生态Oumi是一个完全开源的AI平台,旨在简化从数据准备、模型训练、评估到最终部署的整个生命周期。它支持训练从1000万到4050亿参数的各种模型,包括文本和多模态模型(如Llama、Qwen...