10月盘点：AI 行业大事记

admin 2024-11-13 397次阅读

imToken 是一款全球领先的区块链数字资产管理工具[ZB]，帮助你安全管理BTC, ETH, ATOM, EOS, TRX, CKB, BCH, LTC, DOT, KSM, FIL, XTZ 资产，同时支持去中心化币币兑换功能 ...

State of AI 2024 报告，对未来 12 个月的 10 大预测

imtoken2.0安卓版

State of AI 报告每年 10 月份发布，最后是对未来 12 个月的预测，准确率一般来说还不错。

imtoken下载网址

今年的 10 条预测如下，让我们拭目以待：

某主权国家将向一家美国大型 AI 实验室投资超 100 亿美元，引发国家安全审查。

一款完全由无编码能力的人独立创建的应用或网站将会走红，跻身 App Store 前 100 名。

前沿实验室在数据收集实践上做出重大调整，源于一些相关案例进入审判阶段。

欧洲早期的《AI 法案》实施力度比预期温和，因立法者担心该法案过于严苛。

开源替代方案在多项推理基准测试中超越 o1。

竞争者未能对的市场地位造成实质性影响。

由于产品与市场需求不匹配，对类人机器人投资的热度将逐渐下降。

Apple 在设备端 AI 研究的强劲成果将加速设备端 AI 的发展势头。

由 AI 科学家生成的研究论文将在重要机器学习会议或研讨会上获得接收。

基于与生成式 AI 元素互动的电子游戏将取得爆发性成功。

以上信息整理来自 @Renee 创业随笔，推荐你看完她的整个系列笔记 ↓ ↓ ↓

一句话讲清一件大事

9 月 27 日

三只羊录音事件涉及 AI 公司出面回应

三只羊 AI 录音事件涉及到的 AI 语音产品公司出面回应，梳理了技术原理，解释了来龙去脉。

9 月 28 日

正式开源 -115B

完成首个全国产化万卡万参大模型训练，并正式开源 -115B

10 月 1 日

快手可灵 AI 全面开放 API

快手旗下可灵 AI （Kling AI）新增对口型功能，全面开放 API，并支持创意圈发布作品。

公布五项重大创新：实时 API、提示词缓存、模型蒸馏、视觉微调、新广场玩法。

10 月 2 日

Black Labs 发布 FLUX1.1 [pro]

黑森林团队（Black Labs）发布FLUX1.1 [pro]，是 FLUX 当前最新、最强大的文生图模型

苹果推出多模态大模型 MM1.5

苹果推出升级版多模态大模型 MM1.5，显著增强了文本密集型图像理解、视觉指代和定位、多图像推理等能力

10 月 3 日

发布

推出全新交互界面，这是自发布以来最大的 UI 更新（功能类似于组件）

10 月 8 日

2024 年诺贝尔物理学奖

颁给约翰·J·霍普菲尔德 John J。和杰弗里·E·辛顿 E。，表彰他们在使用人工神经网络进行机器学习的基础性发现和发明

10 月 9 日

2024 年诺贝尔化学奖

一半授予大卫·贝克 David Baker，表彰他在「计算蛋白质设计」方面的贡献；另一半授予戴密斯·哈萨比斯 Demis 和约翰·M·詹伯 John M。，表彰他们在「蛋白质结构预测」方面的贡献

10 月 10 日

字节发布首款 AI 智能体耳机 Ola

字节跳动发布首款 AI 智能体耳机 Ola ，接入豆包大模型并与豆包 App 深度结合，售价 1199 元

Vivo 增加蓝心端侧大模型 3B

发布全新 5，将大模型技术与手机操作系统深度融合；蓝心端侧大模型矩阵推出了全新的 30 亿蓝心端侧大模型 3B

谷歌图像生成模型 3 开放使用

向全球所有用户开放使用，这是谷歌迄今为止质量最高的图像生成模型

智源 BGE 登顶 Face 月榜

登顶 Face 月度榜单第一名，这是中国首个登顶模型，而且下载量全球第一（超过亿次）

State of AI 2024 报告发布

年度报告，总结过去一年的 AI 要点，并预测未来一年 AI 发展趋势，该系列自 2018 年问世以来已经坚持 7 年

10 月 11 日

智谱 GLM-4-Flash 与「沉浸式翻译」合作

智谱 GLM-4-Flash 模型与当红翻译插件「沉浸式翻译」合作，为所有用户提供免费的翻译服务（但是有点慢）

北大&北邮&快手开源高清视频生成模型 Flow

北京大学、北京邮电大学和快手联合开源高清视频生成模型 Flow，可基于输入文本生成最长 10 秒、分辨率高达、帧率 24fps 的高质量视频

10 月 12 日

开源多智能体协作框架 Swarm

开源多智能体协作框架Swarm，帮助开发者设计、编排和管理多智能体系统，更高效地完成复杂任务和工作流

深势科技完成数亿元人民币新一轮融资

深势科技完成数亿元人民币新一轮融资，北京国资再出手大模型，认可 AI for 赛道

苹果质疑当前 LLM 缺乏真正的逻辑推理能力

苹果研究团队发文表示，当前 LLM 缺乏真正的逻辑推理能力，更多是在基于训练数据中的模式进行匹配imToken钱包，不是像人类一样进行符号和逻辑推导

10 月 14 日

智谱开源文生图模型 -Plus-3B

智谱开源文生图模型 -Plus-3B，追平了当前最领先的问生图模型水平

Adobe 推出 AI 旋转工具

Adobe 推出创新 AI 工具，可以直接旋转已有的 2D 矢量图像到需要的角度，不再需重新绘制

新华社发布《人工智能时代新闻媒体的责任与使命》

新华社研究院全文发布《人工智能时代新闻媒体的责任与使命》

起诉 Open AI

起诉 Open AI：比先创业做 AGI，却最终成了被起诉的「勒索犯」，其实他们本来有数次合作机会，可惜都错过了

10 月 15 日

上海交大开源 F5-TTS

上海交通大学开源 F5-TTS，一款基于流匹配的全非自回归文本到语音转换系统，能 15 秒克隆声音，效果直追 Chat-TTS

联想创新科技大会 2024

联想创新科技大会 2024 开幕，发布 PC 个人 AI 智能体、搭载英伟达新核弹的液冷服务器，以及 AI 手机、AI PC、AI 服务器等新产品&新技术

10 月 16 日

英伟达开源 Llama-3.1--70B-

英伟达开源 Llama-3.1--70B-，排名仅次于发布的最新模型 o1 （能排这么高还是有点意外的）

Suno 将视频和图片生成音乐

Suno 推出新功能 Suno ，可以将给定的视频和图片生成 30 秒的音乐

10 月 17 日

OPPO 小布助手「一键问屏」功能

2024 OPPO 开发者大会，发布全新的系统级 AI 与 15；全新的小布助手具备了「一键问屏」智能功能

扣子上线 AI 最佳实践模板

字节 AI 应用「扣子」大更新，上线 AI 最佳实践模板，支持一键复制

AI 发布端侧模型 3B/8B

AI 发布 3B/8B，两款用于端侧的小模型

字节实习生田某某破坏模型训练事件

字节官方回应「实习生田某某破坏模型训练」事件真相：发生在 6 月底，确实是田某某所为，传闻损失夸张，田某某已被辞退

10 月 18 日

推出版

推出适用系统的应用；不过目前仅面向 Plus、Team、和 Edu 用户

开放全新生图 API

AI 生图工具开放全新生图 API，支持旗舰模型、经典模型、自定义模型等多种图像模式选择

上海推出 AI 百亿基金规划

上海推出 AI 百亿基金的规划：上海国资将联合米哈游、商汤科技、哔哩哔哩等企业，共同发起设立 AI 生态基金

10 月 21 日

WSJ 和 NYT 正式起诉

美国《华尔街日报》和《纽约邮报》正式起诉 AI 搜索公司，指控其侵犯版权；发文回应表示失望和惊讶。

智源发布原生多模态世界模型 Emu3

智源研究院发布原生多模态世界模型 Emu3，原理是只基于下一个 token 预测，无需扩散模型或组合方法，就可以完成文本、图像、视频三种模态数据的理解和生成。

昆仑万维&北大提出通用框架 MoE++

昆仑万维 2050 研究院与北大袁粒团队联合提出了通用框架 MoE++，相较于传统 MoE，具有更快的推理速度和更高的性能。

10 月 22 日

发布 2025 年十大战略技术趋势

发布 2025 年十大战略技术趋势，包括代理型 AI、AI 治理平台、混合计算、空间计算、多功能机器人等内容

开源多模态 LLM 框架 Janus

开源多模态 LLM 模型框架 Janus，能够统一处理多模态理解和生成任务

司南开源大模型能力评估模型

司南开源大模型能力模型，包含 1.5B、7B、14B 和 32B 共四个量级的模型

发布新功能 use；发布 3.5 Haiku，更新 3.5

发布革命性新功能 use，允许开发者指导像人类一样使用计算机，包括查看屏幕、移动光标、点击按钮和键入文本；同时发布 3.5 Haiku，并升级了 3.5 。

AI 发布 3.5

AI 发布自家最强模型 3.5，包含 3 个型号： 3.5 Large、3.5 Large Turbo、3.5

x.AI 正式推出 API

马斯克宣布 xAI 正式推出 API，并且支持函数调用，官方文档目前只有 Grok-beta 这一个模型

V1 官方桌面版开放内测

V1 即将发布官方桌面版，支持一键安装、支持多个平台、UI 全新升级，已开放内侧申请

华为发布纯血操作系统鸿蒙 OS NEXT

华为正式发布新操作系统鸿蒙 OS NEXT；这是我国首个国产移动操作系统，也是继苹果 iOS 和安卓系统后，全球第三大移动操作系统

10 月 23 日

Jina AI 推出高性能分类器 API

Jina AI 搜索底座推出 API，是一款高性能分类器，专为处理多模态和多语言数据而设计，支持零样本和小样本分类

发布图像生成模型 sCM

发布全新模型 sCM，图像生成速度提升 50 倍，开启实时、高质量、跨领域的生成式人工智能新阶段

上线外部图片编辑器

上线外部图片编辑器，允许用户上传本地图片，并进行扩展、裁剪、重绘、添加或修改场景内容等操作

发布动画视频功能 Act-One

发布 Act-One，将上传的真人表演视频，1 分钟直接转为动画视频，角色表情活灵活现，极大颠覆了传统动画制作流程

推出 AI 画板工具

推出 AI 画板工具，可以组织、生成、编辑和组合图像，在图片文字和写实风格的特色优势上再进一步

Genmo 开源视频生成模型 Mochi 1

Genmo 开源视频生成模型 Mochi 1，拥有 100 亿参数，生成的视频质量非常高，是开源领域的一次重大进步

荣耀发布操作系统 9.0

荣耀发布新一代操作系统 9.0，是首个搭载智能体的个人化全场景 AI 操作系统，10 月底正式开放

美国 14 岁少年与 C.AI 聊天后离世

美国一名受到精神疾病困扰的 14 岁少年，与聊天机器人告别后结束生命，其母状告 .AI 索赔；C.AI 公司回应已进行调整

新华社发文表示警惕「AI 污染」乱象

新华每日电讯发文表示，警惕「AI 污染」乱象

10 月 24 日

港中文&趣丸推出 TTS 模型

香港中文大学（深圳）联手趣丸科技推出的 TTS 模型（29 号成为榜单第一名！恭喜！)

科大讯飞发布讯飞星火 4.0 Turbo

科大讯飞发布讯飞星火 4.0 Turbo，以及正式启动国产超大规模智算平台「飞星二号」

阿里通义代码模式开始内测

阿里巴巴通义宣布「通义代码模式」imtoken安卓版下载20 ·(中国)官方网站，并在 App 内开放试用预约（可以理解为略略加强版的）

新增数据分析功能

平台新增「数据分析」功能，支持对上传数据文件直接编写并运行代码，从而完成复杂的数据处理和实时分析，并生成可视化图表

北京市大中小学推广 AI 学伴和 AI 导学应用

北京市教委等 5 部门近日发布《北京市教育领域人工智能应用工作方案》，提出面向全市大中小学推广 AI 学伴和 AI 导学应用

稚晖君开源「灵犀 X1」全套资料

稚晖君宣布开源「灵犀 X1」全套资料，人形机器人结构设计、推理代码、训练代码、硬件模块全开源

高管 Miles 离职

高管 Miles 离职，发长文回顾工作历程，并称离职是因为备受瞩目从文导致自己的研究受到了诸多限制

10 月 25 日

智谱开源端到端语音大模型 GLM-4-Voice

智谱发布并开源端到端语音大模型 GLM-4-Voice，能够根据用户指令灵活调整语音的情感、语调、语速及方言等特征，基本对齐 Mini-Omni

智谱发布

智谱发布，只需接收简单的文字/语音指令，它就可以模拟人类操作手机（ Web 通过「智谱清言」插件发布，可以根据用户指令在网站上自动完成高级检索、总结与内容生成）

阶跃星辰视频理解模型 step-1.5v-turbo 上线开放平台

阶跃星辰视频理解模型 step-1.5v-turbo 上线开放平台，模型具备出色的视频理解能力，能够准确识别视频中的物体、人物和环境

发布多项新功能，尤其是 Email

发布系列新功能，包括表单 Forms、布局、自动化、 AI、交易市场以及最受期待的 Email

arXiv 论文页面增加 Face 按钮

arXiv 论文页面增加 Face 按钮，选中可以直达相关的 Face 论文、模型、数据集

10 月 26 日

商汤科技被爆大裁员

商汤科技被爆大裁员，官方回应表示：公司的确是在积极推进战略转型，内部组织人才结构进行优化调整

Meta 发布并开源

Meta 发布并开源，能把 PDF 变播客（直接对标谷歌大火的）

10 月 28 日

Apple 正式开放（目前仅对美国）

苹果正式发布搭载 Apple 的 iOS 18.1，目前仅对美国用户开放

国际开源组织与 Meta 争吵「LLM 开源」的定义

国际开源组织 OSI 发布了对人工智能 Open Souce 的官方定义，直指 Meta 的 LLaMa 大模型不是「真开源」；双方陷入口水战

Arc 浏览器进入维护状态，公司明年发 AI 新品

Arc 浏览器宣布停止开发但会继续保持维护更新；明年初推出的新浏览器将采用水平选项卡并内置 AI 等功能

10 月 29 日

爱诗科技发布视频生成模型 V3

爱诗科技发布视频生成模型 V3，同时提供创意模板、口型匹配、故事续写和风格转换等多模态生成能力

智源推出视觉生成模型

智源研究院推出视觉生成模型，主打全能和统一，集文生图、指代表达生成、通用图像条件生成、图像编辑、经典计算机视觉任务等多功能于一身

10 月 30 日

宣布接入和

发布了新版，现在支持 GPT、、，并且发布了 Spark （自然语言编程，类似 v0）。

10 月 31 日

AI 文生图模型霸榜

文生图模型黑马霸榜 Face，把一众老前辈、Flux 全部踩在脚下。

下面的内容，我相信没人看

本篇内容

由南乔老师诚意制作

南乔自己的很棒的号：

本篇样式

由「带带弟弟排版器」AI 排版

公众号全程不费手

该排版器已在飞书灰度上线

imtoken下载网址_imtoken安卓版下载20 ·(中国)官方网站_imtoken2.0安卓版