当前位置:首页 > 区块链 > AI新智界丨每日必读：OpenAI向所有用户免费开放 ChatGPT 语音功能

AI新智界丨每日必读：OpenAI向所有用户免费开放 ChatGPT 语音功能

区块链
12-20 15:49

摘要：OpenAI 宣布，ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用，就能与 ChatGPT 进行自然的对话，体验犹如与真人交流一般的奇妙互动；Meta 最新发布了一系列 AI 翻译大模型，实现实时语音转换延迟不超过 2 秒，支持多种语言翻译，并具备模仿语气、语速、情感等特征的能力。

FvyEbf4XxU2mx0wMqRQpfPd509Dy

图片来源：由无界 AI生成

热门新闻：

Adobe 首席战略官：人工智能将推动更多招聘，而非减少

12 月 22 日报道，Adobe 首席战略官 Scott Belsky 表示，人工智能将使每个人更具创造力，激发公司扩张和增加招聘的需求。

Belsky 认为，人工智能提高了设计师的效率，但并未导致对创意人才的需求减少，相反，公司希望雇佣更多人以实现更多创新。他预测，随着公司变得更加高效，尤其是借助新的人工智能能力，它们将扩大业务范围，为小公司提供更多竞争机会。

恒信东方：AI 互动剧情游戏《山海之道》预计 12 月底上线正式版本

12 月 21 日报道，恒信东方在互动平台表示，公司 AI 互动剧情游戏《山海之道》的 AI 对话系统是公司自研的，目前应用的是百度文心大模型 4.0。后续会更新上线正式版本，将增加视频特效，并根据用户反馈持续优化，目前该版本在测试中，预计于 12 月底上线。

智源研究院发布 370 亿参数多模态大模型 Emu2

12 月 21 日，北京智源研究院宣布发布具有 370 亿参数的多模态大模型 Emu2。

据介绍，Emu2 在少样本多模态理解任务上大幅超越 Flamingo-80B、IDEFICS-80B 等主流多模态预训练大模型，在包括 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。

Emu2 表现出强大的多模态上下文学习能力，甚至可以解决需要即时推理的任务，例如视觉提示和基于对象的生成。基于 Emu2 微调的 Emu2-Chat 可以精准理解图文指令，实现更好的信息感知、意图理解和决策规划。Emu2-Gen 则可接受图像、文本、位置交错的序列作为输入，实现灵活、可控、高质量的图像和视频生成。研究团队还表示，Emu2 可以作为各种多模态任务的基础模型和通用接口。

埃森哲 CEO：AI 有望在 3-5 年内成为埃森哲业务重要的一环

埃森哲首席执行官 Julie Sweet 近日受访时表示，大多数企业都还没有做好大规模部署生成式人工智能（generative AI）的准备、目前仍处于实验阶段，因为他们缺乏强大的信息基础设施或确保 AI 可以安全使用所需的控制措施。Sweet 指出，大多数公司没有成熟的数据能力，多数企业运行长还不知道 AI 可以应用在哪个地方、存在哪些风险以及如何降低风险。尽管如此，Sweet 仍预期 AI 有望在 3-5 年内成为埃森哲业务重要的一环。

Meta 发布全新 AI 翻译大模型，实时语音转换不超 2 秒

12 月 22 日报道，Meta 最新发布了一系列 AI 翻译大模型，实现实时语音转换延迟不超过 2 秒，支持多种语言翻译，并具备模仿语气、语速、情感等特征的能力。这一系列模型名为 Seamless Communication，包括 SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2 和 Seamless，其中前三个已经在 GitHub 上开源。

为确保翻译准确性和避免滥用，Meta 采用了毒性缓解技术，在训练前过滤“有毒内容”并在翻译生成过程中自动检测和调整生成的有毒单词，同时为音频添加了水印以追踪来源。为了防止滥用风险，Meta 还为音频添加了水印，通过在音频中嵌入不可察觉的信号，可以准确追踪音频的来源，并对抗各种攻击手段。

ChatGPT 语音功能现已面向所有免费用户开放

12 月 21 日报道，OpenAI 宣布，ChatGPT 的语音功能现已面向所有免费用户开放。意味着无需支付任何费用，就能与 ChatGPT 进行自然的对话，体验犹如与真人交流一般的奇妙互动。

报告：Gemini-Pro 在多模态领域的表现和 GPT-4V 不相上下

12 月 22 日报道，近期的 Gemini-Pro 评测报告显示其在多模态领域取得了显著的进展，与 GPT-4V 不相上下，甚至在某些方面表现更为出色。首先，在多模态专有基准 MME 上的综合表现中，Gemini-Pro 以 1933.4 的高分超越了 GPT-4V，展现出在感知和认知方面的全面优势。