标签： AI

AI与宗教打通人类语言障碍

AI通过宗教打通人类语言障碍：Meta 开源发布支持1100-4000种语言的语音技术

Massively Multilingual Speech (MMS) 支持1107种语言的 STT (语音转文本) 和 TTS (文本转语音)，可识别4017种口头语言。模型和代码在 CC-BY-NC 4.0 协议下开源，单词错误率只有 OpenAI Whisper 的一半。

“现有的语音识别模型和语音数据集仅涵盖大约100种语言——地球已知7000多种语言的一小部分。更令人担忧的是，这些语言中将近一半可能会在我们有生之年消失。通过这项工作，我们希望为保护世界语言多样性做出一点贡献。”

为收集数千种语言的音频数据 Meta 求助了《圣经》等宗教文本，这些文本已被翻译成了多种不同语言，并且已被广泛用于语言翻译研究，这些翻译的公开录音记录了人们用不同语言阅读这些文本的情况。通过1100多种语言的新约读物数据和4000多种其它基督宗教读物的无标签录音，Meta 成功将语言覆盖扩展为了此前10倍。

—— Meta AI

2024年12月5日
blockade labs unveils sketch mode for skybox ai image generator

Blockade Labs 宣布了其 Skybox AI 图像生成器的 Sketch 模式，该模式可根据您绘制的线条和文本提示创建环境。

—— Blockade Labs

2024年12月5日
DragGAN 刷屏 AI

通过交互式精确变形图像的 DragGAN 刷屏 AI 业界学界

DragGAN 可将图像中的任意部分精确”拖动”到目标位置，从而操纵动物、汽车、人类、风景等不同类别的姿势、形状、表情和布局。当给定想要移动的部分 (操纵点) 和想要移动到的位置 (目标点)，AI就会驱动操纵点精确到达相应的目标点。用户也可以局部绘制 (掩码)，使掩码以外的部分固定不变。

—— 项目地址

2024年12月5日
金山办公WPS AI接入四大组件即将上线

金山办公升级WPS AI 接入文字、表格、PPT、PDF四大组件

金山办公旗下生成式人工智能应用 WPS AI对外展示了类微软Copilot的能力，接入了文字、海外版表格、PPT演示文稿、PDF四大日常办公组件。

金山办公CEO章庆元表示，“未来几个月内，我们的产品会逐渐上线这些功能，国内和海外版有所区别，海外版直接使用OpenAI的接口，而国内在知识库构建上可能会更快一点。总的来说，我们的节奏应该比微软快很多。”

《科创板日报》记者了解到，WPS AI正在推进合规工作，正式上线时间以官方发布为准。

—— 财联社

2024年12月5日
软银启动AI竞赛

软银宣布加入 AI 竞赛：打造“日版 ChatGPT”

软银公司首席执行官宫川淳一在周三的财报会上表示，该部门于今年 3 月成立了一个新的实体，选择了约 1000 人来开发 OpenAI 公司人工智能聊天技术的日语版本，他没有详细说明该项目的目标或目前的进展情况。

软银集团的创始人兼亿万富翁孙正义多年来一直宣扬人工智能是改变我们使用技术方式的革命性力量，他最近召集了一群工程师，还讨论了 ChatGPT 的可能性。

—— IThome

2024年12月5日
谷歌AI技术大升级

谷歌在 Google I/O 2023 上全面升级AI技术

PaLM 2 模型发布，相较前代 PaLM 参数更少但能力远超。支持100多种自然语言和20多种编程语言，为超过25种新产品和功能提供支持。有着 Gecko 壁虎 (可移动端本地运行)、Otter 水獭、Bison 野牛、Unicorn 独角兽四种参数规格。 —— 《PaLM 2 技术报告》

Bard 现由 PaLM 2 驱动，已取消候补名单在180多个地区上线。升级后的 Bard 支持20多种编程语言，自然语言新增支持日语与韩语，很快将扩大支持40种语言包括中文。Bard 现在结合了 Google Lens 的识图能力与 Adobe Firefly 的图片生成能力，未来将有更多第三方工具接入。还更新了图文并茂回复、来源引用、代码/文本导出、深色模式等功能。

Duet AI 进入谷歌办公套件，包括在 Gmail 起草邮件、 Docs 文档编写、Sheets 表格处理、Slides 幻灯片生成、Meet 会议摘要等等。

Google Brain 和 DeepMind 今年开始合作研发的下一代模型 Gemini 双子座正在训练中，目前已经展现出了以往模型中从未出现过的多模态能力。据 The Information 消息 Gemini 将具有像 GPT-4 一样的万亿参数。

—— LatentSpace

2024年12月5日
中文AI能力评测发布即SuperCLUE

中文AI能力评测发布，即中文通用大模型综合性基准SuperCLUE。

这是针对中文可用的通用大模型的一个测评基准。

它主要回答的问题是：在当前通用大模型大力发展的背景下，中文大模型的效果情况，包括但不限于”这些模型不同任务的效果情况”、”相较于国际上的代表性模型做到了什么程度”、 “这些模型与人类的效果对比如何”。

2024年12月5日
谷歌在搜索结果中加入AI 聊天内容和更多的短视频

谷歌计划在搜索结果中加入AI 聊天内容和更多的短视频

谷歌正在改变其呈现搜索结果的方式，以结合与人工智能的对话，以及更多的短视频和社交媒体帖子，这与几十年来一直占据主导地位的网页列表搜索结果大相径庭。

这些变化表明随着包括 ChatGPT 等人工智能机器人的出现，谷歌正因人们在互联网上访问信息的方式发生重大变化而自我改变。据公司文件和知情人士透露，他们将推动这项服务进一步突破其传统“10条蓝链接”的搜索结果呈现形式。

—— 华尔街日报

2024年12月5日
OpenAI将筹集大规模资金来升级AI能力

OpenAI去年亏损翻倍，未来几年要筹千亿美元升级AI能力

当地时间5月4日，据科技媒体The Information报道，知情人士透露，OpenAI公司在2022年亏损翻倍，至5.4亿美元。数据表明，在该公司开始出售ChatGPT使用权限之前，其机器学习模型的训练成本高昂。

尽管在OpenAI于2月推出付费版聊天机器人后，公司收入有所增长，但随着越来越多的客户使用其人工智能技术，以及该公司对该软件未来版本进行培训，这些成本可能会继续上升。

此前，OpenAI首席执行官Sam Altman曾非公开地暗示，公司可能会在未来几年筹集至多1000亿美元资金，以进一步开发人工智能的能力。

—— 澎湃新闻

2024年12月5日
微软Bing Chat AI正式对所有人开放

微软 Bing Chat AI 现已对所有人开放，即将推出插件

微软今天向所有人开放其 Bing GPT-4 聊天机器人，无需再等待。您需要做的就是使用您的 Microsoft 帐户登录新必应或 Edge，现在您将访问由 GPT-4 提供支持的开放预览版。微软还通过大量新功能甚至插件支持对 Bing Chat 进行了大规模升级。

在微软尝试删除其新的 Bing Chat 功能的候补名单后将近两个月，此次开放预览发布。该聊天机器人最初于 2 月以私有预览（Private Preview）的形式推出，此后微软一直在逐步开放它。

微软现在正在为 Bing Chat 添加更多智能功能，包括图像和视频结果、新的 Bing 和 Edge Actions 功能、持久聊天和历史记录以及插件支持。插件支持将成为开发人员和 Bing Chat 未来的关键补充。

—— The Verge

2024年12月5日