追问weekly | 过去一周，AI领域有哪些新突破？|算法|人工智能|神经网络|ai领域|视频生成模型

分享至

█政策法规

微软将投资 29 亿美元推动日本人工智能发展

OpenAI 在东京设立办公室并推出针对日本的定制GPT-4版本

英国和韩国将共同举办人工智能首尔峰会

人工智能繁荣将促进英国经济发展

微软与G42联手：中东AI的战略格局与政治

微软人工智能在伦敦开设中心以获取“巨大的人才库”

韩国AI芯片70亿美元投资，目标全球半导体霸主！

█大模型与基础建设

Meta 确认其 Llama 3 开源 LLM 于本周推出

OpenAI使带有 VisionAPI 的 GPT-4Turbo 全面可用

Elon Musk的Grok-1.5V，让AI学会“看图说话”

CloudNext 2024：生成式 AI给谷歌带来更多动力

StabilityAI 推出两个新版本的语言模型

英特尔推出用于生成式AI 的Gaudi 3 加速器

Google携Axion芯片入局，AI芯片大战“臂力”激增！

世界首款可编程光子芯片问世，未来计算将“光”速前行！

Taichi芯片：点亮AI未来的光明之星

█技术与研发

Cohere AI推出Rerank3，让企业搜索变得像找针一样

MetaAI 推出 OpenEQA，从语言模型到世界模型

谷歌研发的无限记忆术：通过机器学习让模型记住“长篇巨制”

Jemma：将思维转化为代码的AI新星

机器学习的记忆力考验：图宾根大学评测知识数据集

斯坦福团队模型训练新炼金术ReFT：冻结、减参数、缩短时间

哈佛科学家揭示：如何用文字序列的“魔法”操纵搜索结果

微软AI的“想象力”：让机器学习模型学会空间思考

█应用与实践

给每个员工配备GenAICoach，Pega让工作不再迷茫！

LimitlessPendant：AI"记忆助手"，让你的对话永不遗忘！

利用Google的流媒体模型实现任意长度的实时字幕

Google地图AI升级：旅行规划从此“一搜即达”

未来眼镜：AI声纳智能眼镜，让视障者“听见”世界！

机器人耳朵升级：水陆两栖AI，对话无障碍！

█交叉与创新

让大语言模型像大脑一样经济高效

EXSCLAIM!：AI如何从科学文献中“挖掘”图像宝藏

大脑+AI最新创想：混合神经网络！

从小鼠细胞中获取的肌肉组织可移动“生物混合”机器人

陪伴型AI助理的愿景，先让宠物们享受起来！

*如需定位对应内容，请使用微信的检索功能

（点击右上方三点，找到查找页面内容按钮）

政策法规

微软将投资 29 亿美元推动日本人工智能发展

微软宣布了一项令人瞩目的计划：在未来两年内，将在日本投资高达29亿美元，以加速该国的人工智能和云计算基础设施建设。这不仅是微软在日本46年历史上的最大单笔投资，更是对日本数字化转型的一剂强心针。

微软的投资不仅仅关注硬件，还包括对人才的培养。通过扩展数字技能培训项目，微软将帮助日本培养必要的AI专业人才，这对于推动日本的数字化转型和AI技术的采用至关重要。同时，新成立的微软亚洲研究实验室将致力于AI和机器人技术的研究，进一步推动日本在科技领域的创新。

在网络攻击和数据泄露事件日益增多的今天，网络安全的重要性不言而喻。微软的投资计划中也包括与日本政府合作加强网络防御的措施。这一合作将帮助日本提高对抗来自其他国家的网络威胁，以及全球范围内日益增长的勒索软件活动的能力。

https://news.microsoft.com/apac/2024/04/10/microsoft-to-invest-us2-9-billion-in-ai-and-cloud-infrastructure-in-japan-while-boosting-the-nations-skills-research-and-cybersecurity/

OpenAI 在东京设立办公室并推出针对日本的定制 GPT-4 版本

OpenAI宣布计划在东京开设办事处并发布针对处理日语文本进行优化的GP-4版本。

该办公室是该公司周日晚间公布的第三家国际中心。OpenAI去年在伦敦和都柏林设立了分支机构。随着这家人工智能开发商努力进一步扩大其市场覆盖范围，可能会有更多国际办事处效仿。

https://siliconangle.com/2024/04/15/openai-opens-tokyo-office-debuts-custom-gpt-4-version-japan/

英国和韩国将共同举办人工智能首尔峰会

英国和韩国将于5月21日至22日共同举办人工智能首尔峰会。此次峰会旨在借鉴《布莱切利宣言》规定的合作框架，为人工智能技术的安全发展铺平道路。

为期两天的活动将包括由英国首相里希·苏纳克和韩国总统尹锡烈共同主持的虚拟领导人会议，以及随后举行的数字部长之间的面对面会议。英国科技大臣米歇尔·多内兰和韩国科学和信息通信技术部长李钟镐将共同主持后者。

此次峰会以去年在英国历史名胜布莱切利园举行的历史性讨论为基础，强调人工智能的安全性、包容性和创新性。其目的是确保人工智能的发展造福人类，同时最大限度地降低潜在风险并加强全球技术创新治理。

https://www.artificialintelligence-news.com/2024/04/12/uk-and-south-korea-cohost-ai-seoul-summit/

国际货币基金组织预计英国经济将成为人工智能繁荣的最大增长赢家

国际货币基金组织预计英国经济将成为人工智能革命的最大赢家之一，有可能改变其疲软的增长前景并提高工资。

英国在周二发布的《世界经济展望》中预测，人工智能每年将使生产率提高0.9%至1.5%，这一提振作用或将帮助英国经济摆脱长期低迷。这一提振作用远高于人工智能每年为全球经济带来的0.1%至0.8%的生产率增幅。

https://www.bloomberg.com/news/articles/2024-04-16/imf-expects-uk-economy-to-be-big-growth-winner-from-ai-boom?srnd=technology-ai

微软与G42联手：中东AI的战略格局与政治

在全球科技巨头争夺人工智能领域的主导权的背景下，微软宣布对阿联酋人工智能公司G42进行15亿美元的战略投资，这一举措不仅展示了微软在AI领域的雄心，也反映了美国在中东地区科技影响力的战略部署。

微软的这一投资是对AI初创公司今年最大的一轮融资，也是微软继OpenAI和Cruise之后对AI公司的第三大投资。这一战略投资进一步凸显了微软在AI市场中的主导地位。微软表示，这一合作得到了美国和阿联酋政府的保证，是首次达成的一项旨在确保AI安全和负责任发展的最佳实践协议。

G42是一家技术控股公司，也是AI领域的巨头，对阿联酋成为世界AI领导者的计划至关重要。该公司由阿布扎比皇室家族中最有权势的成员之一、阿联酋国家安全顾问SheikhTahnoon bin Zayed Al Nahyan主持，并得到阿联酋主权财富基金Mubadala的支持。自2018年成立以来，G42已与OpenAI、Dell、IBM、微软、Nvidia和Oracle等主要公司建立了合作关系。

根据合作协议，微软将使G42能够销售和使用其强大的AI芯片来训练和微调AI生成模型。作为回报，这家受到华盛顿审查的沙特公司将使用微软的云服务，并遵守与美国政府协商的严格安全协议。该协议为双方共享的AI产品设立了各种保护措施，包括同意从G42的运营中移除中国设备。

https://blogs.microsoft.com/blog/2024/04/15/microsoft-and-g42-partner-to-accelerate-ai-innovation-in-uae-and-beyond/

微软人工智能在伦敦开设中心以获取“巨大的人才库”

微软正在加倍加大在英国的人工智能努力，在伦敦开设了一个重要的新人工智能中心。微软人工智能伦敦前哨基地将专注于推进最先进的语言模型、支持基础设施和基础模型工具。

微软通过位于剑桥的微软研究实验室在英国开展人工智能研究。然而，新的微软人工智能伦敦专用中心标志着该公司加大了在英国推进该领域的承诺。这项投资建立在微软最近宣布的25亿英镑承诺之上，该承诺旨在提高英国劳动力技能并建设人工智能基础设施，包括到2026年为该国提供20,000个先进GPU。

https://www.artificialintelligence-news.com/2024/04/08/microsoft-ai-opens-london-hub-enormous-pool-talent/

韩国AI芯片70亿美元投资，目标全球半导体霸主！

韩国总统尹锡悦近日宣布，到2027年，韩国将投资高达9.4万亿韩元（约合69.4亿美元）用于人工智能技术的发展，特别是在半导体芯片领域。这一宏伟计划的目标是巩固韩国在全球半导体市场的领先地位，并应对来自美国、中国和日本等国家的激烈竞争。

这项投资计划不仅包括资金的注入，还涉及到对AI半导体公司的扶持，其中包括独立的1.4万亿韩元基金。这些资金将被用于推动人工神经处理单元（NPU）和下一代高带宽内存芯片等关键技术的研发。此外，韩国政府还将促进下一代人工通用智能（AGI）和安全技术的发展，以确保技术的领先和安全。

尹锡悦总统设定了雄心勃勃的目标，希望到2030年，韩国能成为全球AI技术（包括芯片）的前三强，并占据全球系统半导体市场10%以上的份额。

https://edition.cnn.com/2024/04/09/tech/southkorea-ai-investment-chips-competitiveness-intl-hnk/index.html

大模型与基础建设

Meta 确认其 Llama 3 开源 LLM 于本周推出

Meta 公司的 Llama3 是开放获取的Llama系列的最新版本，现已在HuggingFace 平台发布。Llama3 提供两个版本：8B 版本适合在消费级GPU上高效部署和开发；70B 版本则专为大规模AI应用设计。每个版本都包括基础和指令调优两种形式。此外，基于Llama3 8B 微调后的LlamaGuard 新版本也已作为LlamaGuard 2（安全微调版本）发布。

Meta 表示，Llama3 在多个关键的基准测试中性能优于业界先进同类模型，其在代码生成等任务上实现了全面领先，能够进行复杂的推理，可以更遵循指令，能够可视化想法并解决很多微妙的问题。

简而言之，Llama3 的主要亮点包括：（1）基于超过 15T token 训练，相当于Llama2 数据集的7倍还多；（2）支持 8K 长文本，改进的 tokenizer具有128Ktoken 的词汇量，可实现更好的性能；（3）在大量重要基准中均具有最先进性能；（4）新能力范畴，包括增强的推理和代码能力；（5）训练效率比Llama2 高3倍；（6）带有 LlamaGuard 2、CodeShield 和CyberSec Eval2 的新版信任和安全工具。

Llama3 模型很快将在AWS、Databricks、GoogleCloud、HuggingFace、Kaggle、IBM WatsonX、MicrosoftAzure、NVIDIANIM 和Snowflake上推出，并得到AMD、AWS、Dell、Intel、NVIDIA提供的硬件平台的支持。

https://llama.meta.com/llama3/

OpenAI使带有 VisionAPI 的 GPT-4Turbo 全面可用

OpenAI宣布其强大的GPT-4 Turbo with Vision 模型现已通过公司的 API全面开放，为企业和开发人员将高级语言和视觉功能集成到其应用程序中提供了新的机会。GPT-4Turbo 承诺显着提高速度，提供高达 128,000 个令牌（相当于约 300 个页面）的更大输入上下文窗口，并提高开发人员的负担能力。一个关键的增强是API 请求能够通过文本格式 JSON 和函数调用来利用模型的视觉识别和分析功能。

https://www.artificialintelligence-news.com/2024/04/10/openai-gpt-4-turbo-with-vision-api-generally-available/

Elon Musk的Grok-1.5V，让AI学会“看图说话”

Grok-1.5V是一种先进的多模态AI模型，它能够无缝整合文本和视觉信息。这意味着，Grok-1.5V不仅可以阅读文字，还能“看懂”图片，并且能够将这两种信息结合起来，进行深层次的分析和理解。与前代产品不同，Grok-1.5V无缝集成了文本和视觉处理，为AI应用开辟了新视野。

Grok-1.5V通过实际应用展示了其多功能性，例如从图表生成代码、将绘图解释成故事，甚至提供家庭维护建议。这些功能凸显了Grok-1.5V彻底改变日常任务的潜力。

https://www.analyticsvidhya.com/blog/2024/04/elon-musks-xai-launches-preview-of-grok-v-multimodal-model/

CloudNext 2024：生成式 AI给谷歌带来更多动力

Gemini1.5 Pro 表现出显着增强的性能，并在长上下文理解方面取得了突破。这意味着它可以持续运行100 万个Token，为企业使用人工智能进行创造、发现和构建开辟了新的可能性。

当与 Gemini的多模式功能（可以处理音频、视频、文本、代码等）相结合时，长上下文使企业能够做到以前人工智能无法做到的事情。例如，游戏公司可以提供玩家表现的视频分析以及改进建议。或者保险公司可以结合视频、图像和文本输入来创建事件报告，从而使索赔过程更加容易。还将扩大对开放模型Gemma新版本的访问范围，旨在帮助客户进行代码生成和其他类型的代码帮助。

这些现已在VertexAI 上提供，VertexAI 是GoogleCloud 的平台，用于定制和全面管理各种领先的人工智能模型。如今，超过100万开发人员正在使用谷歌的生成式AI工具，包括AI Studio 和 Vertex AI。此外，通过VertexAI，客户现在可以通过两种新方式增强和基础他们的模型——将模型输出连接到可验证的信息源。第一个是Google搜索，它提供高质量的信息以提高响应的准确性。第二个是您自己的数据和事实来源，例如Workday或Salesforce等企业应用程序以及BigQuery 等 GoogleCloud 数据库。

谷歌的 AI 超级计算机结合了TPU、GPU、AI 软件等，为训练和服务模型提供性能和成本优势。同时，谷歌宣布全面推出TPUv5p，这是用于训练和推理的最强大、可扩展且灵活的AI加速器，其计算能力是上一代的4倍。

谷歌将升级GeminiCode Assist，它可以生成和测试代码。最令人兴奋的功能之一是新增了 Gemini1.5 Pro（私人预览版）——借助更大的上下文窗口，它可以提供更准确的代码建议和更深入的见解。

https://blog.google/products/google-cloud/google-cloud-next-2024-generative-ai-gemini/#models-expanded-access

StabilityAI 推出两个新版本的语言模型

英国和韩国将于5月21日至22日共同举办人工智能首尔峰会。此次峰会旨在借鉴《布莱切利宣言》规定的合作框架，为人工智能技术的安全发展铺平道路。

https://www.artificialintelligence-news.com/2024/04/12/uk-and-south-korea-cohost-ai-seoul-summit/

英特尔推出用于生成式AI 的Gaudi 3 加速器

英特尔推出了最新的人工智能芯片Gaudi3，以挑战英伟达在人工智能应用半导体市场的主导地位。在4月9日的IntelVision 活动上，该公司解释说，通过利用台积电的5nm工艺，Gaudi3 的性能优于Nvidia的上一代H100处理器。

Gaudi3采用5nm工艺技术制造，在架构上进行了重大改进，包括增加更多TPC和MME，为 AI 操作的并行处理提供了必要的计算能力，从而大幅缩短了复杂AI模型的训练和推理时间。与其前代产品Gaudi2 相比，Gaudi3 扩展了其硬件功能，拥有更多的矩阵数学引擎和TensorCore。具体而言，它的MME从2个增加到4个，TPC 从 24 个增加到 32 个，增强了其对AI工作负载的处理能力。

新型加速器拥有1835TFLOPS 的FP8精度吞吐量，是Gaudi2 性能的两倍。它还显著提高了BF16性能，不过并未披露此次改进的具体吞吐量数字。它拥有 128GBHBMe2 内存，提供3.7TB/s的内存带宽和96MB板载静态RAM。如此巨大的内存容量和带宽支持高效处理大型数据集，这对于训练和运行大型AI模型至关重要。

英特尔预计，Gaudi 3 在各种参数化模型的训练速度、推理吞吐量和功率效率方面将显著超越 Nvidia 的 H100 和 H200 等竞争产品。英特尔还预测，Gaudi3 在多个参数化模型中将比领先竞争对手的训练时间平均快50%，推理吞吐量和能效也更出色。这包括在较长的输入和输出序列上实现更大的推理性能优势。

https://www.forbes.com/sites/moorinsights/2024/04/16/intel-announces-gaudi-3-accelerator-for-generative-ai/?sh=26a6020f5857

Google携Axion芯片入局，AI芯片大战“臂力”激增！

在芯片大战中，Google不甘示弱，推出了自家研发的Arm架构CPU——Axion。这不仅是Google在硬件领域的一次大胆尝试，更是在AI芯片竞赛中投下了一枚重量级武器。Axion不仅仅是一颗普通的CPU，它是Google为数据中心量身定制的，专为处理AI工作负载而设计。这颗芯片基于Arm Neoverse V2平台，以其卓越的性能和能效比引人注目。Axion芯片的性能是Google前代产品的三倍，这得益于其在台积电的5纳米工艺下生产。这种高性能的AI芯片专为Google的排名和推荐模型设计，能够极大提高算法训练的效率和推理任务的处理速度。同时，Axion的节能特性也为数据中心的环保贡献了一份力。

目前，Axion芯片已经在Google的多项服务中得到应用，包括YouTube广告、GoogleEarth Engine等。这不仅证明了Axion的实战能力，也展示了其在多种AI场景下的适用性。

https://www.scmp.com/tech/tech-trends/article/3258461/google-unveils-arm-based-axion-chips-ai-intel-details-gaudi-3-ai-chip-amid-race-against-nvidia

光速革命：世界首款可编程光子芯片问世，未来计算将“光”速前行！

最近，Photonics Research Laboratory (PRL)-iTEAM的瓦伦西亚理工大学（UPV）研究人员与私营公司iPronics合作开发了世界上第一款通用、可编程和多功能光子芯片。这一发明预计将对电信、数据中心以及科技领域的热门词汇——人工智能（AI）系统产生革命性影响。这一突破性进展预示着我们的计算方式即将迎来革命性的变革。这款芯片使用光而非电子来处理信息，不仅能实现更小、更快的芯片设计，还能大幅降低热效应，为未来的计算技术带来前所未有的可能性。

为了促进信息处理的转变，光子芯片使用光学组件（如波导、激光器和偏振器）来处理信息，而不是电子组件（如电阻器或晶体管）。这种方法可以进一步将芯片微型化，同时以更快的速度和较低的热效应处理信息。这项技术可以轻松扩展并集成到现有的数据处理流程中，使其在计算领域成为一种具有吸引力的选择。

在欧洲研究理事会的资助下，UPV和iPRONICS的研究人员已经构建了一款革命性的芯片，该芯片允许按需编程并无缝连接无线和光子段。这种方法消除了可能产生的瓶颈，并提高了芯片的容量和带宽。

诸如5G或自动驾驶汽车等应用需要更高的频率，因此需要进一步减小天线和集成电路的尺寸。UPV的Capmany团队已经在此方面开展了工作，并成功设计了多种组件。

https://interestingengineering.com/innovation/worlds-first-photonic-chip

Taichi芯片：点亮AI未来的光明之星

来自中国清华大学和北京信息科学技术国家研究中心的工程师团队在Science杂志上发表了一项划时代的研究，他们开发出了名为Taichi的大规模衍射混合光子AI芯片。这不仅是一次技术上的飞跃，更是向人工通用智能（AGI）迈出的坚实一步。

与其他基于光的芯片类似，Taichi的独特之处在于其可扩展性，这使得它能够轻松地与其他芯片组合，共同构建一个神经网络基础的计算机，其人工智能能力有望匹敌甚至超越人类大脑。

在测试Taichi芯片时，研究团队发现它能够实现高达1396万个人工神经元的网络规模，这远远超过了其他芯片制造商报告的147万个神经元。这一成就不仅展示了Taichi在处理能力上的优势，也为未来AGI的发展奠定了坚实的基础。

https://techxplore.com/news/2024-04-taichi-large-scale-diffractive-hybrid.html

技术与研发

CohereAI推出Rerank3，让企业搜索变得像找针一样

Cohere AI最近推出了其最新的基础模型Rerank 3，这一模型专为优化企业搜索和检索增强生成（RAG）系统而设计。Rerank 3不仅提升了搜索的准确性和效率，还大幅降低了成本，使其成为企业数据管理系统的新宠。

Rerank 3是一个全面优化企业搜索和检索增强生成（RAG）系统的基础模型。这个模型能够处理各种复杂的半结构化数据，包括但不限于电子邮件、发票、JSON文档、代码和表格。多语言支持，全球化的最佳伙伴。

Rerank 3支持超过100种语言，这对于全球化的企业来说，无疑是一个巨大的福音；无论你的数据源是英语、西班牙语还是普通话，Rerank 3都能够提供精准的搜索结果。

性能提升，速度与效率的双重飞跃。与前代模型相比，Rerank 3在推理速度上提升了三倍。还能处理长达4k上下文长度的文档，这大大提高了长文档搜索的质量，减少了数据切分的需求。

与其他大型语言生成模型相比，Rerank 3能够在不牺牲质量的前提下，将成本降低高达98%；这无疑能触动对于成本敏感的企业的神经。

Rerank 3的架构设计允许它以最小的努力无缝集成到现有的搜索系统或遗留应用程序中；只需一行代码，就能让企业的搜索功能智能化，这让技术集成变得前所未有的简单。

https://cohere.com/rerank

MetaAI 推出 OpenEQA，从语言模型到世界模型

Meta AI发布了OpenEQA，即开放词汇体现问答基准。这一创新框架不仅是AI发展阶梯上的又一个台阶；它更像是一个新的游乐场，让AI代理可以在环境理解的领域里尽情玩耍。

LLM尽管拥有熟练的历史知识和富有洞察力的反应，但在实时理解方面却严重缺乏。 OpenEQA旨在赋予AI代理的实时理解能力；这就像给AI一双眼睛和一种好奇心，让它对周围的环境提出问题，更重要的是，理解答案。

OpenEQA旨在通过开放词汇查询来评估人工智能代理对其环境的理解，类似于通过询问一个人问题并分析他们的回答来测试一个人对某个主题的理解。第一个支持情景记忆和主动探索用例的开放词汇基准数据集，用于EQA。该基准包含来自180多个电影和物理环境扫描的真实环境的1600多个人类生成的问题。包括两类评测的基准：情景记忆问答、主动具体问题的回答。

即使在最有效的模型（GPT-4V 为 48.5%）中，人类表现 (85.9%) 与 OpenEQA 对各种最先进的视觉+语言基础模型 (VLM) 的基准测试也存在显着差距。即使是最先进的 VLM 也难以解决空间理解问题，这表明使用视觉信息的模型并未充分利用它。

OpenEQA集成了以自然语言响应的能力和处理困难的开放词汇查询的能力。产生了一个易于理解的指标，显示环境专业知识，同时挑战基本假设。

https://open-eqa.github.io/

谷歌研发的无限记忆术：通过机器学习让模型记住“长篇巨制”

在数字世界的记忆宫殿中，谷歌AI的工程师们施展了一项新魔法，让机器学习的大型语言模型（LLMs）能够处理无限长的输入，而不会耗尽记忆力或计算力。传统的Transformer模型和基于它们的LLMs在处理长篇大论时，尚未采用一种在简单性和质量之间取得平衡的有效压缩记忆方法；谷歌AI的研究团队提出了一种新的解决方案，名为Infini-attention。

Infini-attention的核心是一个巧妙的组合：它将长期线性注意力和局部掩蔽注意力融合在一个Transformer块中，并且在传统的注意力过程中加入了压缩记忆。这就像是在宴会上，你有一个智能助手，它帮你记录每个人的信息，并且只在你需要的时候提醒你。这样，你就可以轻松地与每个人交流，而不用担心记忆负担过重。

这种方法已经在多项任务中显示出效果，包括处理长达500,000个词的书籍摘要任务，以及检索长达1,000,000个词的密钥上下文块，还有长文本语言建模基准测试。使用的LLMs参数规模从10亿到80亿不等，这表明Infini-attention不仅适用于小规模模型，也能够扩展到大规模的应用。

https://www.marktechpost.com/2024/04/14/google-ai-introduces-an-efficient-machine-learning-method-to-scale-transformer-based-large-language-models-llms-to-infinitely-long-inputs/

Jemma：将思维转化为代码的AI新星

Jemma承诺将用户的思维直接转化为可运行的网页原型，无需编写任何代码。这一突破性的进展不仅为开发者社区带来了新的可能性，也为非技术背景的创意人士打开了软件开发的大门。

Jemma利用AI驱动的项目管理和开发技术，将简单的想法或需求文本文件自动转换成网页原型。涉及到AI代理扮演项目经理、业务所有者和工程师的角色，它们协同工作，解读想法，创建需求，并构建原型。其核心优势在于它显著缩短了从概念想法到可交互原型的时间。

软件开发的初期阶段需要收集详细的需求，然后由经验丰富的开发者手动编码；对于非技术背景的人来说，他们难以在软件开发的早期阶段积极参与。 Jemma的出现，通过简化原型开发过程，架起了技术与非技术人员之间的桥梁，提高了生产力和包容性，使更广泛的个体能够参与到开发过程中。 Jemma 准备通过使创建初始阶段民主化来改变软件开发格局，弥合概念想法和功能原型之间的差距。

这种快速原型设计有助于加快反馈循环，并允许非技术利益相关者更积极地参与开发过程，确保最终产品更符合最初的愿景。 Jemma有望在教育、设计、创业等多个领域发挥重要作用，推动创新的发展。

https://github.com/tolitius/jemma?tab=readme-ov-file

机器学习的记忆力考验：图宾根大学评测知识数据集

图宾根大学最近进行了一项研究，关于LLMs在处理表格数据时遇到的训练数据污染和记忆化问题。研究结果强调了在评估中考虑训练数据的必要性。

随着LLMs在多种数据类型和任务中的广泛应用，它们在学习过程中可能无意中记住（即直接记忆）训练数据。这种记忆化可能导致模型在看过的数据上表现异常好，但这种表现可能并不代表模型的真实泛化能力。

与自然语言数据不同，表格数据通常包含结构化的数值和类别信息，这对模型的学习和泛化提出了不同的挑战。表格数据在商业和科学研究中非常重要，了解LLMs如何处理这类数据对实际应用至关重要。

研究通过多种记忆检测方式（包含表头测试，行完成测试，特征完成测试和首Token测试）判断LLMs是否接触过测试数据。通过小样本学习评估和消融研究对过拟合程度和影响进行了测试。

研究结果强调了评估LLMs的学习和泛化能力时，必须考虑是否接触过特定数据集，这一点的必要性。研究者倡导使用谨慎的评估方法来考虑潜在的数据记忆问题，这可能会扭曲LLMs的性能结果。

https://www.artificialintelligence-news.com/2024/04/12/uk-and-south-korea-cohost-ai-seoul-summit/

斯坦福团队模型训练新炼金术ReFT：冻结、减参数、缩短时间

为了提升预训练语言模型在特定领域的表现，斯坦福大学团队提出了一种新型微调方法——ReFT。与传统侧重于调整权重的方法不同，ReFT通过在模型的隐藏层中对表示进行精准“手术式”干预，改善模型在特定任务上的性能。这种方法建立在词向量空间线性子空间编码的假设上，能够通过较少的参数改动达到优异的效果。

研究通过LoReFT技术实现表示微调，这是ReFT的一种，它使用低秩投影矩阵对隐藏表示进行干预。与其他方法相比，LoReFT的参数效率高出10倍到50倍，并在多个NLP任务上表现卓越，特别是在常识推理和指令遵循领域。

此外，该团队还发布了pyreft库，基于pyvene库开发，专门用于表示微调，旨在简化从参数效率微调到表示微调的过程。研究虽然目前主要集中在LLaMA系列模型上，但其方法适用于不同模型系列，并有潜力扩展到视觉-语言模型。研究同时提出了自动化超参数搜索的可能性，为未来的优化开辟了道路。

https://www.artificialintelligence-news.com/2024/04/12/uk-and-south-korea-cohost-ai-seoul-summit/

哈佛科学家揭示：如何用文字序列的“魔法”操纵搜索结果

哈佛大学的研究团队展示了一种名为“策略性文本序列”（Strategic Text Sequence, STS）的黑科技，能够巧妙地影响基于大型语言模型（LLM）的搜索工具，尤其是在电子商务领域。

研究通过开发一个利用贪婪坐标梯度（Greedy Coordinate Gradient, GCG）算法的框架来达成目标。作者采用了对抗性攻击算法，特别是GCG算法；尽管这些算法通常用于绕过LLM的安全机制并产生有害输出，但在本研究中，它们被用于更加良性的目的，即提高产品的在线可见性。创建了一个虚构的咖啡机目录，通过将STS嵌入到这些目标产品的信息中，作者观察了STS对产品在LLM推荐中排名的影响。

作者进行了200次独立的LLM评估，比较了在添加STS之前和之后目标产品的排名变化。结果显示，目标产品在添加STS后的排名有了显著提升。为了测试STS的鲁棒性，作者还随机排列了产品信息的顺序，并发现STS仍然能够有效地提升目标产品的排名。策略性文本序列可以有效地影响LLM驱动的搜索工具，特别是在电子商务环境中。通过在产品信息页面插入优化的令牌序列，销售商可以显著提高其产品在LLM推荐中的排名。

https://arxiv.org/abs/2404.07981

微软AI的“想象力”：让机器学习模型学会空间思考

大型语言模型(LLM)在语言理解和推理任务方面表现出色，但缺乏空间推理探索的技能；尤其是，人类在心理意象方面表现出非凡的技能，能够想象看不见的世界，被称为心灵之眼；LLM因为缺乏空间推理能力而没有想象力。

微软研究者们的这项新研究，不仅探索了LLMs在空间推理方面的潜力，还分析了它们的心理意象的本质和限制，并深入研究了这种能力是如何从代码预训练中产生的；Visualization-of-Thought的提出，是对LLMs空间推理能力的一次重大探索。研究者们引入了两项独特的任务——“视觉导航”和“视觉铺砌”，并为它们创建了合成数据集。这些任务提供了多样化的感官输入和不同的复杂性级别，为空间推理研究提供了一个坚实的测试平台。

VoT 采用零样本提示，利用 LLM 从基于文本的视觉艺术中获取心理图像的能力，而不是依赖少数样本演示或CLIP的文本到图像技术。VoT 促使 LLM 在每个推理步骤后生成可视化，形成交错的推理轨迹。利用视觉空间画板跟踪视觉状态，由每个步骤的部分解决方案表示。这种机制将LLM的推理建立在视觉环境中，从而提高他们在导航和平铺等任务中的空间推理能力。

通过VoT提示的帮助，LLMs展现出了在空间推理方面的卓越性能，与其他提示方法和现有的多模态大型语言模型（MLLMs）相比，它们在视觉任务上的表现更为出色。研究结果强调了VoT 在增强 LLM 空间推理方面的功效，表明其有潜力推进多模态语言模型。

https://www.marktechpost.com/2024/04/09/microsoft-researchers-propose-visualization-of-thought-elicits-spatial-reasoning-in-large-language-models/

应用与实践

给每个员工配备GenAICoach，Pega让工作不再迷茫！

Pega GenAI Coach是基于Pegasystems强大的AI决策和工作流自动化平台开发的。这款工具不仅集成了最新的生成式AI技术，还能够直接融入企业的日常工作流中。

它的核心功能在于能够快速分析和理解复杂的工作流程；无论是销售、客服还是运营管理，这款AI助手都能提供实时的、个性化的指导。优化销售团队绩效：根据现有的商机、潜在客户、联系人和互动数据，并提供建议以帮助克服交易推进过程中的障碍。销售领导层可以轻松地将行业知识和自己的最佳实践直接输入 Coach，帮助确保他们的团队获得行业和业务特定的建议。改善后台运营：Coach 通过提供个性化指导，利用对程序信息、监管要求和案例数据的理解，帮助确保后台案例工作人员能够更好地完成复杂的工作，确保一切顺利进行。快速解决医疗保健索赔： Coach 可以通过快速分析和总结客户的索赔、计划和历史来帮助案例工作者，从而为客户查询提供答案，同时如果需要采取进一步措施，还可以提供最佳解决途径的指导。

Coach具有适合企业的可审计性、安全性和护栏；它与 Pega AI 功能的无缝集成使企业能够利用广泛的 AI。 GenAI Coach可以根据不同企业的具体需求进行个性化配置；企业可以根据自己的业务目标和员工的具体需求，调整AI助手的建议和支持级别；这种高度的定制化确保了GenAI Coach能够有效地支持每一个员工，帮助他们在工作中取得最佳表现。

Pega GenAI Coach 是 Pega InfinityTM 产品组合最新版本中的最新生成式 AI 功能，该产品组合也已发布并现已上市；Pega 将在 PegaWorld® iNspire 2024（Pega 的年度用户大会）上进一步探索其最新的生成式 AI 功能。

https://www.pega.com/technology/generative-ai/coach

LimitlessPendant：AI"记忆助手"，让你的对话永不遗忘！

一款名为Limitless Pendant的创新设备能够记录你一整天的对话，并使用AI技术帮助你回顾、分析和总结这些宝贵的信息，不仅是一件时尚的配饰，更是你的私人"记忆助手"。

Limitless Pendant不只是一个录音笔，而是AI赋能的"超级大脑“。集成了先进的AI技术，能够智能地识别和分析对话内容。通过语音识别和自然语言处理，可以自动将对话转化为文本，并提取关键信息，生成易于理解的摘要。无论是工作会议、课堂讲座，还是日常交谈，都能帮你捕捉每一个重要的细节，确保你不会错过任何关键信息。

设备采用了先进的加密技术，确保你的对话数据得到安全保护。同时，还引入了“同意模式”，只有在得到对话双方的明确同意后，设备才会开始录音；这意味着，你可以完全控制自己的数据，决定何时、与谁分享你的对话内容。

这个小巧的设备可以轻松夹在衣服上，或者作为项链佩戴，让你在任何场合都能随身携带。同时，Limitless Pendant还可以与各种流行的会议和协作工具无缝集成，如Zoom、Slack和Google Meet等。提供了多达8种不同的颜色，从经典的黑色到活泼的粉色。它提供了定制化的AI体验，通过学习你的语音习惯和对话模式，能够提供更加精准、个性化的服务。

https://www.limitless.ai/#pendant

利用Google的流媒体模型实现任意长度的实时字幕

在线视频平台的指数级增长导致视频内容激增，从而提高了对高级视频理解的需求。然而，现有的专为视频理解而定制的计算机视觉模型往往存在不足，通常仅分析有限数量的帧（通常只持续几秒），并将这些简短的片段分类为预定义的概念。

为了解决上述挑战，在一篇新论文《Streaming Dense Video Captioning》中，谷歌研究团队提出了一种流式密集视频字幕模型，该模型通过支持处理任意长度的视频并在整个视频完全播放之前进行预测，彻底改变了密集视频字幕。进行了分析，从而标志着该领域的重大进步。

这种新颖模型的关键组件包括新的内存模块和流式解码算法。内存模块采用基于集群传入令牌的独特方法，使其能够在固定内存容量内处理不同长度的视频。利用 K 均值聚类，该模型使用固定数量的聚类中心标记表示每个时间戳的视频，确保简单性和效率，同时在解码期间在预定的计算预算内容纳不同的帧计数。

流解码算法是对内存模块的补充，这是一项关键创新，使模型能够在处理整个视频之前预测字幕。在指定为“解码点”的特定帧，该算法根据该时间戳的内存特征来预测事件字幕，并将早期解码点的预测合并为后续预测的上下文线索。这种方法使模型能够实时生成准确的字幕，即使视频继续展开。

阅读论文：

https://arxiv.org/pdf/2404.01297.pdf

Google地图AI升级：旅行规划从此“一搜即达”

Google地图的最新更新将在美国和加拿大超过40个城市推出，用户将在地图上看到由其他用户和知名网站精心策划的当地推荐列表。这些列表不仅提供了丰富的旅行灵感，还能让用户根据自己的喜好定制个性化的推荐清单。而且，这些更新很快就会在全球范围内的Android和iOS移动平台上推出，让你的假期规划变得轻而易举。

Google还宣布了其搜索生成体验（SGE）的更新，这将使用户能够利用AI创建旅行行程和汇编旅行灵感。这意味着Google将与其他公司竞争，后者已经在利用生成性AI的能力帮助旅行者规划他们的行程，例如Mindtrip和Layla。

随着Google地图的这一系列更新，旅行规划不再是一项繁琐的任务，而是一次愉快的探索。无论你是一个独行侠还是与家人共游，Google地图都能成为你的贴心助手，让你的旅程充满惊喜和便捷。

https://techxplore.com/news/2024-04-google-unveils-easier.html

未来眼镜：AI声纳智能眼镜，让视障者“听见”世界！

最近，康奈尔大学的一项革命性的发明——AI驱动的声纳智能眼镜，为视障社群带来了前所未有的希望。这款眼镜不仅能让用户“听见”周围的物体，还能帮助他们更安全、更自信地导航在复杂的环境中。这款创新的智能眼镜包括两项设备：其中一种设备 GazeTrak 是第一个依赖声学信号的眼球追踪系统；第二种设备 EyeEcho 是第一个基于眼镜的系统，可以持续准确地检测面部表情并通过虚拟形象实时重现这些表情。

利用高级AI算法和声纳技术，GazeTrak能够检测周围环境并通过音频反馈向用户传达空间信息。声纳传感器发出的声波在遇到障碍物时会反射回来，AI算法随即分析这些回声，判断障碍物的位置、大小和形状。然后，这些数据通过特制的耳机以3D音效的形式传达给用户，使他们能够听到周围环境的“声音地图”。

EyeEcho，一个扬声器和一个麦克风位于眼镜铰链旁边，指向下方以捕捉面部表情变化时的皮肤运动。反射信号也使用人工智能进行解读。虽然有些智能眼镜能够识别面部或区分一些特定表情，但目前还没有一款智能眼镜能像EyeEcho 一样持续跟踪表情。

这两项进步的应用范围不仅限于增强人们的虚拟现实体验。GazeTrak 可以与屏幕阅读器配合使用，为视力不佳的人阅读网站时的部分文本。GazeTrak 和 EyeEcho 还可能有助于诊断或监测神经退行性疾病，如阿尔茨海默病和帕金森病。患有这些疾病的患者通常眼球运动异常，面部表情较少，这种技术可以让患者在家中舒适地跟踪病情进展。

发明者将于秋季在年度国际移动计算和网络会议上展示GazeTrak ，并于五月在计算机协会CHI计算系统人为因素会议上展示EyeEcho 。

阅读论文：

https://arxiv.org/abs/2402.14634

机器人耳朵升级：水陆两栖AI，对话无障碍！

多伦多大学的新研究让机器人能够像海豚一样敏锐地捕捉声音方向，并像猎豹一样迅速做出反应。这意味着，未来与机器人的聊天将像与老朋友闲聊一样自然流畅。

这项研究的核心在于让机器人能够确定人类语音的来源方向，并迅速重新定位以跟踪该声音。这就像是给机器人装上了一对超级耳朵，让它们能够在嘈杂的环境中找到你的声音，并转过头来与你对话。研究团队的PranavBarot表示，这项技术的动机是测试机器人实时倾听和互动的能力，特别是在大型、嘈杂或拥挤的空间中。

研究中提到，为了实现真实的人机互动，系统应该能够在200-300毫秒内检测并响应。这就要求机器人在处理声音信号时，要有极快的反应速度。通过优化参数，研究团队成功让机器人在各种声学场景下，如移动的人类对话伙伴或机器人在实时互动中做出手势时，都能够迅速做出反应。

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0296452

跨学科项目

让大语言模型像大脑一样经济高效：Meta和 MBZUAI实验原则性框架，用以检验高精度缩放

最近，Meta和穆罕默德·本·扎耶德人工智能大学（MBZUAI）的研究人员合作发表了一篇引人注目的论文，这篇论文不仅挑战了我们对AI模型的传统认知，还引入了一个系统性框架来探索模型大小与其知识存储能力之间的关系。

长久以来，我们一直认为AI模型越大，其存储和处理信息的能力就越强。但是，这项新研究提出了一个问题：AI模型的知识存储能力是否真的与其大小成正比？研究团队通过精心设计的实验和理论分析，向我们展示了这一关系的复杂性。

研究中，科学家们首先定义了知识的量化方式，即通过(name,attribute, value)元组来衡量，例如("美国","首都","华盛顿D.C.")。他们不仅考察了不同大小的语言模型，还引入了量化技术和域名训练数据的概念，以探索这些因素如何影响模型的知识存储能力。

结果显示，即使是在较小的模型中，通过优化训练方法和数据处理，也能显著提高模型的知识存储效率。这一发现挑战了传统观念，即更大的模型自然而然拥有更高的性能。研究还发现，添加域名到训练数据中可以显著提升模型的知识容量，使得AI能够自动识别并优先处理信息量丰富的领域。

阅读论文：

https://arxiv.org/abs/2404.05405

EXSCLAIM!：AI如何从科学文献中“挖掘”图像宝藏

EXSCLAIM!，全称为自动提取、分离和基于标题的自然语言图像标注，是一个由Python编写的工具包，专门设计来处理科学文献中的图像数据。这个工具的核心功能包括从科学期刊网站抓取图像、将图像标题分割成与子图相关的部分，以及将子图分离出来并检测其尺度信息、标签和图像类型。这项由多伦多大学的Eric Schwenker和他的团队开发的技术，正在重新定义我们如何利用已发布的科学成果。

EXSCLAIM!就像一个在图书馆里的侦探，它首先通过JournalScraper组件浏览大量的科学期刊网站，寻找并收集图像和相关的标题及元数据。接着，CaptionDistributor组件会将复杂的图像标题拆分，确保每部分都与相应的子图相匹配。最后，FigureSeparator组件将这些图像细分，确保每个图像都被正确标记和分类。这一系列操作使得原本静静躺在文献中的图像变得活跃起来，为进一步的科学研究提供了丰富的数据资源。通过这个工具，研究人员可以快速获取大量的标记图像数据，这对于训练机器学习模型尤其重要。

https://arxiv.org/abs/2103.10631

大脑+AI最新创想：混合神经网络！

模仿人类大脑的结构和功能一直是科学家们的梦想。最近，一项由Faqiang Liu领衔的研究在《National Science Review》上发表，介绍了一种革命性的技术——混合神经网络（HNNs）。这种新型网络结合了计算机科学导向的人工神经网络（ANNs）和神经科学导向的脉冲神经网络（SNNs），不仅模拟了人脑的工作方式，还大大提高了AI的处理能力和效率。

混合神经网络是一种先进的AI架构，它通过结合两种不同类型的神经网络——ANNs和SNNs——来模拟人脑的信息处理机制。ANNs擅长处理连续的数据流，而SNNs则模拟神经元的实际射频，使得HNNs在处理复杂任务时更接近人类大脑的工作方式。这种双重优势使得HNNs在感知、认知和学习等智能任务上表现出色。

通过考虑多样化的设计维度，可以构建灵活多样的HNN模型，充分利用数据和支撑系统的异构性，实现性能和成本的更好平衡。

目前，HNN 已广泛应用于目标跟踪、语音识别、持续学习、决策控制等智能任务，为这些领域提供了创新的解决方案。此外，受大脑异质性的启发，HNN 还可以作为神经科学研究的建模工具，促进神经科学与 HNN 的协同发展。

为了高效部署和应用HNN，开发合适的支撑系统至关重要。目前，已经开发了多个支撑基础设施，包括芯片、软件和系统。在芯片设计方面，混合类脑芯片“天机”已针对HNN的无缝集成进行了全面优化。该芯片专为HNN应用量身定制，可提供增强的性能和效率。

此外，经纬二号类脑计算系统在集群层面优化了计算、存储和通信基础设施，为大规模HNN的开发提供了必要的资源，满足了复杂神经网络的计算需求，奠定了坚实的基础。

在最近的 ISSCC（芯片设计会议）上，有报道称，使用 HNN 成功构建了混合 Transformer 模型，从而大幅降低了能耗。这凸显了 HNN 在解决与大规模模型相关的能效挑战方面的潜力。

阅读更多：

https://academic.oup.com/nsr/article/11/5/nwae066/7614610?login=false

从小鼠细胞中获取的肌肉组织可移动“生物混合”机器人

大自然为建造有效的机器人提供了最佳蓝图。它还可以提供最好的材料。数十亿年的自然选择已经建造了一些相当令人印象深刻的机器，所以你不能真正责怪工程师从周围的世界借用了一些灵感。特别是软机器人领域——其灵活且合规的组件——在很大程度上要归功于动物生物学。

然而，虽然这些系统具有柔软的形式，但它们的许多组件仍然像更传统的组件一样是刚性的。研究人员正在努力引入灵活的元件来为这些软机器人创造运动。麻省理工学院工程学教授RituRaman 向TechCrunch证实了这一过程，并指出：“我们用小鼠细胞构建肌肉组织，然后将肌肉组织放在机器人的骨架上。然后，肌肉充当机器人的执行器——每次肌肉收缩，机器人就会移动。”肌肉纤维附着在一个称为“弯曲”的“弹簧状”装置上，该装置充当系统的一种骨骼结构。生物肌肉组织可能很难使用并且通常是不可预测的。留在培养皿中的组织会按预期膨胀和收缩，但不会以受控的方式膨胀和收缩。

https://techcrunch.com/2024/04/10/muscle-tissue-harvested-from-mice-cells-move-biohybrid-robots/

陪伴型AI助理的愿景，先让宠物们享受起来！

彭博资讯估计，2023 年全球宠物行业价值约为3200 亿美元，预计到 2030 年将达到 5000 亿美元。

定价799美元ORo的AI宠物机器人：它有一个自动喂食器，可以提供食物和零食，这意味着即使主人不在家，亦可保持狗的喂食时间表。为狗维护一份健康日志，包括饮食习惯和其他生命体征，可以立即意识到任何异常情况和潜在问题。机器人还会和狗一起玩，让其远离无聊和孤独；AI机制可以捕捉狗的行为和求救信号，并尝试安抚它们或分散它们的注意力；可以处理大量的狗训练，这对于那些可能没有足够时间或不知道如何自己进行训练的宠物主人来说特别有用。 ORo 机器人还会定期扫描您的家和宠物的行踪，并标记任何可疑的情况；作为另一个值得拥有的功能，它还可以记录宠物所做的一切，保留珍贵的记忆。

定价99美元Invoxia 的 Minitailz 智能狗项圈：在拉斯维加斯 CES 2024 上被公认为人工智能类别中最佳创新产品，是警惕的宠物父母的完美智能项圈。项圈配备GPS和医疗级健康追踪器，可追踪狗狗的行踪、食欲、心脏健康、活动和行为；项圈甚至可以追踪狗狗的吠叫声，这也可以表明它们的整体健康状况。狗项圈收集的数据对于您的兽医来说非常宝贵，他们可以更透明、更全面地了解您的宠物的健康和医疗需求，从而获得更好的诊断和护理。

定价999美元的宠物技术设备和玩具Companion：将正向强化训练与人工智能相结合，打造引人入胜的互动游戏。该设备包括摄像头、零食发射器、麦克风、LED灯和扬声器；此外，它还支持蓝牙和WiFi连接。针对狗狗进行了难以置信的个性化设计，并根据个人习惯进行相应的适应。它可以按照您的狗喜欢的方式与您的狗玩耍和互动，例如玩“西蒙说”和“关闭”等固定游戏，或更积极地追逐零食。

https://orobuddy.com

https://petcare.invoxia.com

https://joincompanion.com

追问互动

○如果您对本期内容有进一步想要追问的问题或者讨论的内容，欢迎在评论区留言，或者扫描二维码添加追问微信号，发送自我介绍，加入我们的社群参与互动。如需转载，还请留言。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.