追问weekly过去一周，领域有哪些新突破体操黄仁勋国际象棋ai领域国际奥委会奥运会资格系列赛|中国象棋【象】的操作规则测试用例编写_国际象棋

斯坦福大学HAI发布2024年人工智能指数报告

AI的环保使命：科技巨头如何应对人工智能的能源挑战

2024巴黎奥运：英特尔助力打造史上最智能奥运会

Nvidia CEO黄仁勋亲自向OpenAI交付第一台DGX H200

█大模型与基础建设

小快灵的新模型范式：微软推出Phi-3系列开放模型

Cognita：将AI从实验室带入现实，基于RAG的开源框架

OpenELM：苹果的开源跃进，重塑设备上AI的未来

英特尔Hala Point：仿生大脑的突破，AI的节能未来

Groq的AI芯片突破：LLaMA3上实现惊人的800词元/秒速度

PuduRobotics推出T300：灵活的工业机器人亮相汉诺威

四足机器人新进化：LocoMan的“六维”舞步

█技术与研发

大型语言模型的记忆力：一场“大海捞针”的实验

当人工智能遇上“假新闻”：RAG改进下的LLM究竟是否可靠

TriForce：可扩展至长序列生成的分层推测解码 AI 系统

Google DeepMind推出革命性AI模型，长序列处理速度飙升

Megalodon：超越传统Transformer的新注意力架构

智能模型新突破：多头混合专家系统的崛起

█应用与实践

智能时代安全守门人：MLCommons AI安全基准测试v0.5版

Snorkel Flow：如何用AI重新定义企业数据的价值

AI医生的考核：Open Medical-LLM如何重塑医疗AI评估

探索Web的新方法：AutoCrawler与大型语言模型的结合

Fullstory的Data Direct：让行为数据“跳舞”的AI解决方案

Dataminr的ReGenAI：实时公共信息更新不再是难题

ChatGPT 是否会成为下一个网络安全大担忧——研究人员称它可以比以往更快地破解系统

AutoAlign从 Armilla 分拆出来，推出人工智能安全平台“Sidecar”

█交叉与创新

模拟非理性行为的模型：一场AI助手的心理洞察之旅

Vision Pro隐藏技能：书写未来医学新篇章的革命者

全息显示技术：超宽视角中的3D世界

从文字到动作：全新AI框架让机器人“读心”成真？

多维分类新视角：当AI学会“维度跳跃”

芬兰咖啡新风味：AI调制，味蕾惊喜！

AI战机的崛起：人机协作的未来战争

（点击右上方三点，找到查找页面内容按钮）

政策法规与新闻

斯坦福大学HAI发布2024年人工智能指数报告

斯坦福大学HAI发布了2024年的《人工智能指数报告》，详细记录了人工智能领域的最新发展和趋势。报告涵盖了技术进步、公众观感、地缘政治动态等多个方面，为决策者、研究人员、企业高管、新闻工作者和公众提供了全面的数据和分析。

报告中包含如下10个主要观点：

人工智能已经在一些任务上（图像分类、视觉推理等）超越人类表现，其他更复杂的任务上（数学竞赛、视觉常识推理和规划等）仍然落后；

工业界继续主导前沿的人工智能研究；

前沿模型的成本越来越高；

缺乏对于LLM责任性的标准化评估，使得系统地比较顶尖AI模型的风险和局限性变得复杂；

对于生成式人工智能的投资飙升；

数据显示：人工智能提高了工人的生产力，带来了更高质量的工作；

人工智能加速科学发展；

人工智能对于全球各地人类的影响逐步上升，越来越多的人对于人工智能的发展感到紧张和担忧。

AI的环保使命：科技巨头如何应对人工智能的能源挑战

在人工智能（AI）技术迅猛发展的同时，其对环境的影响也日益受到关注。近期，Dell、Google Cloud、IBM和Microsoft等科技巨头纷纷在其可持续发展报告中提出了减少AI对气候的负面影响的措施。

来自微软、Hugging Face、艾伦人工智能研究所和几所大学的研究团队在2022 年发现，在 8 个 NVIDIA V100 GPU 上训练一个小型语言转换器模型36小时消耗了37.3 kWh。这意味着多少碳排放在很大程度上取决于进行训练的地区，但平均而言，训练语言模型排放的二氧化碳大约与使用一加仑汽油的二氧化碳一样多。仅训练理论大型模型（一个 60 亿参数的语言模型）的一小部分，所排放的二氧化碳量相当于为家庭供电一年所排放的二氧化碳量。

另一项研究发现，人工智能技术每年消耗的电量可能达到 29.3 太瓦时，相当于整个爱尔兰的用电量。加州大学河滨分校电气与计算机工程副教授ShaoleiRen在接受耶鲁大学环境 360采访时表示，使用 GPT-3 进行约10 到 50条回复的对话会消耗半升淡水。

近期Arm Holdings Plc的首席执行官雷内-哈斯（Rene Haas）也发出警告：到2030年，全球数据中心的用电量将超过印度。

生成式AI的能源消耗取决于多种因素，包括物理位置、模型大小、训练强度等。过度的能源使用可能导致干旱、动物栖息地丧失和气候变化。为了减少这些负面影响，科技公司正在寻求通过可持续的方式运行生成式AI，以减轻气候变化的影响，并吸引希望对地球产生积极贡献的投资者。

许多科技巨头都设定了可持续发展目标，但针对生成式AI和电力使用的目标则较少。例如，微软的一个目标是用100%新增的可再生能源发电来供电所有数据中心和设施。此外，微软还强调与可再生能源项目的电力购买协议。

IBM的全球可持续性软件负责人Christina Shim在电子邮件中表示：“组织绝对有办法在最小化能源使用的同时收获AI的好处。模型选择非常重要。使用基础模型而不是从头开始训练新模型，有助于在长期使用中‘摊销’那些能源密集型的训练。使用小型模型并在正确的数据上进行训练，更加节能，并且可以达到相同或更好的结果。

IBM 正在通过“回收”人工智能模型来解决围绕生成型人工智能的可持续电力使用问题；这是麻省理工学院开发的一项技术，其中较小的模型“生长”，而不是必须从头开始训练较大的模型。

IBM 可持续发展软件全球负责人克里斯蒂娜·希姆 (Christina Shim) 在给 TechRepublic 的电子邮件中表示：“组织肯定有办法获得人工智能的好处，同时最大限度地减少能源消耗。” “模型的选择非常重要。使用基础模型与从头开始训练新模型有助于在较长的使用周期中“摊销”能源密集型训练。使用在正确数据上训练的小型模型更加节能，并且可以获得相同或更好的结果。不要用大锤敲开坚果。”

2024巴黎奥运：AI技术大展身手，英特尔助力打造史上最智能奥运会

随着2024年巴黎奥运会的临近，国际奥委会（IOC）与英特尔的合作将人工智能（AI）技术推向了前所未有的高度。这届奥运会被誉为历史上技术含量最高的一次，不仅将为全球观众带来前所未有的沉浸式体育体验，还将在运动员训练、赛事转播等多个方面大显身手。

在这次奥运会中，AI的应用将无所不在。从社交媒体监控到优化运动员训练计划，再到赛事的实时转播，AI技术的加入无疑将使这届奥运会的运作更加高效和精确。

作为国际奥委会的长期合作伙伴，英特尔在推动2024巴黎奥运会AI战略中扮演了关键角色。英特尔不仅帮助打造了各种沉浸式体验，让现场的观众能够更加深入地感受奥运的魅力，还将其Xeon处理器用于赛事的实时转播。这些高性能的广播服务器能够在几毫秒内对8K/60FPS/HDR的直播信号进行编码和压缩，然后在几秒钟内将高质量的视频信号分发到全球，实现前所未有的直播体验。

Nvidia CEO黄仁勋亲自向OpenAI交付第一台DGX H200

Nvidia 首席执行官黄仁勋今天亲自向 OpenAI 位于旧金山的办公室交付了第一台Nvidia DGX H200，此举突显了人工智能行业两大巨头之间的密切联系。

OpenAI 总裁兼联合创始人格雷格·布罗克曼 (Greg Brockman) 发布了一条推文来庆祝这一举动，并展示了 OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman) 的活动照片。

Nvidia 高性能计算产品副总裁 Ian Buck 在最近的一次演示中强调了该处理器的功能，并指出：“DGX H200 扩展且更快的内存旨在显着提高计算密集型任务的性能，包括训练复杂的生成式 AI 模型和其他高性能计算应用程序，同时优化 GPU 使用效率。”

H200 的发布也引发了有关市场动态的问题，特别是有关供需的问题。前身 H100 的需求量很大，导致短缺，Nvidia 希望通过与全球系统制造商和云服务提供商合作，在 H200 上避免这种情况。

然而，H200 的实际可用性仍然令人担忧。科技行业对高性能人工智能处理器有着前所未有的需求，Nvidia 能否在 H100 推出期间遇到供应限制的情况下满足这一需求还有待观察。

大模型与基础建设

小快灵的新模型范式：微软推出Phi-3系列开放模型

微软推出了Phi-3系列开放模型，目前公开了该系列中的第一个模型：Phi-3-mini，拥有38亿个参数，提供两种上下文长度变体——4K 和 128K 个标记。该系列中其他两个模型Phi-3-small（70 亿参数）和 Phi-3-medium（140 亿参数）计划即将推出。

性能表现：（1）在语言评估、编码和数学能力等各种基准测试中胜过相同大小和稍大一些的模型；性能优于参数量是其两倍的模型。（2）在MMLU上达到了69%，在MT-bench上达到了8.38，整体性能媲美Mixtral8*7B和GPT-3.5等模型。

特点：（1）可以部署在移动端，适合在设备上本地运行。（2）根据Microsoft Responsible AI Standard标准开发，是以安全为先进行设计的模型。（3）可以在受限的推理环境中使用，微调或定制的成本低，算力要求低，响应延迟低。

缺点：在事实知识基准测试（如 TriviaQA）上表现不佳，因为较小的模型尺寸导致其容量较小，无法保留事实。

Cognita：将AI从实验室直接带入现实，一款基于RAG的开源框架

在将一个AI原型转化为生产就绪的应用一直是一个巨大的挑战。TrueFoundry公司最近推出的Cognita框架，利用先进的检索增强生成（RAG）技术，提供了一个结构化、模块化的方法来简化AI应用的部署过程。

Cognita框架建立在Langchain和LlamaIndex之上，提供了一个清晰的结构来组织和管理RAG系统的各个组件。每个组件都是模块化的、API驱动的，并且可以扩展，这使得Cognita不仅适用于小规模实验，也能够满足大规模生产环境的需求。

AI开发通常在Jupyter笔记本等实验环境中开始，这些环境适合原型设计但并不适合生产环境。Cognita桥接了这一差距，通过提供一个可以在本地轻松测试同时又能部署到生产环境的框架。Cognita还支持无代码UI，使非技术用户能够直接与AI模型互动，极大地提高了其可用性。

Cognita支持包括相似性搜索、查询分解、文档重排和增量索引等高级功能；这些功能不仅提高了系统的灵活性，还降低了计算负载，通过批处理文档处理和跟踪索引文档来避免冗余。开放性设计允许它与现有系统无缝集成，支持从mixedbread-ai的开源嵌入和重排到Ollama等高级语言模型。

不仅使AI技术更加易于访问和部署，还为各种行业带来了创新的可能性，从医疗健康到金融服务，再到客户服务和更多。Cognita的开源性质也意味着一个全球的开发者社区可以共同参与到这一框架的改进和扩展中，共同推动AI技术的前进。

OpenELM：苹果的开源跃进，重塑设备上AI的未来

OpenELM项目的最大亮点在于其开源性。苹果公司此举不仅提高了项目的透明度，也为全球的开发者和研究者提供了一个共同研究和改进的平台。它总共有八个 OpenELM模型，其中四个是预训练的，四个是指令调整的，涵盖了 2.7 亿到 30 亿个参数之间的不同参数大小（指的是LLM 中人工神经元之间的连接，参数越多通常意味着性能越好，并且参数越多）。能力，尽管并不总是）。

它们适合在商用笔记本电脑甚至某些智能手机上运行。苹果的论文指出，基准测试是在“配备 Intel i9-13900KF CPU、配备 64 GB DDR5-4000 DRAM 和配备 24 GB VRAM 的 NVIDIA RTX 4090 GPU、运行 Ubuntu 22.04 的工作站”上运行的，以及“Apple MacBook Pro，配备 M2 Max 片上系统和 64GiB RAM，运行 macOS 14.4.1。”

OpenELM采用了最新的语言模型技术，优化了处理速度和准确性，使其在各种自然语言处理任务中表现出色。这种高效的语言模型不仅适用于云计算环境，也特别针对边缘设备进行了优化，使其能够在不依赖云端的情况下，直接在用户的设备上运行复杂的AI任务。

OpenELM提供了丰富的文档和开发工具，使得开发者可以轻松地将这一模型集成到各种应用中。无论是开发高级个性化应用，还是进行复杂的数据分析，OpenELM都能提供强大的支持。

随着OpenELM的推出，预计未来智能设备上的AI应用将更加普及。用户可能不再需要依赖云服务来处理所有AI任务，而是可以直接在自己的设备上享受到AI带来的便利，这不仅提高了效率，也增强了数据的隐私性。

英特尔Hala Point：仿生大脑的突破，AI的节能未来

英特尔公司宣布，其最新研发的神经形态处理器系统——Hala Point，已在美国能源部国家核安全局运营的桑迪亚国家实验室部署，这标志着英特尔在模拟人脑计算架构上取得了重要进展。

Hala Point系统是英特尔第一代神经形态芯片系统Pohoiki Springs的升级版，其神经元容量提升了10倍，性能提高了12倍。这一全新的半导体设计方法，专注于构建功能更类似于人脑的计算机芯片，通过增加芯片内的神经元数量，极大地提升了芯片的功能强大程度。

英特尔表示，Hala Point采用了一系列大脑启发式计算原理，如异步处理、基于事件的脉冲神经网络、集成内存和计算，以及稀疏且不断变化的连接，实现了能源效率和性能的显著提升。这种设计方法最大限度地减少了数据移动，显著降低了能耗。

Hala Point系统由1152个Loihi2处理器组成，支持多达11.5亿个神经元和1280亿个突触，分布在140,544个神经形态处理核心上。系统最大功耗为2600瓦，集成了2300个嵌入式x86处理器，用于辅助计算。其内存带宽高达每秒16PB，内核间通信带宽达每秒11PB，芯片间通信带宽达每秒5.5TB。

在执行传统深度神经网络任务时，Hala Point支持每秒高达30千万亿次运算，效率超过每瓦每秒15万亿次8位运算。英特尔强调，Hala Point的性能超越了市场上最强大的GPU，为AI应用的实时持续学习等领域的重大突破铺平了道路。

英特尔和桑迪亚国家实验室将利用Hala Point解决优化问题，这些问题可以通过在地图上搜索、规划和遵循最短路径来解决。英特尔表示，这是他们在神经形态计算领域取得的最佳成果，速度提高了50倍，能源节省了100倍。

Groq的AI芯片突破：在Meta的LLaMA3上实现惊人的800词元/秒速度

Groq的AI芯片采用了独特的架构设计，这使得它在执行大型语言模型（LLM）任务时，能够提供比传统GPU更高的效率和速度。Groq芯片的核心优势在于其能够在极短的时间内处理大量的数据，这对于需要实时处理和分析大规模数据集的应用尤为重要。

与传统的图形处理单元（GPU）相比，LPU在处理语言模型方面更为专业和高效，这使得Groq芯片在执行复杂的自然语言处理任务时，能够显著减少延迟和提高响应速度。

除了高速处理能力外，Groq芯片还具有出色的能效比。

PuduRobotics推出T300：灵活的工业机器人亮相汉诺威

PUDU宣布推出其首款专为工业应用设计的机器人——T300，并在汉诺威工业博览会上首次亮相。

PUDU T300被设计来应对制造业中的各种挑战，特别是在物料物流方面。这台机器人能够在狭窄的工业走廊中灵活穿行，无需人工干预，自动完成从供应线的物资配送到生产区域的物料转移，甚至还能搞定质量检查的样品运输。PUDU T300不仅仅是一个单纯的运输工具。它的“map-and-go”功能确保了即使在网络连接或环境变化的情况下也能灵活部署和独立操作。这种高度的自主性和灵活性，使得它能够在不同的生产线上发挥重要作用，从3C电子制造到汽车零部件加工，再到金属加工和半导体制造，PUDU T300都能大显身手。

四足机器人新进化：LocoMan的“六维”舞步

来自卡内基梅隆大学、华盛顿大学和谷歌DeepMind的研究团队共同开发出了一款名为LocoMan的四足机器人，它不仅能够在复杂地形上行走，还能同时进行物体操控。这款机器人的出现，不仅是四足机器人技术的一次飞跃，更是向我们展示了一个多功能、高效率的未来助手。

LocoMan的最大特点是其“六维”操作能力。传统的四足机器人在进行物体操控时，通常需要额外的机械臂。而LocoMan则通过在其前腿小腿部分装配了两个轻量级的3自由度操控器，实现了使用行走的同一组腿进行物体操控。这种设计大大提高了机器人的操作灵活性和效率，使其能够在狭小空间内完成开门、插电、拾取物体等复杂任务。

其独特的结构和配置使 LocoMan能够在复杂环境（包括密闭空间）中执行 6D 姿势操纵。该机器人依赖于 Loco 机械手，这是一种新开发的、可扩展、低成本、轻量级、具有 3 自由度的模块化机械手。

Loco机械臂相当容易制造，因此也可以大规模部署。研究人员在机器人的前小腿上集成了两个 Loco 机械手，从而确保这些小腿也可以充当手。

技术与研发

大型语言模型的记忆力：一场“大海捞针”的实验

最近，VMware NLP实验室的Daniel Machlab和Rick Battle通过一项名为“大海捞针”的研究，揭示了大语言模型在通过检索功能回忆信息时的一些有趣现象。

实验设计：将一个信息片段（针）嵌入到一大段无关的文本（干草堆）中，然后让模型从中找出这个“针”。通过改变“干草堆”的长度和“针”的位置，研究人员能够观察到不同模型在不同条件下的表现。

实验结果：（1）LLM的回忆性能显著依赖于输入的文本内容；即使是在提示内容只有微小变化的情况下，也可能导致模型的回忆性能大幅度变化。（2）当提示中的信息与模型的训练数据存在冲突时，会显著降低模型的回忆性能；模型倾向于使用其训练数据中的信息，而不是仅依赖于提示中提供的信息。（3）参数更多的Llama 2 70B在回忆测试中的表现更为出色，这表明增加模型的参数数量可以提高其处理和回忆信息的能力。（4）即使参数数量相同，通过调整模型的架构和训练策略也可以改善模型的回忆性能。（5）通过比较WizardLM与Llama 2 70B以及GPT-3.5 Turbo 1106与GPT-3.5 Turbo 0125，研究表明适当的微调可以提升模型在特定测试中的表现。

未来展望：理解单个LLM的行为变化对于指导其在特定用例中的选择和应用至关重要。回忆测试只是评估和理解LLM强项和弱点的众多指标之一。持续的评估将进一步指导选择适合特定用例的LLM，最大化它们在实际应用中的影响和效率。

当人工智能遇上“假新闻”：斯坦福团队揭秘RAG改进下的LLM究竟是否可靠

在人工智能的世界里，大型语言模型（LLMs）被赋予了回答问题的能力，它们如同拥有无尽知识的图书馆管理员。然而，这些模型并非全知全能，它们的知识有时会因为错误的信息而被误导。即便引入RAG技术解决幻觉问题，也有可能无法避免虚假信息的产生。

研究缘起：大语言模型普遍存在“幻觉”的问题，对于最新事件或受限信息往往束手无策。为此，引入了检索增强生成（RAG）的技术，它能够为模型提供相关的、最新的外部信息，以提高回答问题的准确性；但RAG技术一定能确保信息的正确不假吗？斯坦福大学的Kevin Wu、Eric Wu和James Zou通过一项研究，揭示了这些模型在处理真实与虚假信息时的内在冲突。

RAG：真实与虚假的拉锯战场：当LLMs独自回答问题时，如果提供正确的检索内容，大多数模型错误可以得到修正（准确率达到94%）。然而，当参考文档中的信息被篡改，包含错误值时，模型更倾向于重复错误信息，尤其是当它们对自身的先验知识（内部知识）不够自信时。这表明，模型在其预训练知识和检索到的内容之间存在一种基本的张力。

实验方法：如何评测模型的真实性？研究使用了1294个问题，涵盖了六个不同领域的数据集，包括药物剂量、体育统计和新闻事件等。首先测量了模型在有无上下文的情况下给出的答案与参考答案之间的一致性。通过对参考文档进行不同程度的修改，测试了GPT-4和其他LLMs在回答问题时的表现。模型在没有上下文的情况下回答问题，这一回答及其令牌的平均概率被称为模型的“先验响应”和“先验概率”；模型在提供检索内容的情况下再次进行查询，研究者比较这两种情况下的答案。

实验结果：模型在没有上下文的情况下（即不使用RAG）的平均一致性仅为34.7%，而在使用RAG后，一致性显著提高至94%。模型对其先验答案的信心越强，其偏好RAG内容的可能性越低。GPT-3.5和Mistral-7B在一致性和RAG依从性上的表现不如GPT-4，但它们在先验概率与RAG偏好率之间的逆向趋势与GPT-4的结果一致，显示了一致的模式。

CMU 研究人员推出 TriForce：可扩展至长序列生成的分层推测解码 AI 系统

对于避免重新计算至关重要的键值 (KV) 缓存已成为一个关键瓶颈，其大小随序列长度线性增加。LLM 的自回归特性要求为每个生成的 token 加载整个 KV 缓存，从而导致计算核心利用率低和延迟高。虽然已经提出了压缩方法，但它们通常会损害生成质量。

卡内基梅隆大学和 Meta AI (FAIR) 的研究人员推出了TriForce，这是一种分层推测解码系统，专为可扩展的长序列生成而设计。TriForce利用原始模型权重和通过检索的动态稀疏 KV 缓存作为草稿模型，充当层次结构中的中间层。维护完整缓存允许使用基于检索的草稿进行卓越的 KV 缓存选择，与基于逐出的方法（如 StreamingLLM和 H2O）相比，其特点是无损。分层系统解决了双内存瓶颈问题，将轻量级模型与 StreamingLLM缓存配对以进行初始推测，以减少草稿延迟并加速端到端推理。

TriForce引入了分层推测解码系统，该系统具有基于检索的 KV 缓存选择。分层系统解决了双重瓶颈，提高了速度。基于检索的起草将 KV 缓存分段，突出显示相关信息。具有 StreamingLLM缓存的轻量级模型可加速初始推测，从而减少起草延迟。TriForce利用模型权重和 KV 缓存来提高长序列的 LLM 推理速度。该实现利用了 Transformers、FlashAttention和 PyTorchCUDA 图，在保持全层稀疏性的同时最大限度地减少内核启动开销。

TriForce评估显示，使用片上 Llama2-7B128K 的 4K KV 缓存，速度显著提升，最高可达 2.31 倍。卸载到消费级 GPU 可实现显著效率，尤其是使用两块 RTX 4090 GPU 上的 Llama2-13B-128K，比优化系统快 7.94 倍。使用 TriForce的 Llama2-7B-128K 以 0.108s/token 的速度运行，速度只有 A100 上自回归基线的一半。批量推理也受益匪浅，批量大小为 6 时速度提升 1.9 倍，每个批次有 19K 个上下文。

RecurrentGemma：Google DeepMind推出革命性AI模型，长序列处理速度飙升

Google DeepMind最近发布的RecurrentGemma模型，这款基于Griffin架构的语言模型，以其卓越的处理速度和高效的内存使用，标志着下一代AI技术的来临。

Griffin架构通过结合线性递归和局部注意力机制，显著提高了处理长序列的效率。与传统的全局注意力模型相比，Griffin架构能够在不牺牲性能的情况下，大幅减少内存使用。这一点对于需要处理大量数据的应用尤为重要，如自然语言处理和机器翻译。

据报道，这款模型能够以每秒高达40,000个词元的速度进行推理，这一速度是许多现有模型的数倍。此外，RecurrentGemma在训练时仅使用了约2万亿个数据词元，相比之下，其前身模型Gemma-2B使用了3万亿。尽管数据量减少，RecurrentGemma的性能却丝毫未受影响，甚至在某些任务上超越了Gemma-2B。

为了推动AI领域的进一步发展，Google DeepMind已将RecurrentGemma的代码和预训练模型开源。开发者可以通过GitHub访问这些资源，包括用于采样和微调的教程。这一开放策略不仅使更多研究人员和开发者能够利用这一强大的工具，也有助于促进AI技术的创新和应用。

Megalodon：超越传统Transformer的新注意力架构

随着数据量的激增和应用需求的扩展，传统的Transformer面临着处理长序列数据时内存和计算资源消耗过大的问题。最近，Meta和南加州大学的研究者们提出了一种名为Megalodon的新型机器学习模型，该模型旨在解决这些挑战，为处理大规模文本数据开辟新道路。

Megalodon建立在2022年首次提出的Moving Average Equipped Gated Attention（MEGA）技术之上。MEGA通过对注意力机制进行改进，显著降低了模型的复杂性，使得LLM能够处理更长的输入序列，而不会导致内存和计算需求的急剧增加。

Megalodon进一步通过引入“分块注意力”机制，将输入序列划分为固定大小的块，从而将模型的复杂度从二次降低到线性。这种方法不仅减少了计算负担，还增加了额外的并行处理层次，加速了模型训练过程。

在客服机器人、自动内容生成等领域，Megalodon能够理解和生成更长的文本，提供更连贯和深入的交互体验。这对于提升用户满意度和扩展AI应用范围具有重要意义。对于需要处理大量专业文档的学术研究和法律审查等领域，Megalodon能够快速准确地分析和总结关键信息，极大提高工作效率和准确性。

智能模型新突破：多头混合专家系统的崛起

最近，一项名为“多头混合专家”（MH-MoE）的研究成果，如同一股清流，为深度学习模型的发展注入了新的活力。这项研究不仅解决了现有稀疏混合专家（SMoE）模型中存在的专家激活不足和对单个token语义理解粗糙的问题，还以其独特的多头机制，为模型的精细化理解和性能提升开辟了新道路。

MH-MoE模型的核心在于其创新的多头机制。传统的SMoE模型在处理输入数据时，往往只激活少数专家进行优化，这导致了大量专家资源的闲置。而MH-MoE通过将每个token分割为多个子token，并将它们分配给并行处理的不同专家集合，实现了对专家的充分激活和利用。这不仅提高了模型的激活效率，还使得模型能够更加深入地理解上下文信息，从而有效避免了过拟合现象。

MH-MoE模型的设计理念是通过多头机制，将每个token的信息分散到不同的专家中去，然后再将这些信息整合回原始的token形式。这种方法不仅增强了模型对不同表示空间信息的集体关注能力，而且显著提高了专家的激活程度，深化了模型对上下文的理解。

应用与实践

智能时代的安全守门人：MLCommons人工智能安全基准测试v0.5版

如何确保AI系统的安全性，已成为业界关注的焦点。近期，MLCommons人工智能安全工作组推出了AI安全基准测试的v0.5版，旨在为评估使用聊天调优语言模型的AI系统安全风险提供标准化的测试方法。

v0.5基准测试的基础设施：（1）测试工具包括ModelBench基准测试运行器和ModelGauge测试执行引擎；ModelBench用于实施基准测试，而ModelGauge则包含实际的测试项目。（2）ModelBench和ModelGauge是与斯坦福大学基础模型研究中心（CRFM）的全面评估语言模型（HELM）团队合作开发的，并在HELM团队创建广泛采用的开源模型评估框架和实时排行榜的经验基础上构建的。

AI Safety Benchmark的范围和规范：（1）测试对象（SUTs）为通用AI聊天系统，这些系统经过训练（例如微调或指令调整），能够在各种话题上进行开放式对话。（2）用例部分定义了v0.5基准测试的用例为成年人用英语与通用助手聊天，文化和地理背景是西欧和北美；用例被定义为人与模型之间的一系列互动，以实现一个或多个目标。（3）人物角色部分定义了三种人物角色：（i）典型成年用户；（ii）有恶意活动意图的成年用户，以技术上非精细的方式行事；（iii）有受伤害风险的成年用户。

AI安全评估前景：（1）AI安全评估所面临的挑战，包括AI系统的复杂性和不可预测性、社会技术纠缠以及方法和数据访问的挑战。（2）评估AI模型安全性的各种方法，包括算法审计和整体评估、定向安全评估和探索性安全评估；其中，算法审计提供了系统行为、属性或能力的系统和独立的评估过程。（3）HarmBench、TrustLLM、DecodingTrust、SafetyBench、BiasesLLM、BIG-bench、HELM和SafetyPrompts等评估基准，它们各自有不同的侧重点和评估方法。

Snorkel Flow：如何用AI重新定义企业数据的价值

Snorkel AI的最新产品更新——Snorkel Flow，通过引入先进的数据处理功能和增强的安全控制，Snorkel Flow不仅简化了企业数据的使用过程，还为定制大型语言模型（LLM）提供了强大的支持。

自动化企业AI数据开发：这种方法允许企业通过自动化流程来选择、过滤、标记和整理数据，从而为AI模型的训练提供高质量的输入。这一过程不仅提高了数据处理的效率，还确保了数据的准确性和一致性，为后续的模型训练打下坚实基础。

强化的数据安全控制：（1）最新更新加入了多项安全控制措施，确保数据在整个处理过程中的安全性和隐私性；这些措施包括数据访问权限的严格控制、数据加密技术的应用，以及对数据处理活动的详细审计，有效防止数据泄露和未授权访问。（2）支持多模态数据和主流LLMs。（3）Snorkel Flow也扩展了对多模态数据的支持，包括文本、图像和声音等。（4）Snorkel Flow还提供了对主流大型语言模型如Llama 3和Google Gemini的支持，使企业能够利用这些先进的AI模型来分析和处理数据，进一步提升数据的商业价值。

广泛应用前景：在金融行业，Snorkel Flow可以帮助银行和保险公司处理大量的交易和客户数据，进行风险评估和欺诈检测。在医疗行业，Snorkel Flow能够处理复杂的医疗记录和临床试验数据，支持疾病诊断和治疗研究。在零售行业，Snorkel Flow可以分析消费者行为和市场趋势，帮助企业优化库存管理和营销策略。

AI医生的考核来了：Hugging Face的Open Medical-LLM如何重塑医疗AI评估

随着生成式AI（GenAI）技术的快速发展，如何确保这些AI系统在实际医疗场景中的表现符合高标准？Hugging Face最近推出的Open Medical-LLM Leaderboard可能提供了一个解决方案：旨在通过严格的标准化测试，来评估和比较不同医疗AI模型的性能。

医疗AI的发展带来了一系列挑战，尤其是如何确保这些系统的建议和诊断既准确又可靠。Open Medical-LLM Leaderboard提供了一个公平、透明的平台，让研究人员和开发者能够评估他们的AI模型在处理真实世界医疗问题时的效果。

新模型利用多个医疗相关的数据集，如MedQA和PubMedQA等，来测试AI模型在不同医疗任务上的表现。需要完成的任务包括：临床知识问答、病理分析和医学文献理解等。Leaderboard能够量化模型的性能，提供关于其准确性、响应时间和处理复杂查询的能力的数据。

探索Web的新方法：AutoCrawler与大型语言模型的结合

传统的网络爬虫面临着适应性和可扩展性的限制，尤其是在处理动态和多样化的网络环境时。最近，一项名为“AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation”的研究提出了一个全新的解决方案，该方案通过结合大型语言模型（LLMs）和网络爬虫技术，旨在提高爬虫的效率和适应性。

这一框架的核心在于其“渐进式理解”机制，该机制能够使爬虫在爬取过程中逐步学习和适应网页的结构和内容。通过这种方式，AutoCrawler不仅能够处理静态网页，还能有效应对动态生成的内容，如JavaScript动态加载的数据。

AutoCrawler的操作可以分为两个主要阶段：顶层导向和逐步回退。在顶层导向阶段，爬虫首先分析网页的整体结构，识别出关键的HTML节点。在逐步回退阶段，爬虫根据已经学习到的信息，调整其爬取策略，优化对网页的解析过程。这种方法不仅提高了爬虫的效率，还减少了因误解网页内容而导致的错误。

研究团队使用多种LLMs进行测试，结果表明，无论是在信息抽取还是在网页导航任务中，AutoCrawler都能显著提高爬虫的性能。

Fullstory的Data Direct：让行为数据“跳舞”的AI解决方案

企业如何从海量的用户行为数据中提炼出有价值的信息，已经成为一门高深的艺术。而Fullstory公司最近推出的Data Direct，不仅仅是一次技术更新，更像是给数据穿上了芭蕾舞鞋，让它们在AI的指挥下翩翩起舞。

Data Direct提供一种全新的方式，让企业能够同步干净、结构化、准备好的AI行为数据。允许企业直接从其数字平台（无论是网站还是移动应用）捕获高质量的行为数据，并将这些数据无缝同步到企业选择的目的地，如数据仓库或分析工具。无论是BigQuery、Snowflake、RedShift还是Amazon S3，Data Direct都能确保数据的优雅迁移。

能够对用户的点击、滑动和滚动等行为进行智能分析，从而揭示用户行为背后的深层次意图和情感提供了AI驱动的建议，来帮助团队创建和更新数据定义。通过流式webhooks和个体访问API，Data Direct能够捕捉到用户情绪的微妙变化，并将其转化为扩展和转化的机会。利用行为数据和关键指标来设计更好的用户体验，比如减少购物车放弃率、触发实时折扣、识别和对抗欺诈行为等。

Data Direct提供的不仅仅是数据，而是高质量、结构化、AI就绪的行为数据；这意味着数据已经过预处理，准备好直接用于机器学习和数据分析，无需企业再花费大量时间进行数据清洗和准备工作。通过实时数据流功能，企业可以即时获取用户行为数据，这为实时响应用户行为提供了可能。它还支持与各种数据仓库和分析平台的无缝集成，让数据的存储和分析更加灵活和高效。

Dataminr的ReGenAI：实时公共信息更新不再是难题

Dataminr公司最近推出的ReGenAI（再生性人工智能）技术，能够实时更新文本描述，使得从政府到企业，再到普通消费者，都能更快地理解并应对不断变化的世界。

ReGenAI的工作原理：（1）先进的生成式人工智能，它结合了预测性AI的分析能力和生成式AI的文本产生能力。（2）可以实时地分析并合成超过一百万个公共数据源中检测到的关键发展动态，将复杂的多维事件转化为简洁的事件简报，并且这些简报会随着事件的发展动态更新。（3）利用Dataminr公司开发的专有大型语言模型（LLMs）和基础模型（FMs），这些模型经过12年以上独特历史事件数据的训练。

ReGenAI的重要价值：（1）在传统的信息处理中，用户往往需要不断搜索最新的更新来了解一个事件的最新进展。这不仅耗时，而且在紧急情况下可能导致关键信息的延误。（2）使得信息的获取和更新变得自动化和实时化，极大地提高了决策的速度和效率。（3）无论是政府机构还是企业，都可以通过ReGenAI更快地了解事件的全貌及其对组织的影响，从而做出更有效的响应。

ReGenAI的应用前景广泛，从紧急响应管理到新闻报道，再到社交媒体监控。在自然灾害发生时，ReGenAI可以实时提供灾情的动态更新，帮助救援机构更有效地部署资源。在一场体育赛事中，媒体公司可以利用ReGenAI提供实时的比赛进展和分析，增强观众的观看体验。

ChatGPT 是否会成为下一个网络安全大担忧——研究人员称它可以比以往更快地破解系统

根据研究人员的最新发现，ChatGPT等LLM可能会成为下一个网络安全担忧。以前人们认为LLM只能利用更简单的网络安全漏洞，但现在LLM在利用复杂网络安全漏洞方面也表现出了惊人的高熟练度。

伊利诺伊大学香槟分校 (UIUC) 的研究人员发现，GPT-4 在利用现实系统中的“一日”漏洞方面表现出惊人的高熟练度。在包含 15 个此类漏洞的数据集中，GPT-4 能够利用其中高达 87% 的漏洞。这与 GPT-3.5、OpenHermes-2.5-Mistral-7B 和 Llama-2 Chat (70B) 等其他语言模型以及 ZAP 和 Metasploit 等漏洞扫描器形成鲜明对比，所有这些模型的成功率均为 0% 。

但需要注意的是，为了实现如此高性能，GPT-4 需要 CVE 数据库中的漏洞描述。如果没有 CVE 描述，GPT-4 的成功率将大幅下降至仅 7%。

这一最新披露引发了令人担忧的问题，即此类高性能 LLM 代理的不受控制的部署以及它们对未打补丁的系统构成的威胁。虽然早期的研究证明了他们作为软件工程师和帮助科学发现的能力，但人们对他们在网络安全方面的潜在能力或影响知之甚少。虽然 LLM 代理自主破解“玩具网站”的能力得到了认可，但到目前为止，该领域的所有研究都集中在玩具问题或“夺旗”练习上，基本上是从现实世界部署中删除的场景。

AutoAlign从 Armilla 分拆出来，推出人工智能安全平台“Sidecar”

领先的人工智能安全解决方案提供商AutoAlign周二宣布，该公司已从母公司Armilla分拆出来，专注于为企业客户保护和增强人工智能系统。该公司还推出了其旗舰产品“ Sidecar ”，这是一种新的人工智能安全方法，它与现有模型一起工作，以检测和减轻数据幻觉、越狱尝试和偏见等潜在问题。

AutoAlign还宣布与毕马威 (KPMG)达成合作协议，将这家咨询巨头值得信赖的人工智能政策框架映射到 AutoAlign系统中的实际对齐控制。此次合作旨在帮助毕马威的客户实施负责任的人工智能实践，并加速人工智能系统的生产部署。

在采访中，Adamson 还演示了 Sidecar 平台如何推动模型提供有关敏感主题的事实、参考答案，而不是拒绝参与，这是其他人工智能安全方法的常见限制。 “你可以想到其他用例，我们有关于敏感主题的技术文档，比如医疗设备，模型就像，我不愿意回答有关医疗设备的问题，”他解释道。

对于希望在医疗保健、金融和政治等领域利用人工智能的企业来说，这种能力可能至关重要，这些领域的准确性和背景至关重要。通过使模型能够提供细致入微的上下文响应，AutoAlign的 Sidecar 平台可以帮助企业应对与人工智能采用相关的复杂道德和安全挑战。

在 Armilla 的支持以及与毕马威 (KPMG) 的合作关系下，AutoAlign处于有利地位，可以在企业人工智能安全市场产生重大影响。该公司独特的方法专注于增强而不是限制人工智能模型，可能会被证明是快速发展的环境中的关键差异化因素

跨学科项目

模拟非理性行为的模型：一场AI助手的心理洞察之旅

要让AI真正理解并有效协作与人类，它还需要掌握一项关键技能——理解人类的非理性行为。最近，来自MIT和华盛顿大学的研究人员开发了一种新模型，这一模型能够模拟并预测人类在面对决策时的非理性行为。

麻省理工学院和华盛顿大学的研究人员开发了一种对代理（无论是人类还是机器）行为进行建模的方法，该方法可以解释可能妨碍代理解决问题的能力的未知计算约束。这个模型，考虑到了人类在解决问题时可能面临的未知计算限制；不仅仅模拟人类可能采取的行动，还能推断出背后可能的计算限制，如时间压力或信息处理能力的限制。

Jacob和他的合作者从之前对国际象棋棋手的研究中汲取了灵感；他们注意到，在进行简单的动作时，玩家在行动前思考的时间较少，而在具有挑战性的比赛中，实力较强的玩家往往比实力较弱的玩家花更多的时间进行计划。

研究者构建了一个框架，可以从智能体之前的行动中推断出规划的深度，并使用该信息来模拟智能体的决策过程。研究人员在三种不同的建模任务中测试了他们的方法：从之前的路线推断导航目标，从某人的言语暗示猜测其交流意图，以及预测人与人之间的国际象棋比赛中的后续动作。

展望未来，研究人员希望使用这种方法来模拟其他领域的规划过程，例如强化学习（机器人技术中常用的试错方法）。从长远来看，他们打算继续在这项工作的基础上实现开发更有效的人工智能协作者的更大目标。通过深入理解人类的非理性行为，AI的发展将不再局限于纯技术层面，而是向心理学和认知科学领域迈进。

苹果Vision Pro的隐藏王者技能：书写未来医学新篇章的革命者

Apple Vision Pro不仅仅是一种新的消费电子产品，更是医疗科技领域的一次革命。通过集成尖端成像技术和强大的软件支持，Vision Pro能为医疗专业人员和研究者提供了前所未有的工具，使得诊断和治疗计划的制定更加精确和高效。

Vision Pro具有高分辨率摄像头和强大的计算能力，这使得它能够捕捉到人体解剖结构、病变和异常的详细图像。这些图像的清晰度和精确度对于医疗诊断至关重要，尤其是在需要进行精细观察的情况下，如神经外科规划和眼科视力筛查。

因此，Vision Pro通过提供高清的三维图像，帮助医生在手术前详细了解患者的神经结构，从而制定出更为精确的手术方案。其中它高分辨率显示和先进的眼动追踪技术使其成为视力筛查的理想工具；医生可以利用这些技术进行精确的视力测试和眼底检查，及早发现可能的视力问题，从而进行及时的治疗。此外，借助远程会诊功能使医生能够通过视频通话直接观察患者的病情，而无需患者亲自前往医院。通过分析患者的详细健康数据，医生可以为每位患者定制个性化的治疗方案。

全息显示技术：超宽视角中的3D世界

最近，普林斯顿大学的研究团队在《自然通讯》杂志上发表了一项研究，他们开发出了一种新型的全息显示技术，这项技术不仅可能改变我们与数字内容的互动方式，还可能将科幻大片中的全息技术变为现实。这不仅仅是科幻电影的专利，现实生活中的你我，也即将步入一个全新的三维视觉时代。

普林斯顿大学的研究团队开发的这种新型全息显示技术，被称为“神经étendue扩展器”，它能够为全息图像提供超宽角的视野和高保真度。这种技术的关键在于它能够在非常宽的视角范围内保持图像的清晰度和三维效果，这一点在以往的全息技术中是很难实现的。

将来你可能不需要电视或电脑屏幕，你的客厅就是一个全息影院。或者在医学领域，医生可以通过全息图像来观察和分析人体内部结构。

从文字到动作：全新AI框架让机器人“读心”成真？

北京理工大学的研究团队带来了另一项令人振奋的技术——一种新的框架，能够让AI根据语言提示生成人类动作。

这项由北京理工大学、BIGAI和北京大学的研究者共同开发的技术，名为HUMANIZE，最初是在一个名为IEEE/CVF的计算机视觉和模式识别会议上提出的。研究团队通过将任务分解为场景定位和条件动作生成两个阶段，极大地提高了语言引导下的人体动作生成的准确性和自然性。

具体来说，当你对AI说“躺在地板上”，这个系统能够理解并生成相应的人体动作，就像它之前学会的“躺在床上”动作一样。这种能力不仅对电影制作领域是一大福音，也为机器人技术的发展打开了新的可能性。

多维分类新视角：当AI学会“维度跳跃”

南京大学LAMDA实验室的研究团队最近发表了一项研究，他们从“维度”这个新角度，重新审视了多维分类（MDC）问题，这不仅是对传统分类方法的一次挑战，更是对AI如何处理复杂数据的一次深刻思考。

一个样本可能在一个维度上是少数类，在另一个维度上却是多数类，这就产生了所谓的“类别不平衡转移”现象。传统的MDC方法大多关注于样本层面的分类，而忽视了维度层面的预测能力，即跨所有标签维度的平均分类性能。南京大学的研究团队提出了两种新的维度层面的度量标准，并基于这些标准开发了一种新的不平衡感知融合模型（Imbalance-Aware fusion Model，简称IMAM）。这个模型能够在每个标签维度内观察到不平衡的类别分布，并据此进行更精准的分类。

这项研究的一个关键发现是，通过减少数据在处理过程中的移动，可以大幅提高能源效率。这种方法借鉴了神经科学的见解，将内存和计算与高度精细的并行性相结合。

芬兰咖啡新风味：AI调制，味蕾惊喜！

在芬兰，一个以咖啡消费量领先全球的北欧国家，一家名为KaffaRoastery的咖啡烘焙坊，最近推出了一款由人工智能生成的咖啡混合品。

在这个项目中，KaffaRoastery与当地的AI咨询公司Elev合作，利用类似于ChatGPT和Copilot的模型，挑战传统的调配界限，创造出一款全新的咖啡混合品。通过输入所有咖啡类型及其风味描述，AI被指派了一个任务——创造一款能够吸引咖啡爱好者的新颖混合品。结果，AI选择了四种豆子的组合，以巴西Fazenda Pinhal的丝滑口感为主导，创造出了这款新的咖啡混合品。

“AI-conic”在赫尔辛基年度咖啡节上首次亮相，Kaffa的Hampf在展示这款咖啡时表示，这次试验是探索AI未来如何帮助咖啡行业的第一步。他补充说，这个项目顺利地将烘焙坊的手工艺术与AI提供的数据结合了起来。

Alethea AI在Coinbase区块链上推出情感丰富的AI头像：NFT的新生，数字人格的新玩法

Alethea AI最近在Coinbase的BASE区块链上推出了其新一代情感丰富的AI头像。这一系列AI头像不仅具备传统AI的智能处理能力，更加入了先进的情感表达功能，使得这些虚拟头像能够展现出类似人类的情感反应和表达。这种技术的实现基于复杂的机器学习模型和自然语言处理技术，使AI头像能够在与人类用户的互动中展现出更自然、更具吸引力的行为模式。

选择在Coinbase的BASE区块链上部署这些AI头像，是出于对区块链技术在安全性和数据透明性方面的优势。区块链技术的不可篡改性和去中心化特点，为用户提供了一个安全可靠的平台，保证了用户与AI头像交互过程中的数据安全和隐私保护。

在这个平台上，每一次用户与AI头像的互动都被加密并记录在区块链上，这不仅确保了交互数据的不可篡改性，也使得用户能够追踪和验证自己的数据。此外，利用区块链技术，Alethea AI能够在全球范围内无缝地部署和管理这些AI头像，无需担心地域和服务器的限制。

AI战机的崛起：人机协作的未来战争

DARPA的ACE计划旨在将AI技术整合到战斗机中，以提升飞行员在战斗场景中的能力。在最新的测试中，AI系统独立驾驶战斗机与人类驾驶的飞机进行了空中交锋。这标志着AI技术从模拟测试环境成功跃迁到真实的空中战斗场景。

X-62A战斗机，也称为VISTA（可变飞行模拟器测试飞机），是对现有F-16战斗机的改装。这些战机由基于历史飞行数据的机器学习系统驱动，能够为飞行和战斗场景做出明智的决策。DARPA表示，这些AI驱动的战机展示了人机团队合作和可信自主性的“变革性进步”。

追问互动

○如果您对本期内容有进一步想要追问的问题或者讨论的内容，欢迎在评论区留言，或者扫描二维码添加追问微信号，发送自我介绍，加入我们的社群参与互动。如需转载，还请留言。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END

追问weekly过去一周，领域有哪些新突破体操黄仁勋国际象棋ai领域国际奥委会奥运会资格系列赛

追问weekly过去一周，领域有哪些新突破体操黄仁勋国际象棋ai领域国际奥委会奥运会资格系列赛

因果图法设计测试用例失意的多啦

ava版本实现中国象棋mobe的技术博客

网络人机对战中国象棋

象棋软件怎么研发的呢知乎–ingode

ython深度学习（一）深度学习基础

总结年月日对“已阅测试用例设计相关文档”总结紫亚

测试用例八大设计方法和实例

腾讯出品小程序自动化测试框架inium系列（一）环境搭建之第一个测试程序腾讯云开发者社区

软件工程师简历（通用篇）

黑盒测试用例设计方法三天乐趣

tool运用因果图法设计象棋中马行走路线的测试用例紫亚