发布时间:2025-11-24
点击次数: 
AIBrix v0.5.0 现已发布。此版本引入与 OpenAI 兼容的批处理 API,专为处理高吞吐、时延不敏感的离线推理与评估任务设计,有效避免对实时端点造成干扰。同时,新版本集成了全新的 KVCache 连接器(AIBrixOffloadingConnectorV1Type3),借助其流水线式预取与分层卸载机制,显著提升 KVCache 卸载与复用的效率。
此外,v0.5.0 将 StormService 打造为生产级的控制面,通过 PodSet/PodGroup 原语实现多 Pod 管理,提供拓扑与负载感知的路由能力,并利用 subTargetSelector 实现角色级自动扩缩,从而为 P/D 分离架构提供精细化的资源伸缩。
核心功能概览如下:
AIBrix 本次更新正式加入对批处理 API 的支持。批处理 API 旨在优化大体量、对延迟不敏感的推理工作负载,是一项强大的新功能。
随着生成式人工智能(GenAI)应用的规模不断扩大,并非每个请求都需要即时响应。像大规模数据集评测、离线内容生成和批量数据处理等任务,常常会使实时服务接口拥堵不堪,导致资源利用效率低下和成本增加。AIBrix 批处理 API 通过允许用户异步提交大量请求来解决这一问题。通过将这些请求以优化过的数量批次处理,相较于标准在线服务,AIBrix 可以显著提高 GPU 利用率和集群整体吞吐量。
主要特性
OpenAI 兼容性: 批处理 API 被设计为可直接替代现有工作流,支持标准的 OpenAI 批处理 API(例如,/v1/batches)。
异步处理: 支持“即发即忘”架构。通过 .jsonl 文件提交大量任务后,客户端应用程序可以处理其他任务,并在结果就绪后进行检索。
可配置的作业池: 支持通过可配置的作业池大小微调资源分配,以适应特定的硬件限制和吞吐量目标。
增强的错误处理: 强大的验证和错误报告功能支持请求自动重试,确保您可以追踪大规模批处理中每个单独请求的状态。
快速入门
由于 AIBrix 批处理 API 与 OpenAI 兼容,对于熟悉标准大语言模型工具的人来说,上手操作十分简单。
requests.jsonl):
{"custom_id": "req-1", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "llama-3-8b", "messages": [{"role": "user", "content": "Hello world!"}]}}
{"custom_id": "req-2", "method": "POST", "url": "/v1/chat/completions", "body": {"model": "llama-3-8b", "messages": [{"role": "user", "content": "Explain batch processing."}]}}
from openai import OpenAI
client = OpenAI(
base_url="http://your-aibrix-endpoint/v1",
api_key="aibrix"
)
# Upload file
batch_file = client.files.create(
file=open("requests.jsonl", "rb"),
purpose="batch"
)
# Create batch job
batch_job = client.batches.create(
input_file_id=batch_file.id,
endpoint="/v1/chat/completions",
completion_window="24h"
)
print(f"Batch submitted: {batch_job.id}")
了解更多
如需完整的部署配置和 API 参考,可访问官方文档。链接:https://aibrix.readthedocs.io/latest/features/batch-api.html
在 v0.4.0 版本中发布的 AIBrix KVCache Connector,经过基准测试与内部实际部署验证,发现了一些重要的可以提升性能的优化机会。为充分挖掘这些优化点以发挥 KVCache 卸载的潜力,在 v0.5.0 版本中实现了一系列关键优化,并推出了新的 KVCache Connector9(AIBrixOffloadingConnectorV1Type3)。
Lateral App
整理归类论文
85
查看详情
核心优化技术包含:
通过让预取、加载与计算这三个关键阶段并行执行,以流水线充分重叠的优化方式,不仅大幅减少了空闲等待时间,消除了TPOT(每秒输出 token 数)的延迟损耗,更让系统吞吐性能突破原有瓶颈。
通过将 KVCache 卸载操作与推理各层的前向计算同步进行,有效隐藏了数据传输延迟。使得即使 KVCache 命中率较低时,仍能保持高效推理,确保推理引擎持续满载运转,实现资源利用率最大化。
相较于 v0.4.0 版本的 KVCache Connector(AIBrixOffloadingConnectorV1Type1),在 Llama 3.1 70B 模型(张量并行度=8)的测试中,v0.5.0 版本的这套组合优化方案使 TPOT 与整体吞吐量双双提升超过20%,同时仍保持优异的 TTFT(首 token 时延)。
v0.5.0 版本将 StormService 升级为面向大规模异构 P/D 分离集群的高级控制面。全新推出的 PodGroup API 使 StormService 能够与协同调度生态系统(Coscheduling、Godel、Volcano)无缝集成,将紧耦合的工作节点作为统一调度单元进行编排。结合新设计的 PodSet API,StormService 现已能显式管理多 Pod 工作节点与分片组, 即将其作为逻辑整体统一控制生命周期、拓扑结构与运行状态,同时保持与现有单 Pod 架构的向后兼容性。
此外,v0.5.0 为复杂部署场景提供了更强大的滚动更新与重启语义。新增的 FullRecreate 策略让运维人员能够以原子方式恢复异常 PodSet,避免产生中间状态残留;而角色升级序列功能支持按预设顺序(例如:集群内路由 → 预填充节点 → 解码节点)在不同角色间进行安全有序的变更发布,彻底取代随机更新机制。这套组合方案使得高风险操作(如模式变更、路由调整、运行时升级)变得高度可预测。
spec:
roles:
- name: prefill
replicas: 3
podGroupSize: 2 # introduce new field to indicate the pod group size. for example DP or TP case.
stateful: true
recoveryPolicy: ReplaceUnhealthy # ReplaceUnhealthy or Recreate
template:
...
路由层现已升级至支持这些编排原语。在副本模式和池化模式下,AIBrix 会优先选择同一 RoleSet/PodSet 中的预填充与解码节点进行配对,通
过负载感知评分机制选取最空闲的候选节点,并将基于 Nixl 的 P/D 分离架构与正确的 kv_transfer_params 参数对齐,确保流量能够抵达具备正确 KVCache 状态的目标群组。新增的防护机制可保证路由逻辑遵循 HttpRoute 状态与故障条件,弥补了早期版本中存在的正确性缺陷。
此外,为 StormService 新增了角色级自动扩缩容功能,使预填充与解码角色能根据各自指标独立伸缩。通过 PodAutoscaler 中新引入的 subTargetSelector 选择器,运维人员可为不同角色或资源池配置独立的自动扩缩容策略(例如对预填充角色采用激进的扩缩容策略,对解码角色则采用保守策略),这对 P/D 分离形态下的池化场景与异构场景至关重要。这些改进使得 P/D 分离架构不仅能实现,更能在规模化场景中保持运维整洁性。
# PodAutoscaler for prefill role
apiVersion: autoscaling.aibrix.ai/v1alpha1
kind: PodAutoscaler
metadata:
name: ss-pool-prefill
namespace: default
annotations:
autoscaling.aibrix.ai/storm-service-mode: "pool"
spec:
scaleTargetRef:
apiVersion: orchestration.aibrix.ai/v1alpha1
kind: StormService
name: ss-pool
# new Added: Select the prefill role within the StormService
subTargetSelector:
roleName: prefill
完整示例: https://github.com/vllm-project/aibrix/blob/main/samples/autoscaling/stormservice-pool.yaml
v0.5.0 版本还强化了运行时层,使运维人员能够在所有引擎上获得更清晰一致的控制路径。元数据服务器已完成从 Go 到 Python 的重构,并集成健康与存活探查,镜像体积显著缩减;下载器现能更稳健地处理递归式对象存储布局,使得实际使用中的模型与制品管理标准化变得更为容易。通过 Webhook 与轻量级封装库,AIBrixRuntime 边车容器可自动注入到 Deployment 和 StormService 工作负载中,实现了指标收集、下载管理与运维操作的统一,无需再为每个推理引擎编写定制化代码。
在此基础上,强化了面向多租户场景的 LoRA 与模型适配器的工作流。AIBrix 现支持将适配器伸缩至预期副本数,重构了适配器副本跟踪机制,新增类型化封装以降低集成难度,并允许通过运行时直接拉取 LoRA 制品。这些改进共同使得在单个基础模型上跨多引擎、多集群运行大量 LoRA 组件的实践更健壮,更易于实现自动化。
自动扩缩容组件也进行了显著的加强。v0.5.0 版本通过可重试的 RestMetricsFetcher、共享客户端/聚合器以及配置更新中的竞态条件修复,统一了指标采集流程,让扩缩容决策既更快速又更可靠。优化了 KPA 默认参数,增加指标标签选择器支持,仅在副本数实际变更时触发事件,并将扩缩容历史直接暴露于 PodAutoscaler 状态中。这些改进使自动扩缩容从一个黑盒组件转变为可观测、可调试、策略驱动的系统模块。
总体而言,这些在运行时、LoRA、自动注入与自动扩缩容方面的增强,共同推动 AIBrix 向开箱即用控制面的目标迈进。
源码地址:点击下载
以上就是AIBrix v0.5.0 正式发布:实现批量 API 支持的详细内容,更多请关注其它相关文章!
# html
# python
# 人工智能
# github
# go
# json
# git
# js
# 网站建设昆山
# 书店网站建设海报模板
# 代理推广营销案例分析
# 兰州网站优化价格表
# 并将
# 客户端
# 工作流
# 正式发布
# 选择器
# 重构
# 离线
# 美国政府
# 递归
# 批处理
# c
# win
# openai
# 路由
# ai
# 工具
# 广州网站建设工作流程
# 宁河区营销网站优化单价
# 产品推广网站模板怎么做
# 珠宝网站网站建设流程
# 赞皇网站建设市场价
# 英山网站建设定位
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
AI立法迫在眉睫,如何看对行业影响?
小艺主导智慧交互升级,借助AI大模型增强能力
英伟达的AI领域垄断地位:一直无法撼动吗?
网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手
能走、能飞、能游泳,科学家打造全能 M4 机器人
人形机器人概念集体爆发,能买吗?
2025年深圳举办的SUSECON 创新峰会开始接受报名
联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络
“苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线
Unity 内测 Safe Voice 服务,利用 AI 自动识别玩家不当聊天内容
美图吴欣鸿:希望更多人用上AI时代的影像生产力工具
北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”
2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组
从谷歌到亚马逊,科技巨头们的AI痴迷
华为盘古AI模型实现秒级全球气象预报时间缩短
组建团队,字节跳动要造机器人?
边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗
关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知
亚马逊CEO:人工智能将成为公司未来战略的重中之重
华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来
三星加速AR眼镜进程,预计明年上半年亮相
浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库
新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异
世界人工智能大会中西部县域数字就业中心组团亮相
Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
焊接协作机器人或将成为26届埃森展最大看点
AI 程序 Text With Jesus 在海外迅速受到关注:与耶稣和撒旦进行对话
AI+游戏首度大范围公布实际应用成果,AI全面来临还有多远?
编程版GPT狂飙30星,AutoGPT危险了!
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT
借助ChatGPT快速上手ElasticSearch dsl
无人机巡检方案是什么,该如何选择适合的巡检方案
可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能
亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资
AI 助手 Copilot 上线,微软 Win11 Dev 预览版 Build 23493 发布
2025世界人工智能大会前沿科技共绘“未来”图景, 这家这家独角兽企业的通用大脑将在AI领域大放异彩
2025年的网络分区:人工智能和自动化如何改变事物
出门问问亮相2025世界人工智能大会,展示AI CoPilot解决方案
Meta 人工智能业务落后竞争对手,研究人员大量离职成重要原因
写出优质文章的妙招:利用"稿见AI助手"的实用指南
鉴智机器人发布基于地平线征程5的标准视觉感知产品
大厂出品!这个AI网站太顶了,所有功能免费用
华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案
“痴迷”元宇宙,魔珐科技想做什么?
AMD在AI方面奋起直追,与英伟达的差距缩小了吗?
“电碳”技术提升碳排放监测精度
谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程
吉林首例!机器人辅助下搭桥手术成功实施
意大利警察拟用AI预测犯罪 该算法被指种族歧视严重