返回探索
InternVLA-M1

InternVLA-M1 - 视觉语言机器人控制框架

空间引导的视觉语言动作框架,用于通用机器人控制

4
399 浏览
访问官网

详细介绍

InternVLA-M1 仓库中文介绍文档

InternVLA-M1 是一个面向通用机器人策略的视觉语言动作框架,由InternRobotics提供,汇聚了空间引导、多模态预训练和高效微调等核心内容。

要点:

  • 开头就要说清楚:这是什么工具、解决什么问题
  • 包含Stars数(如有)、维护者信息
  • 1-3句话,简洁有力

一、核心信息速览

维度 详情
:--- :---
仓库地址 [InternVLA-M1](https://github.com/InternRobotics/InternVLA-M1)
许可证 MIT
核心定位 提供一种空间引导的视觉语言动作框架,用于机器人控制
主要语言 Python
适用人群 想要利用开源视觉语言模型进行机器人控制的用户;联合训练动作数据集与多模态数据的团队;探索替代性VLA架构和训练策略的研究人员
关键亮点 模块化与可扩展性;双系统与双监督;高效训练与快速收敛

二、核心功能

功能模块 描述 典型场景
:--- :--- :---
模块化设计 所有核心组件(模型架构、训练数据、训练策略、评估流程)完全解耦,支持独立开发、调试和扩展 灵活调整模型结构或训练策略
双系统与双监督 在统一框架下集成语言头和动作头,实现协同训练与双重监督 多任务学习与优化
高效训练 通过大规模多模态预训练学习空间和视觉先验,并通过空间提示微调进行迁移 快速达到SOTA性能
交互式演示 支持图像问答和空间定位的交互式演示 实时测试模型效果
多平台支持 支持多种机器人控制任务和环境 适用于不同机器人系统
开源社区 提供完整的代码和文档,便于开发者参与和贡献 社区协作与持续改进
丰富的实验结果 提供多个基准任务的实验结果对比 评估模型性能
轻量级部署 提供简化的部署流程,便于快速上手 快速集成到实际项目中

三、快速上手

1. 环境准备

Python 3.10及以上版本

2. 安装方式

pip install -r requirements.txt
pip install flash-attn --no-build-isolation
pip install -e .

3. 基础配置

克隆仓库并创建conda环境:

git clone https://github.com/InternRobotics/InternVLA-M1
conda create -n internvla-m1 python=3.10 -y
conda activate internvla-m1

4. 核心示例

from InternVLA.model.framework.M1 import InternVLA_M1
from PIL import Image
import requests
from io import BytesIO
import torch

def load_image_from_url(url: str) -> Image.Image:
    resp = requests.get(url, timeout=15)
    resp.raise_for_status()
    img = Image.open(BytesIO(resp.content)).convert("RGB")
    return img

saved_model_path = "/PATH/checkpoints/steps_50000_pytorch_model.pt"
internVLA_M1 = InternVLA_M1.from_pretrained(saved_model_path)

image_url = "https://raw.githubusercontent.com/InternRobotics/InternVLA-M1/InternVLA-M1/assets/table.jpeg"
image = load_image_from_url(image_url)

四、核心亮点

  1. 模块化与可扩展性:所有核心组件完全解耦,支持独立开发、调试和扩展。
  2. 双系统与双监督:在统一框架下集成语言头和动作头,实现协同训练与双重监督。
  3. 高效训练:通过大规模多模态预训练学习空间和视觉先验,并通过空间提示微调进行迁移。
  4. 交互式演示:支持图像问答和空间定位的交互式演示,便于实时测试模型效果。
  5. 多平台支持:适用于多种机器人控制任务和环境,提升模型的适应性。
  6. 开源社区:提供完整的代码和文档,便于开发者参与和贡献,推动技术进步。

五、适用场景

  1. 机器人控制:适用于需要视觉语言动作框架的机器人控制系统。
  2. 多模态数据训练:适合联合训练动作数据集与多模态数据的团队。
  3. 研究探索:为研究人员提供探索替代性VLA架构和训练策略的平台。
  4. 快速部署:适用于需要快速部署和集成的项目。
  5. 实验验证:适合用于验证和比较不同模型性能的实验场景。

六、优缺点

优势

  • 模块化设计提升了灵活性和可扩展性
  • 双系统与双监督机制提高了训练效率和效果
  • 高效训练方法降低了资源消耗和时间成本
  • 丰富的实验结果提供了可靠的性能参考

不足

  • 对硬件要求较高,尤其是GPU资源
  • 文档和教程可能对新手不够友好
  • 需要一定的机器学习和编程基础

七、与同类工具对比(可选)

工具 类型 核心差异
:--- :--- :---
本工具 开源视觉语言动作框架 免费开源、模块化设计、高效训练
类似工具A 商业闭源系统 功能强大但成本高、灵活性差

八、总结

InternVLA-M1 是一款面向通用机器人策略的视觉语言动作框架,适合需要高效训练和多模态处理的机器人控制系统。其模块化设计和双系统机制使其在性能和灵活性上具有显著优势,但在使用时需要注意硬件和技能门槛。

相关工具