人工智能四足机器人开发套件融合了人工智能技术+具身智能技术+大模型技术+强化学习+嵌入式系统技术技术;通过丰富的基础实验和项目案例,实现从人工智能全栈基础学习到应用实践的完整过程。 一、硬件资源 1.铝合金板件1套 2.关节舵机: 1)有效旋转为-120度到120度; 2)转动速度0.19sec/60°; 3)转动扭矩19.5kg.cm。 3.嵌入式AI运算单元: 1)四核Cortex-A76处理器架构,主频2.4GHZ; 2)内存为LPDDR4X,8G; 3)支持TensorFlow/PyTorch等框架网络模型; 4)128GB 存储; 5)两路HDMI端口; 6)802.11ac2.4GHz/5GHz双频Wifi&蓝牙5.0低功耗(BLE); 7)2xUSB3.0,2xUSB2.0。 4.AIDOG头部: 1)离在线语音模块:两路麦克风,两路2W喇叭,在线识别通信到AI运算单元,离线模块采用 RISC 并集合 DSP 指令集,实现FFT加速器。实现离线的语音唤醒,并结合大模型实现语音识别、大模型理解、语音合成等实现对话能力。 2)2.8英寸显示终端。 3)显示终端驱动板 5.驱动模组 1)DC-DC单元; 2)加速度传感器; 3)内置蜂鸣器单元; 4)ARM Cortex-M4核心板,片内1MB的 Flash,196KB的SRAM。 5)提供一键启动复位按钮。 6.双目摄像头:105度高清无畸变,USB免驱,支持手动调物距,可实现双目同步/识别/标定测距/深度检测,移动式摄像头,方便实现标定、跟踪等学习。 7.12V/3000mA动力锂电池; 8.PS2手柄:可实现按键控制以及摇杆控制四足机器人运动。 9.激光雷达:三角测距原理,360度扫描,0.92度分辨率,每秒2300次测量,扫描频率6Hz,测量半径25米。 10.嵌入式操作系统:搭载64位Ubuntu20.04,Python,TensorFlow、PyTorch、ROS。 二、实验资源 1、提供Python实验:模块与包、异常处理机制、迭代器与生成器、正则表达式、装饰器、文件操作、多进程、多线程、协程、网络的基础知识、网络编程 2、基于PyTorch人工智能开发 1)Numpy数组实验:Ndarray数组、线性代数等 2)PyTorch基础实验:PyTorch基础--Tensor张量、PyTorch基础--自动微分机制、PyTorch基础--动态计算图、PyTorch基础--神经网络介绍等; 3)数据集定义与加载实验:PyTorch内置数据集的加载、PyTorch自定义数据集加载、GPU的使用等; 4)数据预处理一图像实验:PIL的基本使用、cv2的基本使用等; 5)神经网络的搭建实验:搭建LeNet神经网络模型等; 6)训练与保存实验:初始化和导入模型、定义损失函数和优化器、启用梯度使用CUDA加速、训练过程可视化等实验; 3、基于PyTorch的机器学习算法原理与实践实验 1)机器学习算法原理实验:KNN算法、数学的方法实现KNN算法、前向传播与损失函数、反向传播的学习率与梯度下降、自求导线性回归、基于框架的线性回归、数学的方法实现线性回归、曲线拟合、激活函数及其导数、逻辑回归、基于框架的逻辑回归、支持向量机、贝叶斯分类、贝叶斯多分类、K均值聚类、数据降维、隐马尔科夫模型、决策树与随机森林等实验; 2)机器学习算法:基于线性回归预测销量、基于逻辑回归实现对鸢尾花多分类、朴素贝叶斯基于SVM完成手写数字识别、基于决策树与随机森林完成对汽车的评测、基于隐马尔科夫的股票预测、基于PCA的数据降维等实验; 4、基于PyTorch的深度学习原理与实践实验 1)深度学习算法原理:全连接与链式求导法则、优化器与优化方法、深度学习线性回归、深度学习曲线回归、深度学习分散簇分类、深度学习圆环分类、深度学习月牙分类、计算机眼中的图像、卷积为什么能识别图像、池化为什么能提取特征、多通道卷积与偏置过程等实; 2)经典神经网络:LeNet-5、AlexNet、VGGNet、GoogLeNet、ResNet、MobileNetV1、MobileNetV2、MobileNetV3等实验; 5、图像处理与计算机视觉实验:图片颜色识别、图像噪点消除、图像梯度处理、图像边缘检测、绘制图像轮廓、凸包特征检测、图像轮廓特征查找等实验; 6、自然语言处理实验:基于RNN的风电功率预测、RNN的梯度消失和梯度爆炸、Word Embeddging词嵌入、Word2Vec、Word2Vec优化、soft-attention、绝对位置编码、Layer-Normaliaztion、Attention中的mask、Transformer等实验; 7、综合项目 1)自然步态行走项目 结合加速度传感器,实现机器狗的Trot步态、Trot步态原地踏步、Walk步态、PS2手柄控制四足机器人运动; 2)语音控制 支持语音自由对话,识别用户语音输入内容,实现Agent智能体调用并执行相应的语音指令动作。 3)场景理解 通过视觉大模型,AIDOG能理解视野内的场景信息,并输出文本与语音反馈。 4)多模态大模型智能助手应用: 结合离线的语音唤醒、大模型的语音识别、LLM语义理解、语音合成等能力,实现自动的语义理解,触发对应的多Agent或VLM多模态大模型,实现机器狗的多模态对话与摄像头画面理解; 5)主人跟随 通过双目摄像头结合算法实现主人的距离检测,通过YOLO实现主人的位置检测,实现跟随任务; 6)手势理解与跟踪 根据手势的不同,机器狗可以做出不同的动作。 7)人体骨骼检测 基于人体骨骼检测算法,实现四足机器人可以做出相应的动作。 |