树莓派4评测 国内版

树莓派4目前已经发布了,外媒给出了很多评测,国内也很多翻译稿了,几天前,52Pi团队也拿到了最新的树莓派4(2G版本).

其他不用多说,就大家最关心的问题展开讨论.

CPU到底提升了多少?很多外媒都用了HPL这个算法来衡量速度提升,首先,比较片面,而且也没提到相应的测试条件.究竟GCC版本是多少,编译参数是什么,只是给了一个对照表.对温度参数,那更是闭口不谈,实际功耗多少,也没有个明确的意思,网络能不能跑满,这也是很多人关心的话题.

首先,网友关心的第一问题,CPU提升了多少?(以下情况在良好散热条件下进行)

根据历史评测:http://www.52pi.net/archives/1306 数据来看

使用sysbench工具,单核性能从3B Plus的317.6974秒缩短到250.3330秒,提升大约27%.比3B的 370.5472秒提升大约48%.

而多核性能(4核全开)来看,也从3B Plus的80.6170秒缩短到64.1216秒,提升约26%,比3B提升约45%.

但是如果使用4G版本,则还有部分性能提升.

这里可见比官宣的要低上一些,为了公平起见,我另外在树莓派3B Plus上烧录同样的系统,进行同样的测试,基本没有变化.为了引入对比,这里加入了NanoPC-T4 (RK3399)作为对照组,由于RK3399可以用64位系统,而树莓派目前64位依然是Beta测试中,所以RK3399依然占有加成.6核全开情况下,RK3399跑分3.4272秒,大概是树莓派4在4核全开下18倍性能,期待树莓派适配64位系统,带来更高的性能提升.

网友关心的第二个问题,能不能跑满千兆?

测试用对传的主机配置是i7 6950X / 64G DDR4 / INTEL 82599万兆,使用的工具是iperf3,连接方式是和电脑主机直接连接.

可见,单纯的传输来说,是可以接近千兆的,除去协议开销,基本就是千兆网的配置了.比以前被USB 2.0 480Mbps掐住咽喉而言,现在算是不少的提升,由于以前USB2.0的原因,实际网卡速度还要限制在400Mbps左右.这个提升,算是翻倍不止了.

网友关心的第三个问题,USB 3.0速度是否能跑满?

首先,硬盘是闪迪SSD U110,就读取速度而言,是满足USB3.0的接口带宽的.(官标470MB/s)

可见USB 3.0速度比想象要低很多,但是也是USB 2.0没法比的,由于USB是10Bit传输,同时,这里的USB3.0控制芯片自身支持UASP,所以理论速度应该为500MB/sec,实际发挥了理论速度的71%水平.

网友关心的第四个问题,是否真的需要散热?

首先,如果不辅以散热,正常工作时,获取到的温度如下.

并且在负载运行后,快速到达温度墙,80度,其中意味,大家都能想到.

网友关心的第五个问题,加解密性能如何?

看到这个需求,我猜测大概是希望用来做软路由的,其中用户最关心的,应该是AES性能了,其中比较常用的AES-256(1K块)大约62MB/s,基本满足大部份需求.更多的参考截图.使用openssl测试工具测试.

网友关心的第六个问题,功耗如何?

首先,官方推荐使用5V 3A电源,我实测中发现,不接任何外设,也不连接网络,整机的功耗约为5V 0.6A(3W),连接网络后整机的功耗约为5V 0.8A(4W),进行stress火力全开的测试条件下,连接网络,不连接其他外设,整机功耗约为5V 2.1A(10.5W),如果算上用户要接移动硬盘等,则这些功耗还要在输入端扣除,建议使用更优质的电源,或者,直接上电源板吧.购买连接: https://item.taobao.com/item.htm?id=597551219738

网友关心的第七个问题,现在手上有的扩展板,是否还能继续使用?

首先,扩展板最依赖的,就是各种库,这样开发才方便,现在系统wiringPi库和Python GPIO库还没有更新,并不能直接操作IO,但是,我们的DockerPi系列模块,是非常方便的,就算脱离了GPIO库,我也可以用命令控制开关啊~ 具体可以参照 https://wiki.52pi.com/index.php/DockerPi_4_Channel_Relay_SKU:_EP-0099 购买链接: https://item.taobao.com/item.htm?id=596936971926

目前GPIO库是不完善的,如果你用的是DockerPi系列模块,就没这个烦恼了.

网友关心的第八个问题,Python 2是否还在?

Python 2目前是即将结束寿命的开发语言(2020 年 1 月 1 日 EOL),并且Debian Buster中,Python 2是被移除的,但是,在树莓派上,Python 2是依然存在的,并且,RPi.GPIO库看起来还会继续更新支持,只不过,现在开发新程序的话,最好是切换到Python 3了.

网友关心的第九个问题依然是开发问题,Java还在吗?

这个问题,跟Python 2在不在很像,由于大家都知道.Java正在走向商业化,所以,现在已经替换到OpenJDK了,当然,程序上的改动会有一些,相信不会难到Java程序猿.

其他关心的诸如GPU问题,官方还没更新最新的驱动,目前测试来看,提升几乎可以忽略,但是后续更新应该会带来更好的体验.另外由于树莓派4比较挑TF卡,所以也就要更加注意.

Jetson Nano 夜用超长评测

板子的基本配置:

目前来说,我也算是国内比较早拿到板子的吧!

盒子背面还是有比较详细的一些介绍.

特别注意的是,这里提供电源有四种模式,分别是5V 2A(USB)/5V 3A(GPIO引脚)/5V 4A(DC接口)/5V 6A(所有电源IO反向供电),5V 2A是受限于USB自身,这就奇怪了,明显可以做Type-c接口,支撑更大功率?为什么没有做呢?

另外由于架构和核心多重原因,这个板子满功率大概是10W,剩余的功耗,是用于提供其他外设,比如以太网,USB等等.我实测如果使用华为5A USB线,也能启动带的动这个板子.(注:适配器标定5V 8A)

另外,如果使用DC供电,则必须禁用USB电源.(短路帽插上)

串口和音频口在不是很显眼的位置出现.

不过,标注是非常清晰的.(这串口还有流控?)

另一边还有40P的树莓派兼容排针,他的右边,当然就是POE排针了.

同样的,有很清晰的标注,这一点,比树莓派强.

为了更方便地散热,风扇接口也做了,就是不知道是否兼容大多数主板风扇定义.

在底部还留有电池座,应该是芯片内有RTC外设.

在核心板下方,还有MiniPCIE的接口.

想来可以接无线或者其他什么设备进来,看走线,走的是PCIE协议.

在主板有个非常特别的飞线电容.

核心板预留了EMMC位置.

可能以后会提供带EMMC版本?

当然,上图还有突兀之极的中文丝印,不过想到板子全是在国内生产,这样也不是很奇怪的事情.只是老外看得懂吗?

总体来说,用料是很扎实的,网口是EDAC的,核心板接插件是TE的.

除了主板,还包含一份简易说明,只是这个说明,有点简单.

这个板子必须要买的配件有哪些?首先,如果要做实时分析,摄像头是一定要的,可以是Pi官方摄像头,也可以是USB摄像头,只不过,如果是USB摄像头的话,程序要微调一下.屏幕,是必备品,因为开机配置如果不做的话,启动根本不会继续往下执行.

虽然,我很多时候也只是用来做分析,通常在终端环境下就够用了,但是如果没屏幕根本没法进行下一步,我测试过这个屏幕可以用:http://wiki.52pi.com/index.php/5-Inch-800×480-HDMI-TFT-LCD-Touch-Screen_SKU:Z-0053

当然,没有键鼠,也没法继续,这些,也要自备了.

最后,因为Jetson Boot时间比较长,所以,一开始是没画面的,大概要等30秒才能看到开机过程,并且,首次启动网络灯是不会闪的.(路由侧会闪烁),也不怎么发热.配置完整个过程还需大约20分钟,主要还是大多数资源在网络,且拔掉网线也会使劲重试到超时,还不如多等一会.

软件资源基本就是系统一个,Ubuntu 16.04 x64宿主机(包括nvidia-docker并下载有DIGITS.),其他东西基本没有.

至于其他软件?你就当他是ARMv8板子跑就是,CPU性能的话,肯定不是值得炫耀的部分,但是也不会差到哪里,毕竟还要靠CPU打包数据.至于从数据看,是比树莓派出彩的!

以图形部分,BCM2837 VideoCore IV:(28.8 GFLOPS) 对比 128 Maxwell GPU(472 GFLOPs),完全不是一个水平线.

最后补刀,如果要扩展配件,将是无底洞~ 欢迎入坑~ (已经通过买各种模块板子,至少是5位数水平了吧.)

测试软件:

  1. 系统镜像:jetson-nano-sd-r32.1-2019-03-18.zip (你猜哪里下载?不知道?那你一定没好好读说明书:https://developer.nvidia.com/embedded/learn/get-started-jetson-nano-devkit)
  2. 其他软件:https://github.com/dusty-nv/jetson-inference

很幸运的是,由于Jetson Nano出生比较晚,所以JetPack是预装在系统里面了.但是,系统也真的大,以至于我烧了1个小时以上.建议大家有条件,还是买个更快一点的TF卡,不然会拖后腿的.

另外这个比较挑卡,我这里有好多不同品牌的卡,结果只有一个能启动?

JetPack大概就是TensorRT/Caffe等各种神器集合,也算是CUDA的一个中间件.

废话太多了,太多了,下面马上….上….前奏.主要是实现物体标记和物体识别.大家接触了很多CNN相关的东西,所以对这两个肯定也不陌生.至于基础的方程预测之类的,官方没有给出例子,当然,这些自己写也很简单.

先安装cmake,下载需要的源.

$ sudo apt update
$ sudo apt install cmake
$ git clone --recursive https://github.com/dusty-nv/jetson-inference
$ cd jetson-inference
$ mkdir build
$ cd build
$ cmake ../

嗯,这个过程很漫长,因为下载大量的软件.如果你网络可以直接访问英伟达的网站,那可以直接cmake,如果不能的话.就需要处理一下,至于怎么做,就不方便说了,大家肯定有办法.

下载过程如下图.(大约1.5GB+数据要下载,根据网速不同,所需时间也不同,Jetson Nano配备的是千兆网卡)

cmake完成后应该如此:

接下来make编译,但是产生了很多警告,这类警告只是编码规范问题,不影响程序结果.

通过sudo make install完成安装.

完成后,你得到了一个支持GOOGLENET/GOOGLENET-V12/ALEXNET网络框架的CUDA优化的机器学习支持库.

先试试图像分类,目前用的是默认训练好的库.

$ cd jetson-inference/build/aarch64/bin
$ ./imagenet-console bird_0.jpg output.jpg

运行过程日志也是有输出的,第一次运行会比较慢,因为神经网络第一次加载时候需要解释.后面会讲到如何构造自己的神经网络训练结果包,这个包也就是丢到Jetson上面用的.

嗯,判断准确度还可以,他认为这个图是American robin,实际上他肯定不止一个结果,只是显示了最可信的结果出来.

但是由于这个库可能是训练不太好,我上传了个苹果,识别出来是石榴?

而其他候选结果,分别是无花果>澳洲青苹>橙子>七叶树.

不过,处理速度确实很快,可见,直到输出层也只需要80ms,相对于在树莓派上来做,都要用秒来衡量的.

这个程序还是开源,代码也不难:https://github.com/dusty-nv/jetson-inference/blob/master/imagenet-console/imagenet-console.cpp

而特定物体查找的例子,跟这个也差不多.

$ ./detectnet-console peds-001.jpg output.jpg facenet

从返回结果看到,捕获了3个对象以及他们的坐标.

结果是这样的.

但是当我随机在互联网上找到另一张图时,表现就差了一些了,也许还是训练不足的原因.

而且,目前也只有几个模型,更多,还是去训练吧.(注意看classes,就是能识别的类)

既然训练不足,不能满足现状的话,只能使用DIGITS重新训练了.

但是,训练只能在PC上做,做好之后,把训练结果变成一个压缩包放在SD卡上,实现离线识别.至于为什么不用开发板直接跑识别,我觉得主要问题不在性能,而在储存上(带宽/容量).

记得Movidius上也是如此,先在PC上训练,再最终训练结果写入棒子(本来训练结果就比较小,训练集比较大),然后实际使用就可以了.

不过,有一点特别要注意的是,nvdia-docker中绑定的路径,才是真正的操作路径.而非官方git中给出的参考路径形式,如下图,目录是/data下的ilsvrc12目录.

只要训练之后,下载训练后的结果层次,就可以使用了,当然也可以自己添加训练数据,目录中的形式表示得很明白,最后还可以先在PC上测试.

下载的训练结果,复制到Jetson Nano中解压,指定NET环境变量之后,就可以开始使用了.由于这些数据试验结果也是没什么差别的,所以就不再重复了.

NET=networks/GoogleNet-ILSVRC12-subset

如果真要得到更准确的数据,还需要自己真正的找一堆数据来分类,让学习结果更靠谱.

其他方面来说,系统是基于ARMv8的,真正的64位系统.

从sysbench结果来看,CPU性能大约是30倍于树莓派3B Plus @ ARMv7,主要得益于DDR4,CPU内核较好,且使用64bit指令集.

在连续执行识别操作,并运行stress耗尽CPU性能,再观察内部温度传感器,竟然如此凉快?当然,也许是因为大散热器的原因,但是,实际温度依然在缓慢上升,在实际使用中,最好是配备散热器的.

5分钟后的温度结果.

另外系统中配备了很多针对NV GPU优化的软件,这也是一大亮点.

并且是Unity桌面系统,尤其漂亮,只是比较吃GPU.

还内置了Docker,Python 3,Cuda支持,OpenGL支持,OpenCV支持,谷歌浏览器,文档编辑器,GCC7等,可以看作是比较完整的Ubuntu发行版.16G的TF写入后预计剩余空间都不足1G,推荐使用32G以上或者外挂储存.

如果给他定位成高端树莓派,那还是不值当的,毕竟人家擅长的是GPU啊.

最后来一个功耗实测,共同的测试条件:

  • 无USB设备
  • 无额外配件
  • 以太网有线连接(10Gbps)
  • SSH登录
  • 使用DC接口供电

测试结果,满载时为死循环识别图片(GPU)或使用stress耗尽性能(CPU):

  • 空载:0.533A @ 5.1V
  • CPU满载,GPU空载:1.117A @ 5.1V
  • GPU满载,CPU空载:2.133A @ 5.0V
  • CPU,GPU满载:2.838A @ 5.0V
  • CPU,GPU满载,且接入HDMI屏幕,HDMI屏幕独立供电:3.017A @ 5.0V