网盘怎么刷流水,怎么刷流水
内容导航:
一、城通网盘怎么刷下载流量
我来回答:1.文件大小不同收益会不同,5M以下0.013元,5-50M是0.015元,50-100M是0.018,最高是450M+是0.25元,单文件最大支持1G2.24小时内同一IP算一次3.申请后每周一结算,没拖欠过。根据你店内的商品种类到百度搜索相应的电子书或是文档、图片、视频资料类的。把你找来的电子书、文档、图片、视频和你商品页面的快捷方式、介绍文档、商品实物图片一起打包。打包后,上传到云网盘你的帐号里面,上传好了,再复制你的下载链接到百度贴吧或各地论坛、博客、Q群发布。
释疑:为什么不直接发布推广贴,要这么麻烦,又是找电子书,又是找视频,又是打包上传到网盘,再用网盘的链接去推广?为的是在推广的过程中,咱们可以再从网盘那里赚一笔。
与不用网盘的推广方法对比:按以前的推广方法,发出去的贴子假如有一千人阅读,得有成交店主或淘客才有收益;用网盘推广的方法,只要有人下载了,店主或淘客就有已经先有一份收益了。
而刷下载量可是要封号的,换IP也没有用!!! 你可以做我的下线嘛!地址已经私信,呵呵,望采纳。
二、蚂蚁花呗借款要工本费嘛
蚂蚁花贝只有一个,支付宝里面的花贝。
市面上还有很多冒充的假APP,也有一个叫做蚂蚁花呗。
总之你记住一点就行了,只要钱没到你手里、任何法律都不会生效,不管对方怎么说怎么演示怎么恐吓,一分钱都不往外掏就对了。
如果你做不到我上面说的一点,也没事,等你被骗几百次就老实了。
蚂蚁借呗没有任何费用,想借款一定要到支付宝里面按照正确流程操作,不要乱点击不明链接,告诉你要工本费的都是骗子,都是骗子,都是骗子,重要事情说三遍,千万不要相信,以免上当受骗。
任何贷款前需要交钱的,百分百是骗子。
正规贷款平台是不存在需要缴纳:工本费、手续费、保证金、会员费、解冻费、保险费,刷流水等。
只要你记住:贷款没有下来之前要你给钱的百分百是骗子不存在银监会冻结银行卡,冻结资金,因为银监会没有权利,冻结你的银行卡只有法院确认后才可以冻结,不可能随意冻结银行卡。
已经交了钱被骗的人需要注意以下几点:第一:对方会恐吓说只要不交费用你征信会有问题,上报人行征信。
答案:他自己就是骗子,只是为了恐吓你达到骗钱的目的。
第二:资金已经在APP上,就算你不借,也要还款,否则将打电话给你通讯录。
答案:这个是骗子,别理他,你就说你再来骚扰我就报警了。
第三:收到短信说你贷款已经通过,通过短信链接下载APP就可以下款。
答案:下载软件别在短信上下载,大部分都是骗子伪造的。
下软件记得去正规的手机软件里面下载正规的软件。
不要从短信上下软件。
短信的链接不要去点,你就不会被骗。
三、不打扰你了你也有自己的事情要做
年轻的时候,对那些比自己优秀很多的异性,总是不自觉地心生好感,那时候以为这就是爱情。
等到冷静下来的时候就会发现:这种好感更多的时候只是源于崇拜。
可毕竟是付出过真心的情意,要劝自己去接受这个真实的事情,多少都会有些不适应。
编辑部 小药草
《从此山水不相逢》
作者丨钟意你
1
我有个闺密群,叫做“未来富婆高级养生会所”。
在我们成为富婆之前,我们经常探讨包包口红化妆品、明星八卦谈恋爱。
最近我们经常在群里开车,但是我和她们不一样。
自从老齐脱单后,群里就只剩下我一个人散发着单身贵族的清香,她们一言不合就飙少儿不宜车,只有我是正儿八经地考了驾驶证。
一个风和日丽的下午,我开着我爸的车去离家三公里远的超市买酸奶,完成了我人生中的第一次开车上路。
一切都很顺利,直到我准备回家的时候,我遇到了开车生涯中的第一个障碍。
我的车被卡在了两辆车中间,我只能小心翼翼地往外倒车。
我握紧方向盘,脑海里浮现出教练的谆谆教诲。
但是不知道为什么,车根本不听我的指挥,我眼看着它不断地往左边靠近,即将和那辆SUV来个亲密接触。
我停下车,绕到车尾观察形势,心里想着感觉还能再抢救一下。
为了保险起见,我拍了张隔壁车的照片。
“帮我看一下这是啥车,我倒车失败,估计要撞上了。
”
“没印象啊,不是很了解。
双鱼你要不直接倒出来算了。
”
“卧槽双鱼抬起你踩油门的脚,别冲动。
我刚刚问了我男朋友,英菲尼迪的车一般都是四十万起步,你旁边这辆是QX70,估计七十多万。
你这一道口子划下去,原装漆肯定价格感人。
”
2
看到大俊发过来的话之后,我果断地熄火拔钥匙,下车蹲车尾。
在我消消乐用到第四个精力瓶的时候,一双黑色皮鞋出现在我的视线当中。
“叔叔您好,我倒车技术太烂差点撞了您的车,给您添麻烦了不好意思……”猛地一下站起来,我有点头晕眼花,等我看清楚面前的人,才知道我说错话了。
对方有一张成熟但年轻的脸,早知道我就叫哥哥了。
皮鞋男示意我站远一点,然后他行云流水般倒出了他的车,给我留下了充足的发挥空间。
可能是太过紧张,我像只乌龟一样一点点挪动着我的车。
正当我思考方向盘接下来应该往左还是往右的时候,皮鞋男敲了敲我的窗户。
“下来,我帮你倒车,按你这个速度根本出不了车库。
”
我再三保证我一定会回炉重造磨练车技,不做给人添麻烦的女司机之后,皮鞋男心满意足地放了我,我们分道扬镳,各走各路。
3
可能是皮鞋男给我留下的心理打击太过沉重,接下来的那段时间我再也不想开车,我的坐骑又变成了小电瓶。
只是我没想到开小电瓶也能遇到皮鞋男。
周末我按照我妈的旨意,骑着小电瓶去花鸟市场买种子。
花鸟市场很偏僻,所以停车也不规范,大家都是见缝插针地找空位。
等我买完种子回来,我发现我的小电瓶被几辆车死死地堵在了一个角落里。
其中一辆似曾相识,我翻翻相册才发现,真的是皮鞋男的车。
我又开始蹲在车尾,边玩消消乐边等人。
“你车又倒不出来了?”还是熟悉的声音,还是熟悉的语气。
“我没开车,你的车堵着我的小电瓶了,我出不来。
”我抬头望着皮鞋男,我惊讶地发现即使是这么刁钻的角度看过去,他的脸还是那么好看。
皮鞋男笑着挠挠头,“你这小姑娘挺有趣,知道自己技术不好,干脆骑电瓶车出门了。
”他立马把车挪开,给我让路。
我在想我什么时候才能有这么好的车技,谁喜欢忍受小电瓶的风吹日晒啊。
4
我在闺蜜群里跟她们讲,要是第三次遇到皮鞋男,我就要找他要联系方式了。
没想到我和皮鞋男缘份如此深厚,第三次相遇来得猝不及防。
周末我和朋友吃完饭准备回家,在手机软件上叫了辆网约车。
“喂您好,我现在已经到xx广场A号门了,您可以过来准备上车了,我开的是一辆……”
等我拉来车门的那一刻,我和司机大眼瞪小眼相顾无言。
“真巧嘿,又碰到了。
”
“是很巧欸,我有一个问题可以问你吗?”
“你问。
”
“你都开七十多万的车了,为啥还要做网约车司机啊?”
“英菲尼迪也要加油啊小姑娘。
”
那是我第一次无比感谢这个城市异常拥堵的交通,二十分钟的路程走了快一个小时,给了我和皮鞋男充足的聊天机会。
皮鞋男叫蒋观晏,今年28岁,从事金融理财工作。
他从小到大都很喜欢车,喜欢跟人聊天。
他平时工作压力很大,生理和心理都要承受高负荷的运转。
为了缓和压力,他干脆在闲暇时间做起了网约车司机。
“你工作本来就忙,还要做司机,女朋友不会有意见吗?”虽然打探别人隐私是件很不道德的事情,可我还是想知道他是否单身。
“这辆车目前就是我女朋友,她没有意见。
”
那天晚上,我收到了蒋观晏发来的好友申请,我如愿以偿地有了他的联系方式。
5
在接下来的几个月里,蒋观晏一次又一次刷新了我对他的认知。
上能和历史系的我讨论拜占庭帝国的衰亡,下能和沉迷游戏的我相约吃鸡。
面对这个睿智多识、成熟风趣又不油腻的小哥哥,我没有办法不红鸾心动。
我在群里汇报着我和小哥哥的进展,顺便询问该怎么追到他。
“双鱼我觉得这道题超纲了,他比你大八岁,你知道的人家肯定都知道,这根本不在一个等级上。
”
“要不你就自然坦诚一点,用你20岁特有的少女魅力征服小哥哥。
”
我不知道是我的少女魅力发生了作用,还是蒋观晏习惯了和我插科打诨,我们几乎每天都会聊天。
我对金融知识了解甚少,蒋观晏也从来不嫌弃我,总是恰到好处地转移话题。
他最喜欢听我讲“未来富婆高级养生会所”的宏伟目标,感叹一下年轻真好。
6
为了更加深入了解蒋观晏的生活和工作,我央求蒋观晏教我炒股。
他让我先下载一个同花顺模拟一下,但是一看到那跌宕起伏的走势图,我就头皮发麻。
我对股票唯一的认知,就是我知道红色是涨、绿色是跌。
在我看来炒股嘛,就是拼人品玩心跳,怎么开心怎么来。
我买了尾数826和724的两支股票,把模拟炒股给的本金20万全投了进去。
晚上蒋观晏给我打电话“你要学会研究股票的k线图,那几个重要指数的含义我给你整理了一份一会发给你……”
“目前不用啦,我已经把20万花完了,有两个股票代码我特别喜欢,我就全买了。
”我还没来得及解释,那两个代码尾号是他阴历和阳历生日的日期,我的话就被他打断了。
我没想到蒋观晏会生气,他在电话里语气不善地批评我胡闹不懂事。
我莫名其妙地被对怼,委屈又不甘,最后闹了个不欢而散。
后来我才知道,蒋观晏是真心实意地想要教我投资,他不但挤出时间给我整理了一份浅显易懂的入门指导。
他甚至准备在我摸清规则之后,给我提供初始资金。
结果万万没想到,我是这副无所谓的游戏态度。
第二天我寻思找他撒个娇,一笔带过这件事情。
蒋观晏没有再计较,他说他只是希望我能学会对自己负责,并且掌握一定的理财知识。
7
在我以为我们会这样顺其自然循序渐进地发展的时候,出现了一个意外,直接导致了我和蒋观晏摊牌。
为了庆祝我拿到奖学金和蒋观晏升职加薪,我们去吃了顿贼贵的日料,结果碰到了他的朋友。
对方笑着打趣,问他我是谁。
蒋观晏没有一丝犹豫,回答得十分坦然:“一个很有趣的朋友。
”
那顿饭吃到结尾,我实在是没忍住。
“我不想做你的朋友,我可以做你女朋友吗?”
“你还年轻,还有太多的机会和选择,我承认我对你有好感,可目前还停留在有好感的阶段。
”
“给我们三天的思考时间,刚好这个周六你休息。
如果想要更进一步的发展,那么星期六下午四点我们在xx广场的星巴克见面。
等到四点钟,我们一起打开手机定位。
没去就代表放弃。
”说完这句话,我提起包出了餐厅的大门。
8
没有了那天的冲动之后,我想了很久终于明白,相比于喜欢,我更多的是仰慕蒋观晏。
他是我这二十年人生里见过最优秀的异性,他让我看到了一条从未接触过的生活轨迹,因为未知,所以我充满好奇,可是当我真的努力靠近,我才发现和我想的不一样。
星期六的下午四点,我对蒋观晏发出了位置共享,我在学校的图书馆,他在金融大厦的办公室。
我们之间隔了一条看得见的滚滚长江,和一条看不见的八年长河。
我在电话里认认真真地和蒋观晏说了再见。
我开玩笑说“下一次联系,应该是我特别有钱成为富婆的时候,高薪聘请你做我的理财顾问。
”
“行啊,一定给你个友情价。
希望你能永远保持初心,做个开心的小姑娘。
”
你不必站得足够高,看得足够远,如同人生导师般指导我。
我想要遇到一个势均力敌的人,谈一场旗鼓相当的恋爱。
我们只需要轰轰烈烈地爱一场,没有错过谁的成长。
可能这才是我一直以来所期待的吧。
作者 | 钟意你
一个有趣的人
插画 |许旺旺
野生插画酱,微博@许旺旺YEAH
即可获得本期封面
四、5大千万级设备市场技术拆解
近一年各种深度学习平台和硬件层出不穷,各种xPU的功耗和面积数据也是满天飞,感觉有点乱。
在这里我把我看到的一点情况做一些小结,顺便列一下可能的市场。
在展开之前,我想强调的是,深度学习的应用无数,我能看到的只有能在千万级以上的设备中部署的市场,各个小众市场并不在列。
深度学习目前最能落地的应用有两个方向,一个是图像识别,一个是语音识别。
这两个应用可以在如下市场看到:个人终端(手机,平板),监控,家庭,汽车,机器人和无人机。
手机和平板:安卓的天下,一定要紧跟谷歌爸爸
先说手机和平板。
这个市场一年的出货量在30亿颗左右(含功能机),除苹果外总值300亿刀。
手机主要玩家是苹果(3亿颗以下),高通(8亿颗以上),联发科(7亿颗以上),三星(1亿颗以下),海思(1亿颗),展讯(6亿颗以上),平板总共4亿颗左右。
而28纳米工艺,量很大的话(1亿颗以上),工程费用可以摊的很低,平均1平方毫米的成本是8美分左右,低端4G芯片(4核)的面积差不多是50平方毫米以下,成本就是4刀。
中端芯片(8核)一般在100平方毫米左右,成本8刀。
16纳米以及往上,同样的晶体管数,单位成本会到1.5倍。
一般来说,手机的物料成本中,处理器芯片(含基带)价格占了1/6左右。
一个物料成本90刀的手机,用的处理器一般在15刀以下,甚至只有10刀。
这个10刀的芯片,包含了处理器,图形处理器,基带,图像信号处理器,每一样都是高科技的结晶,却和肯德基全家桶一个价,真是有点惨淡。
然而,生产成本只是一部分,人力也是很大的开销。
一颗智能机芯片,软硬开发,测试,生产,就算全用的成熟IP,也不会少于300人,每人算10万刀的开销,量产周期两年,需要6000万刀。
外加各种EDA工具,IP授权和开片费,芯片还没影子,1亿刀就下去了。
言归正传,手机上的应用,最直接的就是美颜相机,AR和语音助手。
这些需求翻译成硬件指令,就是对8位整数点乘(INT8)和16位浮点运算(FP16)的支持。
具体怎么支持?曾经看到过一张图,我觉得较好的诠释了这一点:
智能手机和平板是安卓的天下,所有独立芯片商都必须跟着谷歌爸爸走。
谷歌已经定义了Android NN作为上层接口,可以支持它的TensorFlow,以及专为移动设备定义的TensorFlow Lite。
而下层,针对各种不同场景,可以是CPU,GPU,DSP,也可以是硬件加速器。
它们的能效比如下图:
可以看到,在TSMC16纳米工艺下,大核能效比是10-100Gops/W(INT8),小核可以做到100G-1Tops/W,手机GPU是300Gops/W,而要做到1Tops/W以上,必须使用加速器。
这里要指出的是,小核前端设计思想与大核完全不同,在后端实现上也使用不同的物理单元,所以看上去和大核的频率只差50%,但是在逻辑运算能效比上会差4倍以上,在向量计算中差的就更多了。
手机的长时间运行场景下,芯片整体功耗必须小于2.5瓦,分给深度学习任务的,不会超过1.5瓦。
相对应的,如果做到1Tops/W,那这就是1.5T(INT8)的处理能力。
对于照片识别而言,情况要好些,因为通常不需要长时间连续的处理。
这时候,CPU是可以爆发然后休息的。
语音识别对性能要求比较低,100Gops可以应付一般应用,用小核也足够。
但有些连续的场景,比如AR环境识别,每秒会有30-60帧的图像送进来,如果不利用前后文帮助判断,CPU是没法处理的。
此时,就需要GPU或者加速器上场。
上图是NVidia的神经网络加速器DLA,它只有Inference的功能。
前面提到在手机上的应用,也只需要Inference来做识别,训练可以在服务端预先处理,训练好的数据下载到手机就行,识别的时候无需连接到服务端。
DLA绿色的模块形成类似于固定的流水线,上面有一个控制模块,可以用于动态分配计算单元,以适应不同的网络。
稀疏矩阵压缩减少带宽,优化的矩阵算法减少计算量,外加SRAM(一个273×128, 128×128, 128×128 ,128×6
的4层INT8网络,需要70KB SRAM)。
我看到的大多数加速器,其实都是和它大同小异,有些加速器增加了一个SmartDMA引擎,可以通过简单计算预取所需的数据。
根据我看到的一些跑分测试,这个预取模块可以把计算单元的利用率提高到90%以上。
至于能效比,我看过的加速器,在支持INT8的算法下,可以做到 1.2 Tops/W (1Ghz@T16FFC),1 Tops/mm^2,并且正在向1.5
Tops/W靠近。
也就是说,1.5W可以获得2Tops (INT8) 的理论计算能力。
这个计算能力有多强呢?我这目前处理1080p 60 FPS的图像中的60×60及以上的像素大小的人脸识别,大致需要0.5
Tops的计算能力,2Tops完全可以满足。
当然,如果要识别复杂场景,那肯定是计算力越高越好。
为什么固定流水的能效比能做的高?ASIC的能效比远高于通用处理器已经是一个常识,更具体一些,DLA不需要指令解码,不需要指令预测,不需要乱序执行,流水线不容易因为等待数据而停顿。
下图是某小核各个模块的动态功耗分布,计算单元只占1/3,而指令和缓存访问占了一半。
有了计算量,深度学习加速器对于带宽的需求是多少?如果SRAM足够大,1Tops的计算量需要5GB/s以下的带宽。
连接方法可以放到CPU的加速口ACP (跑在1.8 GHz的ARMv 8.2内部总线可以提供9 GB/s带宽)。
只用一次的数据可以设成非共享类型,需要和CPU交换或者常用的数据使用Cacheable和Shareable类型,既可以在三级缓存分配空间,还可以更高效的做监听操作,免掉刷缓存。
不过,上述前提成立的前提是权值可以全部放到SRAM或者缓存。
对于1Tops INT8的计算量,所需权值的大小是512 GB/s(有重复)。
如果全部放DDR,由于手机的带宽最多也就是30 GB/S,是完全不够看的。
对于输入,中间值和输出数据,我在上文有个例子,一个273×128,128×128, 128×128 ,128×6
的4层INT8网络,需要70KB的SRAM(片内)放权值,共7万个。
但是输入,输出和中间结果加起来却只有535个,相对来说并不大。
这里的运算量是14万次(乘和加算2次)。
对于1T的运算量来说,类似。
中间数据放寄存器,输出数据无关延迟,只看带宽,也够。
最麻烦的就是权值,数据量大到带宽无法接受。
所以,只能把权值放进SRAM防止重复读取,从而免掉这500GB/s带宽。
我看到的有些深度学习的算法,权值在几十到200兆,这样无论如何是塞不进SRAM的。
哪怕只有10%需要读入,那也是50GB/s的带宽。
虽说现在有压缩算法压缩稀疏矩阵,有论文达到30-50倍的压缩率,但我看到的实际识别算法,压缩后至少也是20MB,还是塞不进SRAM。
图像识别/美颜相机:目前80%的图像、视频任务都是用CPU在处理
此外,移动端仅仅有神经网络加速器是远远不够的。
比如要做到下图效果,那首先要把人体的各个细微部位精确识别,然后用各种图像算法来打磨。
而目前主流图像算法和深度学习没有关系,也没看到哪个嵌入式平台上的加速器在软件上有很好的支持。
目前图像算法的支持平台还主要是PC和DSP,连嵌入式GPU做的都一般。
那这个问题怎么解决?我看到两种思路:
第一种,GPU内置加速器。
下图是Verisilicon的Vivante改的加速器,支持固定流水的加速器和可编程模块Vision
core(类似GPU中的着色器单元),模块数目可配,可以同时支持视觉和深度学习算法。
不过在这里,传统的图形单元被砍掉了,以节省功耗和面积。
只留下调度器等共用单元,来做异构计算的调度。
这类加速器比较适合于低端手机,自带的GPU和CPU本身并不强,可能光支持1080p的UI就已经耗尽GPU资源了,需要额外的硬件模块来完成有一定性能需求的任务。
第二种,对于中高端手机,GPU和CPU的资源在不打游戏的时候有冗余,那么就没有必要去掉图形功能,直接在GPU里面加深度学习加速器就可以,让GPU调度器统一调度,进行异构计算。
上图是某款GPU的材质计算单元,你有没有发现,其实它和神经网络加速器的流水线非常类似?都需要权值,都需要输入,都需要FP16和整数计算,还有数据压缩。
所不同的是计算单元的密度,还有池化和激活。
稍作改动,完全可以兼容,从而进一步节省面积。
但是话说回来,据我了解,目前安卓手机上各种图像,视频和视觉的应用,80%其实都是用CPU在处理。
而谷歌的Android NN,默认也是调用CPU汇编。
当然,手机芯片自带的ISP及其后处理,由于和芯片绑的很紧,还是能把专用硬件调动起来的。
而目前的各类加速器,GPU,DSP,要想和应用真正结合,还有挺长的路要走。
AR:如果不复杂,对CPU和GPU的性能要求并不高
终端设备上还有一个应用,AR。
据说iPhone 8会实现这个功能,如果是的话,那么估计继2015的VR/AR,2016的DL,2017的NB-IOT之后,2018年又要回锅炒这个了。
那AR到底用到哪些技术?我了解的如下,先是用深度传感器得到场景深度信息,然后结合摄像头拍到的2D场景,针对某些特定目标(比如桌子,面部)构建出一个真实世界的3D物体。
这其中需要用到图像识别来帮助判断物体,还需要确定物体边界。
有了真实物体的三维坐标,就可以把所需要渲染的虚拟对象,贴在真实物体上。
然后再把摄像头拍到的整个场景作为材质,贴到背景图层,最后把所有这些图层输出到GPU或者硬件合成器,合成最终输出。
这其中还需要判断光源,把光照计算渲染到虚拟物体上。
这里每一步的计算量有多大?
首先是深度信息计算。
获取深度信息目前有三个方法,双目摄像头,结构光传感器,还有TOF。
它们分别是根据光学图像差异,编码后的红外光模板和反射模板差异,以及光脉冲飞行时间来得到深度信息。
第一个的缺点是需要两个摄像头之间有一定距离,并且对室内光线亮度有要求;第二个需要大量计算并且室外效果不佳;第三个方案镜头成本较高。
据说苹果会用结构光方案,主要场景是室内,避免了缺点。
结构光传感器的成本在2-3刀之间,也是可以接受的。
而对于计算力的要求,最基本的是对比两个经过伪随机编码处理过的发射模板以及接受模板,计算出长度差,然后用矩阵倒推平移距离,从而得到深度信息。
这可以用专用模块来处理,我看到单芯片的解决方案,720p 60FPS的处理能力,需要20GFLOPS FP32的计算量以上。
换成CPU,就是8核。
当然,我们完全可以先识别出目标物体,用图像算法计算出轮廓,还可以降低深度图的精度(通常不需要很精确),从而大大降低计算量。
而识别本身的计算量前文已经给出,计算轮廓是经典的图像处理手段,针对特定区域的话计算量非常小,1-2个核就可以搞定。
接下去是根据深度图,计算真实物体的三维坐标,并输出给GPU。
这个其实就是GPU渲染的第一阶段的工作,称作顶点计算。
在移动设备上,这部分通常只占GPU总计算量的10%,后面的像素计算才是大头。
产生虚拟物体的坐标也在这块,同样也很轻松。
接下去是生成背景材质,包括产生minimap等。
这个也很快,没什么计算量,把摄像头传过来的原始图像放到内存,告诉GPU就行。
稍微麻烦一些的是计算虚拟物体的光照。
背景贴图的光照不需要计算,使用原图中的就可以。
而虚拟物体需要从背景贴图抽取亮度和物体方向,还要计算光源方向。
我还没有见过好的算法,不过有个取巧,就是生成一个光源,给一定角度从上往下照,如果对AR要求不高也凑合了。
其他的渲染部分,和VR有些类似,什么ATW啊,Front Buffer啊,都可以用上,但是不用也没事,毕竟不是4K 120FPS的要求。
总之,AR如果做的不那么复杂,对CPU和GPU的性能要求并不高,搞个图像识别模块,再多1-2个核做别的足矣。
如果加速器在GPU上,那么还是得用传统的ACE口,一方面提高带宽,一方面与GPU的核交换数据在内部进行,当然,与CPU的交互必然会慢一些。
在使用安卓的终端设备上,深度学习可以用CPU/DSP/GPU,也可以是加速器,但不管用哪个,一定要跟紧谷歌爸爸。
谷歌以后会使用 Vulkan Compute来替代OpenCL,使用Vulkan 来替代OpenGL ES,做安卓GPU开发的同学可以早点开始熟悉了。
高通推过用手机做训练,然后手机间组网,形成强大的计算力。
从我的角度看,这个想法问题多多,先不说实际应用,谁会没事开放手机给别人训练用?耗电根本就吃不消。
并且,要是我知道手机偷偷上传我的图像和语音模板到别人那里,绝对不会买。
家庭市场(智能音箱):语义识别放在云端还是终端,将成争夺的焦点
第二个市场是家庭,包括机顶盒/家庭网关(4亿颗以下),数字电视(3亿颗以下),电视盒子(1亿以下)三大块。
整个市场出货量在7亿片,电器里面的MCU并没有计算在内。
这个市场公司比较散,MStar/ 海思/博通/ Marvell / Amlogic都在里面,小公司更是无数。
如果没有特殊要求,拿平板的芯片配个wifi就可以用。
当然,中高端的对画质还是有要求,MTK现在的利润从手机移到了电视芯片,屏幕显示这块有独到的技术。
很多机顶盒的网络连接也不是以太网,而是同轴电缆等,这种场合也得专门的芯片。
最近,这个市场里又多了一个智能音箱,各大互联网公司又拿出当年追求手机入口的热情来布局,好不热闹。
主要玩家如下:
其中,亚马逊和谷歌占大头,芯片均采用ARM Cortex-A小核做控制器,DSP做图像和语音处理的方式。
其中,DSP的运算能力在10 Gops的INT8 MAC左右,并不高,价格却不便宜,大于20美金。
在芯片内部,DSP的主要作用还是回声消除,去噪,语音识别等。
自然语言理解和神经网络计算并不是在设备端,而是在云端。
在国内,百度和科大讯飞提供SDK甚至模块,不过还是需要连到云端才能启用完整功能。
在芯片方面,国内有些公司已经发布了一些带深度学习加速器的芯片,并集成语音处理模块和内存颗粒。
未来这类芯片会更多,而软件平台,或者说语义处理到底放在云端还是终端,会成为争夺的焦点。
对于语音设别,如果是需要做自然语言理解,性能可能要到100Gops。
对于无风扇设计引入的3瓦功耗限制,CPU/DSP和加速器都可以选。
不过工艺就得用28纳米了或者更早的了,毕竟没那么多量,撑不起16纳米。
最便宜的方案,可以使用RISC-V+DLA,没有生态系统绑定的情况下最省成本。
家庭电子设备里还有一个成员,游戏机。
Xbox和PS每年出货量均在千万级别。
VR/AR和人体识别早已经用在其中。
监控市场:能不能扔掉DSP?
接下去是监控市场。
监控市场上的图像识别是迄今为止深度学习最硬的需求。
监控芯片市场本身并不大,有1亿颗以上的量,销售额20亿刀左右。
主流公司有安霸,德州仪器和海思,外加几个小公司,OEM自己做芯片的也有。
传统的监控芯片数据流如上图蓝色部分,从传感器进来,经过图像信号处理单元,然后送给视频编码器编码,最后从网络输出。
如果要对图像内容进行识别,那可以从传感器直接拿原始数据,或者从ISP拿处理过的图像,然后进行识别。
中高端的监控芯片中还会有个DSP,做一些后处理和识别的工作。
现在深度学习加速器进来,其实和DSP是有些冲突的。
以前的一些经典应用,比如车牌识别等,DSP其实就已经做得很好了。
如果要做识别以外的一些图像算法,这颗DSP还是得在通路上,并不能被替代。
并且,DSP对传统算法的软件库支持要好得多。
这样,DSP替换不掉,额外增加处理单元在成本上就是一个问题。
对于某些低功耗的场景,我看到有人在走另外一条路。
那就是完全扔掉DSP,放弃存储和传输视频及图像,加入加速器,只把特征信息和数据通过NB-IOT上传。
这样整个芯片功耗可以控制在500毫瓦之下。
整个系统结合传感器,只在探测到有物体经过的时候打开,平时都处于几毫瓦的待机状态。
在供电上,采用太阳能电池,100mmx100mm的面板,输出功率可以有几瓦。
不过这个产品目前应用领域还很小众。
做识别的另一个途径是在局端。
如果用显卡做,GFX1080的FP32 GLOPS是9T,180瓦,1.7Ghz,16纳米,320mm。
而一个Mali G72MP32提供1T FP32的GFLOPS,16纳米,850Mhz,8瓦,9T的话就是72瓦,666mm。
当然,如果G72设计成跑在1.7Ghz,我相信不会比180瓦低。
此外桌面GPU由于是Immediate
rendering的,带宽大,但对缓存没有很大需求,所以移动端的GPU面积反而大很多,但相对的,它对于带宽需求小很多,相应的功耗少很多。
GPU是拿来做训练的,而视频识别只需要做Inference,如果用固定流水的加速器,按照NVIDIA Tesla P40的数据,48T INT8
TOPS,使用固定流水加速器,在16nm上只需要48mm。
48Tops对应的识别能力是96路1080p60fps,96路1080p60fps视频解码器对应的面积差不多是50mm,加上SRAM啥的,估计200mm以下。
如果有一千万的量,那芯片成本可以做到40美金以下(假定良率还可以,不然路数得设计的小一点),而一块Tesla
P40板子的售价是500美金(包括DDR颗粒),还算暴利。
国内现在不少小公司拿到了投资在做这块的芯片。
机器人和无人机
第四个市场是机器人/无人机。
机器人本身有多少量我没有数据,手机和平板的芯片也能用在这个领域。
无人机的话全球一年在200万左右,做视觉处理的芯片也应该是这个量级。
无人机用到的识别模块目前看还是DSP和CPU为主,因为DSP还可以做很多图像算法,和监控类似。
这个市场对于ISP和深度信息的需求较高,双摄和结构光都可以用来算深度计算,上文提过就不再展开。
在无人机上做ISP和视觉处理,除了要更高的清晰度和实时性外,还比消费电子多了一个要求,容错。
无人机的定位都靠视觉,如果给出的数据错误或者模块无反应都不符合预期。
解决这个问题很简单,一是增加各种片内存储的ECC和内建自检,二是设两个同样功能的模块,错开时钟输入以避免时钟信号引起的问题,然后输出再等相同周期,同步到一个时钟。
如果两个结果不一致,那就做特殊处理,避免扩散数据错误。
汽车:300亿美元芯片市场,容错能力需要系统化升级
第五个市场是汽车,整个汽车芯片市场近300亿刀,玩家众多:
在汽车电子上,深度学习的应用就是ADAS了。
在ADAS里面,语音和视觉从技术角度和前几个市场差别不大,只是容错这个需要进一步系统化,形成Function
Safety,整个软硬件系统都需要过认证,才容易卖到前装市场。
Function Safety比之前的ECC/BIST/Lock
Step更进一步,需要对整个芯片和系统软件提供详细的测试代码和文档,分析在各类场景下的错误处理机制,连编译器都需要过认证。
认证本身分为ASIL到A-ASIL-D四个等级,最高等级要求系统错误率小于1%。
我对于这个认证并不清楚,不过国内很多手机和平板芯片用于后装市场的ADAS,提供语音报警,出货量也是过百万的。
最后放一张ARM的ADAS参考设计框图。
可能不会有人照着这个去设计ADAS芯片,不过有几处可以借鉴:
右方是安全岛,内涵Lock Step的双Cortex-R52,这是为了能够保证在左边所有模块失效的情况下复位整个系统或者进行异常中断处理的。
中部蓝色和绿色的CryptoCell模块是对整个系统运行的数据进行保护,防止恶意窃取的。
关于Trustzone设计这里就不展开了。
服务器及其他市场:
以上几个市场基本都是Inference的需求,其中大部分是对原有产品的升级,只有ADAS,智能音箱和服务器端的视频识别检测是新的市场。
其中智能音箱达到了千万级别,其他的两个还都在扩张。
接下去的服务端的训练硬件,可以用于训练的移动端GPU每个计算核心面积是1.5mm (TSMC16nm),跑在1Ghz的时候能效比是300Gops/W。
其他系统级的性能数据我就没有了。
虽然这个市场很热,NVidia的股票也因此很贵,但是我了解到全球用于深度学习训练的GPU销售额,一年只有1亿刀不到。
想要分一杯羹,可能前景并没有想象的那么好。
最近970发布,果然上了寒武纪。
不过2Tops FP16的性能倒是让我吃了一惊,我倒推了下这在16nm上可能是6mm的面积,A73MP4+A53MP4(不含二级缓存)也就是这点大小。
麒麟芯片其实非常强调面积成本,而在高端特性上这么舍得花面积,可见海思要在高端机上走出自己的特色之路的决心,值得称道。
不过寒武纪既然是个跑指令的通用处理器,那除了深度学习的计算,很多其他场合也能用上,比如ISP后处理,计算结构光深度信息等等,能效可能比DSP还高些。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 55@qq.com 举报,一经查实,本站将立刻删除。转转请注明出处:https://www.szhjjp.com/n/106921.html