-
NEWS
CTAccel's product launched on Intel Solutions Marketplace(2024-01-08)
more
联捷计算方案与Agilex™ 7 FPGA F 系完美结合, 助力加速数据中心云计算(2023-08-17)
more
联捷科技再度入选Top 50 国产处理器芯片厂商(2023-06-30)
more
2023年版Top 50 国产处理器厂商调研与市场分析报告涵盖CPU、GPU、FPGA、DSP和多媒体SoC等处理器芯片类别,分别从全球和中国市场趋势、处理器技术发展,以及国产处理器芯片行业现状的方面,对国际巨头和50家国产处理器厂商进行了全面而详尽的分析。
从以上表格数据可以看出,国产CPU厂商共有13家,除了龙科中心和海光信息等传统CPU公司外,最近几年还出现了以Arm架构为主的服务器CPU初创公司,比如鸿钧微、此芯科技和遇贤微电子等;GPU芯片厂商共有11家,除了景嘉微等以图形渲染为主的CPU芯片供应商外,还有多家以GPGPU和AI加速为主要应用的GPU初创公司;FPGA公司也有11家;DSP芯片厂商有5家,大都以音频信号处理为主;以视频处理为主的多媒体SoC芯片厂商有10家,涉及应用处理器、视频处理器、网络安全处理器等。
联捷计算科技再度入选TOP50国产处理器芯片厂商
来源:电子工程专辑
参考原文:2023年TOP50 国产处理器(CPU/GPU/FPGA/DSP/多媒体SoC)厂商调研与市场分析报告
CTAccel Image Processing (CIP) acceleration perfect integration with Intel® Agilex™ FPGA(2023-06-28)
more
用FPGA加速数据中心图像视频处理,「联捷科技」完成A+轮融资(2020-04-22)
more
速度更快、成本更低、效率更高。
36氪获悉,FPGA加速技术与解决方案提供商「联捷科技 (CTAccel Limited) 」宣布完成A+轮融资,投资方为君盛投资,青桐资本为本轮的投资顾问。本轮资金将主要用于产品的进一步研发及市场拓展。
联捷科技成立于2016年, 专注于研发基于FPGA的数据中心图像视频等多媒体异构计算解决方案,这项技术重新定义了数据中心图像处理的计算模式,可以提供端到端解决方案,把性能和效能提升一个数量级,已获得美国及中国专利。目前,联捷科技高吞吐、低时延的FPGA图像处理加速技术解决方案目前已经广泛应用到包括O2O服务、智能手机云应用、云存储和在线视频网站细分市场中。
联捷科技创始人兼首席执行官俞海乐告诉36氪,公司的解决方案主要针对的数据中心图片和视频计算的两个痛点,一是计算延时高;二是计算成本高。
移动互联网的不断发展,人人都可以拍视频、传照片,人们对图片、视频的质量要求也越来越高。海量的内容和多样的功能导致视频、图片计算在数据中心需求不断增加。
“尤其是最近两年手机摄像头的分辨率也不断提高,这一维度也增加了整体后台计算的压力。而更高压缩率的编码算法,也对算力提出了更高的要求。互联网公司数据中心的计算量越来越大,计算成本高企难下。”俞海乐说,“为了给用户更流畅的体验,同样也要求数据中心计算速度更快,处理延迟更低。CPU性能增长乏力,让依赖纯软件计算满足高复杂度计算的实时性变得越来越不现实。”
针对这些痛点和需求,联捷科技提供了基于FPGA的异构计算解决方案。简单来说,其核心就是将数据中心需要执行的各类任务(软件、算法代码等)进行分析、拆解、重组,再分给各异构计算资源进行计算,以达到尽可能充分利用各种计算资源,缩短任务执行时间,提升数据中心整体效率的目的。
产品形态上,这套方案主要包括FPGA硬件加速器和软件包两个部分,软件包部分硬件驱动软件、SDK包以及部分应用层软件。部署上,公有云和私有服务器均能部署,用户可以选择购买硬件及软件包产品,也可选择纯软件方案,以“硬件费用+软件订阅费”进行收费。加速器支持ImageMagick、OpenCV、FFmpeg多种主流开源软件,用户几乎不需改动原有系统程序即可使用。同时,加速器还可以通过远程升级的方式进行软件化功能定义,可根据具体使用场景调整加速器功能。
产品性能方面,联捷科技的方案对不同类型任务,如视频编解码、云相册的缩略图生成等,以及客户数据中心的整体系统环境,如网络和宿主机配置,加速及提升效果都有所不同。俞海乐介绍,用户在运行加速器之后,可以看到单机处理能力和单任务计算延迟两个关键指标的变化,“效果都是可量化、可观测的。以某客户的实际应用情况为例,运行我们的方案18个月以来,单机处理能力提升了两倍,计算延时降低,总成本至少降低了50%。”
当下,随着AI、5G、IoT等新技术和新应用的快速发展,算力需求大幅提升。以GPU、FGPA和ASIC芯片为主的专用加速器的应用不断提升。除了图像视频处理领域,联捷科技的设计方法同样能用到其他数据中心计算如AI计算、金融计算,基因测序等。“我们的核心能力是对软件算法的识别、分析、重组的能力,并不只针对某一特定领域的计算。但To B业务的落地,尤其是数据中心的底层创新产品的落地,是非常困难且长周期的一件事,需要的也不仅仅是技术优势。因此在一个细分赛道先获得成功是务实之举,也不宜盲目扩张。”
团队方面,联捷科技目前共有近30名全职员工,核心人员都拥有国内外知名大学的理工科硕博学位和丰富的研发经验,具备算法研究、算法移植、FPGA工程、系统调优、软件整合等多方面异构计算的综合技术能力。
据悉,联捷科技曾于2018年11月获得英特尔投资领投、信智资本跟投的A轮融资。
关于投资
君盛投资执行事务合伙人李昊表示:君盛投资一直围绕企业数字化进行布局,背后基础设施是通信半导体和信息技术,应用场景包括了企业服务和金融科技等。未来相当长一段时间,我们需要处理的数据量会持续快速增加。相应的,无论是数据中心还是边缘端的计算场景,计算体系将会被重构。除了GPU,FPGA、ASIC等异构计算架构会更加丰富地被使用在特定场景中,传统计算架构的演化趋势越来越明显。FPGA加速与解决方案提供的壁垒很高,也是上游通用芯片和下游客户需求连接的重要环节。结合具体场景有区分,但又有相对通用性的服务交付,使得团队业务高效扩张成为可能。公司团队对硬件架构、软件算法、应用场景都有深刻理解,实现了一系列头部客户的认可。我们相信,围绕图片、视频、数据等进行路径延展,联捷科技将推动行业的快速发展。
从JPEG WebP到HEIF FPGA实时图片转码架构 (2020-02-19)
more
本次演讲讨论基于现实中数据中心所有到一般性问题,尤其是数据处理的困境。而联捷计算科技(CTAccel)针对基于FPGA的异构计算的特点,与赛灵思配合提出发挥FPGA特长的多媒体解决方案,并以应用接口的方式提供给用户。
文 / 俞海乐
整理 / LiveVideoStack
转自:https://mp.weixin.qq.com/s/zPpFBCsK5Wx0hTfOyYnD9w
1. 简介
大家好,我是CTAccel Limited创始人兼CEO俞海乐,首先是非常感谢受赛灵思邀请来参加LiveVideoStackCon音视频技术大会,我们的公司叫做联捷计算科技,目前在深圳主要是做图片和视频的加速计算,尤其是针对云端的加速计算。
联捷计算科技公司成立于2016年,但是我们做这个事情源起于2013年,那个时候中国还没有多少人用FPGA加速。当时中国最早做FPGA加速的是百度,后来腾讯也开始做FPGA加速。那个时候我们就跟他们做了一个POC,把图片加速里面的一个function加速了40倍,然后去做黑盒测试/ABtest,发现比较明显的性能提升。我们就沿着这个项目做下来,后来就有了今天的这个公司。我们团队的成长伴随着中国FPGA异构产业的发展,到目前为止共有35人,且都在深圳,成员主要来自于港科大、香港中文大学、复旦、中科院,目前专注于做图片和视频的加速解决方案。
1.1 做FPGA加速的原因
数据的爆炸和算例的停滞增长带来的供需不平衡,是这个大环境下我们要做加速的原因。
2. 加速解决方案
联捷计算科技做TCO Reduction、Enhanced Throughput和Latency Reduction。前两个大家可以认为是一回事,TCO的降低来自于单节点计算密度提升,当我们提到单节点密度提升,通常对应的是TCO。另外一个商业化的途径就是Latency Reduction。举个例子,比如说我做前面的加速,以前运矿车是5吨重,一小时可以往返一次。现在我发明了500吨重的载重卡车,也是一小时可以载500吨,这样吞吐就提升了。但是人家还有一部分Latency的要求,运1千克的货,要求1分钟就跑回来,这个就是坐法拉利,两种不同的变现模式,做过加速计算的人都懂。上述应用的场景主要是互联网,针对云存储、社交、电商、短视频等。
大家听到这些,其实主要由UGC产生的。当我们2013年做加速的POC的时候,尤其是图像的编解码和缩放,我自己都觉得没什么意思,因为我平时自己也拍一些照片,玩摄影。我也在我自己电脑上存了几千上万张照片,经常做转码和缩放,但是没有任何被加速的需求。但是后来才知道,原来是一个workload,哪怕是几百毫秒,几十毫秒,也架不住请求多。举个例子,一个单机500个QPS,如果不经过FPGA加速已经不算低了,但是一百万个QPS的时候就需要2000台服务器,这已经是非常大的体量了。刚才阿里的同学说他们才用几千块FPGA就已经是中国最大的workload了。所以说关键是架不住并发度,而并发度的出现,其实就是受移动互联网的红利。
拍照片拍视频比以往任何时候都便捷,因为有4G的网络,分享也更加快捷。所以我们会看到供需的GAP进一步加大,这些都来自于三点。第一点是5G时代新的杀手应用还没有产生;第二点是新的交互,尤其视觉交互分辨率是越来越大,因为今天局限在1080p和2k这个层面是受手机屏幕的限制——只有5到6度的视场,但是在沉浸式的设备里呢,通常有至少60度以上,这对分辨率的需求也将越来越大;还有就是编解码的计算复杂度,视频和图片每一代都比上一代有更大的计算复杂度,计算复杂度的增长远远大过单节点算例的增长。
2.1 System Stack
System Stack比较偏技术一些。我们的客户也是解耦在应用的加速接口这一层,应用软件包括常见的图片和视频的处理框架软件。下面是Service & Driver ,再下面是加速引擎——AFU(AcceleratorFunction Unit),这里通常是我们实现在FPGA里的东西。无论是图片还是视频,基本上transcoding都避不开三个step,Decode 、像素级的处理,以及一些Encode。
3. 图像加速解决方案
联捷计算科技目前的产品矩阵包含了最主流的两种:JPEG和WebP。我们目前也支持苹果刚发布的HEIF。听说安卓手机在明年也会支持默认的HEIF存储格式。现在拍一张4兆的照片,默认就是2兆,但是会给互联网网站带来压力。因为以前只Decode JPEG,现在要Decode HELF,那么HELF由于单文件size更小,在固定带宽的情况下,上传到单个server数量更多。server计算密度的要求比之前JPEG解码大很多。最后是一个Lepton比较邪门的格式,是Dropbox发明的,主要用于JPEG的无损压缩。目前来说主要是Dropbox在用,其他的云存储厂家对这个方案也有一些兴趣,都处在评估阶段。
3.1 JPEG缩略图客户基于CPU的现有解决方案
这是非常古老的workload,有互联网那天起就有这种workload。最开始主要用ImageMagick,但是因为计算视觉的workload越来越多。客户慢慢转向OpenCV。这其中有个小故事,互联网的早期——Facebook网站上线几年之内,都没有允许用户上传图片,这在今天很难想象,Facebook一开始不允许上传图片,后来只能上传头像,结果Facebook一开feature(图片上传),服务器就挂,因为做不了转码。
今天像Facebook这种主流一线厂家,已经成为异构计算新的定义者。大家关注新闻的话,现在Facebook定义了3款加速芯片,分别针对视频、AI推理和AI训练。所以我们可以看到Facebook是互联网移动社交的霸主,掌握全世界超过一半的workload,那么它走向异构,就说明确实CPO做不过来。
3.2 挑战:缩短图像加载时间
在GitHub社区,牵扯到Thumbnailgeneration,不时的看到用户抱怨loading的速度太慢,这也是我们做加速的原因之一。
3.3 JPEG 缩略图性能基准
整体而言,我们给客户实现的是上图所示的workload,大概是5倍的吞吐、12%的延时、CPU利用率从100%降低到29%。不同的厂家关于这种阐述有不一样的理解,主要是看怎么去理解整个系统。当落地方案的时候,我们发现有一个问题就是一个新技术进入传统业务场景的时候,一个单点性能的急速提升,比如说提升十倍甚至几十倍,带来的是很快在其他节点产生新的系统痛点和系统瓶颈。真正讲商业落地,你会发现客户需求的单节点计算密度和TCO节省并没有账面数字上写得那么高。比如现在花100块钱办的事,用了你的产品花10块钱就解决了,一般来说有一个相对比较合理的降比已经足够了。他想要的是什么呢?2B(To-Business)的方案,尤其是数据中心这种加速计算,这其中有一个公式是客户的净收益减去迁移成本才是最终的净收益。比如说,这个热水器特别好,但是我得把你家拆了,把你厨房卫生间打得稀烂,你还得重新装修,计算下来省的东西还不如我多花的部分,你可能就不这么选择了。但是如果我能一尘不染的就能把更好的引擎集成进去,对客户来说才是真正有落地价值的东西。
3.4 在图像搜索时将webp作为缩略图
WebP是反复提到由谷歌推出的一种格式,主要应用在安卓和Chrome浏览器生态。
3.5 jpeg2 webp性能基准
Benchmark我们一般控制在3倍左右,因为同行内有个说法,单做吞吐不是一个很好的生意。想想看,你给他100台机器减成10台,且不说网络和存储允不允许你做到这么高,即便真正能做到的话,怎么收费?互联网大厂也不是不知道卡的价格,你一下收巨额的方案费,基本上是不太可行的。所以真实落地的时候能有3倍就非常好了,你也得一点收益,客户这个集群还不能缩太少,互联网布服务器肯定是按着冗余布的。
我举个例子,如果真的10台机器减成1台了,还有没有冗余,灾备会有很大问题的。举个非常具体的例子:如果他有50台机器掉了1台,性能损失1/50,根据运维标准,也许今晚还能睡个觉,不用连夜去处理故障。可是减到5台机器掉1台,性能降低20%,这就是另一个级别的运维失误了,今晚就得连夜工作。虽然加速计算有一些就技术论技术的Benchmark,但是真正进到商业里会有一些非技术的制约,这都会造成一些落地上的特别考虑。
3.6 Appleannounced to use HEIF
HELF是IOS12之后苹果才推出来的,苹果是很主流的一个移动平台,这个格式一出来,数据中心各个大的app马上就涌现出很多HELF流量进来,所以才会发现它的处理比JPEG消耗更多的计算这个痛点,我们也发现很多app一开始就没有兼容性。比如钉钉也是阿里旗下的,我们同事用苹果手机上传照片在安卓端看不了,只显示个HEIF,那就说明app没有做到转码。我相信如果我们和阿里合作很快他们就有这个方案了。
3.7 JPEG到HEIF转码性能基准
JPEG到HEIF转码性能基准有48倍的吞吐提升,大概延时能降低到软件处理的6%。客户已经在反映说吞吐太大,太大就埋不了几片,有时候要控制,其实卡能放几个是方案上定的。现在内部宁可做高延时也不要做大吞吐。因为反正干掉CPU是很容易的一件事情,哪一个加速方案上,不比CPU秒杀几倍几十倍,这已经不是新闻了,关键是延时需要再做。延时是什么呢?我有一个workload。比如说手机卡顿不想用了,而且一旦用过不卡的就回不去了。所以在2B端也有类似的现象,客户对延时的要求有点类似于,你用过卡的电脑和手机,之后你真的不想用它,那都不是省钱不省钱的问题,是能用不能用的问题。我觉得未来几年,尤其是5G本身就强调低延时。延时是CPU怎么都解决不了的问题,吞吐撑死就是有钱、堆服务器,堆一万台服务器,每一个workload该是多少毫秒还是多少毫秒。这是计算代差的问题,与电器和蒸汽时代的差别一样,不是说靠吞吐堆的。在2013年到2016年间,客户都讲TCU,因为那个时候每个workload,CPU的延时都在可用范围以内,就算性价比,性价比比不过就不用了。今天不一样了,现在有相当一个比例的workload是CPU的延时,这是不可被接受的,因此也没办法说价钱问题。什么是算力的游戏?2个算力的Latency是一样的基础上再比较吞吐和计算密度,如果Latency都不一样,就不能比较密度,因为没有可比性。
3.8 无损压缩
Lepton就是无损压缩,把存储无损下压。这个是比较重要的问题,因为云存储不能篡改用户的数据,就是你什么样子传给我,取回的时候比特是一致的,无损也是我们的产品之一。
3.9 JPEGto Lepton 转码性能基准
JPEG至Lepton都加之后,JPEG转成压缩格式和压缩格式返回有3倍的性能,有时候讲几倍也看卡的数量。就像重型火箭,当时设计有两个方案,第一个是单个的大推力引擎,研发成本非常高;第二个是用捆绑式的,几个小引擎给它捆绑起来,所以在做工程型的东西的时候,很少有极致的偏执狂和强迫症的技术追求,通常是因为成本所导致。当我们选择加速器芯片的时候,是根据workload选取应该使用什么最合适的加速器芯片,XLILNX显然是最合适的。
4. 视频加速解决方案
视频有一部分也是用MPSoC。我觉得7EV芯片代表未来,因为以前异构是主处理器和协处理器作为PC连接的,MPSoC是多核处理器+Soc,可以从XILINX的ACAP上看出趋势,更多的host和加速器连接更紧密而去,而且芯片里有一个VCU,是一个硬核编解码器,它的编码效率非常高,还有可编程逻辑资源,相当于中小规模的FPGA,还有ARM的core,里面有实时操作系统的core,相对比较全面的。打个比方,如果这个东西再加个TPU就是ACAP了。当然这个说法也不严谨,因为ACAP采用了很多新的互联技术。
我们也有264Encoder的基于U200软核方案,因为云平台目前没有一个上MPSoC计算实力,基本上都是基于纯FPGA的,U200又比较多是渠道导向的研发。很多客户确实需要Video的Workload,但是几个云平台都是U200为主,我们开发了基于U200的编码方案,我们设想的客户他很有可能将来异构计算也分成稳态异构和动态异构。什么叫稳态异构和动态异构,互联网公司都有波峰波谷,相对有一个业务存量,保底的用量是多少,这块是用MPSoC,甚至是ASCII,问题不大。FPGA最适合是弹出来那部分,我可能一天就用几个小时,就高峰时间段用,用完了就退资源。云平台除了AI,很少上ASCII计算加速器就是因为不灵活,我们很多用户一配,华北阿里好几个可用期,万一可用期里没有呢?就是售罄或者是资源调配不过来,ASCII很难几个小时内调配,我们认为存量资源有可能用ASCII,但是弹出来的资源还得用可编程资源,FPGA就像CPU一样是最符合资源池概念和完全可编程资源池概念的计算资源,这就是FPGA能经久不息的原因, 那为什么CPU还有这么大市场?CPU的极致性能是最弱的,但是可承用性、可编程性是最好的。所以可以给下一代异构计算一个启发,我认为将来CPU会成为功能产生平台。
今天大家编程不可能摆脱CPU,好的想法和好的算法肯定是在CPU上先做原型,也可能是早期原型部署平台,早期小批量,之后再大一点,可能FPGA或者ASCII接棒,继续往下走,最后才可能会实现动态平衡。
当一个算法诞生到渐渐火起来,觉得CPU不够,到最后真正形成它的硬核架构这样一个动荡。新的好的应用好的算法层出不穷,就一浪一浪的出来,FPGA卡这个阶段是相当合适的。我们公司对FPGA是重仓的,根据经济学原理,到达某一个用量,才能到达盈亏平衡。从之前的加密货币可以看出,只有少数几个币种可以走到商业化可行路径。
Transcoding第一部分是7EV的,差不多是7.8倍。
这个是一转三的,推流1080p入,720、540、360出,比较典型的直播场景,是一个4.4倍的性能密度。
这个是软核的,大概有5.1倍。这是一种设计倾向,对于砍腰部还是铲尾,还是砍头部的问题,这个设计倾向相对有点腰部偏长尾,不是完全对标medium,但是我们做出高度稳定高度接口可调用的方案,总会卡到自己的目标群体去。
这个是一些案例了。比较知名的手机互联网公司的云相册,TCU的节省、High performance、High throughput、Latency讲到底是叫用户体验提升。其实加速计算就是两件事:降成本提体验。降成本就是单节点密度,提体验就是降低Latency。不光是降低Latency,还有就是确定性延时波动非常小,10ms总在9.5和10.5之间波动,总在不会出现非常大的波动,这个是QPS的实质。但是load Latency不是非常的完全的load Latency。在图片上还好,有一张load不出来就不看了。Deterministic timing在金融上是非常非常重要的,因为很多金融方案策略是时延和timing有非常紧密联系的。我的策略就是发现100秒之后下一个单,timing错了,导致整个策略就错了,当然这个也是客户发现的。Deterministictiming在FPGA加速计算的另外一个领域有更大的应用,金融方向。
WebP这是个视频网站,但是用在社交平台,也是处理UGC内容,也同样可以观测到这些benefit。
CTAccel Receives Series A Funding Led by Intel Capital (2018-11-28)
more
Hong Kong, November 28, 2018 – CTAccel Limited, a leading company in FPGA-based acceleration technology and solutions, today announced it has received investment in a Series A funding round led by Intel Capital with participation from Ironfire Ventures.
CTAccel will use the investment proceeds to broaden its product portfolio for better and more effective image processing and image analytics solutions development, and to strengthen the company’s global market penetration in North America, Europe and Asia Pacific.
Since 2013, CTAccel’s FPGA experts have been involved in the development of heterogeneous computing solutions for datacenters. The company’s products redefine image processing in datacenters by using patented technology that enables end-to-end solutions that improve performance and energy efficiency by an order of magnitude.
CTAccel solutions are deployed in a wide spectrum of market segments including online-to-offline (“O2O”) services, smartphone cloud applications, cloud storage and online video sites. The company’s FPGA-based accelerator brings high-throughput, low-latency image processing that delivers proven performance improvements while simultaneously reducing costs for customers.
"Our existing and in-development product offerings have positioned CTAccel to be a market leader in FPGA-accelerated solutions," said Dr. Harry Yu, founder and CEO of CTAccel. “This investment, led by Intel Capital, will speed up our new product development and extend our solutions across FPGA-accelerated datacenter computation while supporting our global expansion.”
Anthony Lin, Vice President and Managing Director of Intel Capital International, said:“Our investment in CTAccel supports Intel’s strategy to accelerate the development of the rapidly growing data economy. We look forward to continuing to work with CTAccel to increase the adoption of FPGA-based datacenter solutions in China and global markets.”
The Series A funding round extends the relationship between CTAccel and Intel and aims to leverage the extensive experience of CTAccel in hardware-software co-design, heterogeneous computing and software engineering to deliver high-performance, high-value solutions to customers.
About CTAccel Limited
CTAccel was founded in March 2016 by a team of FPGA experts from ClusterTech Limited. The team has been involved in the development of FPGA-based heterogeneous computing solutions for the datacenter since 2013. The company’s patented CTAccel Image Processing (CIP) accelerator improves the performance and efficiency of image processing in datacenters by offloading computation from CPU to FPGA. Learn more about CTAccel by visiting www.ct-accel.com.
About Intel Capital
Intel Capital invests in innovative startups targeting artificial intelligence, autonomous vehicles, datacenter and cloud, 5G, next-generation compute and a wide range of other disruptive technologies. Since 1991, Intel Capital has invested US $12.3 billion in 1,544 companies worldwide, and more than 660 portfolio companies have gone public or participated in a merger. Intel Capital curates thousands of business development introductions each year between its portfolio companies and the Global 2000. For more information on what makes Intel Capital one of the world’s most powerful venture capital firms, visit www.intelcapital.com or follow @Intelcapital.
CTAccel To Deliver NGCodec Video Encoding Solutions as Exclusive Agent in China (2018-07-06)
more
NGCodec, NGCodec, a pioneer in cloud video processing, is partnering with Chinese FPGA acceleration specialist CTAccel to deliver FPGA-based video encoding solutions in China. CTAccel will be the exclusive agent for NGcodec products in both mainland China and Hong Kong.
CTAccel will offer the next generation NGCodec video encoder, the RealityCodec™ H.265/HEVC encoder, using FPGA hardware acceleration for low latency while maximizing video quality, meeting the highest broadcasting standards.
“Opportunities for cloud video encoding are expanding, but traditional software approaches need massive, expensive CPU resources and cannot deliver the video quality or latency required by emerging applications,” said Oliver Gunasekara, Chief Executive Officer and Founder, NGCodec. “CTAccel is experienced and respected in FPGA acceleration and we look forward to offering state of the art video encoding solutions to customers in China through CTAccel”
CTAccel has offered image processing solutions employing a high-throughput, low latency FPGA-based accelerator with proven value among customers in China
“CTAccel is very experienced in FPGA-based acceleration. Being NGcodec’s exclusive agent in China, we are making both party’s solutions more complete. This partnership allows both CTAccel and NGcodec to explore new ways to offer our products to a wide range of customers around the world.” says Harry Yu, CEO and Co-Founder of CTAccel.
NGcodec and CTAccel have already collaborated on several projects and are committed to providing the best FPGA-based solutions to customers.
About NGcodec
NGCodec® has been in passionate pursuit of next generation video compression since 2012. With the support of investors including Xilinx, NGCodec’s agile startup team has created Reality Codec™, a compressor-decompressor technology optimized for ultra-low latency, high-quality applications. Headquartered in Sunnyvale, California, NGCodec leverages FPGA acceleration in the Cloud to lower encoding costs by 10x over traditional CPU encoders. Learn more at www.ngcodec.com online. Learn more about NGcodec: https://ngcodec.com/
About CTAccel
CTAccel Ltd. was founded in March 2016 by a team of FPGA experts from Clustertech Ltd. The company has been involved in the development of FPGA based heterogeneous computing solution for the datacenter since 2013. The company’s patented CTAccel Image Processor (CIP) improves the performance and efficiency of image processing in datacenters. Learn more about CTAccel:http://www.ct-accel.com/home-2/
CTAccel Provides High Performance FPGA-based Image Processing Accelerator on AWS F1 (2018-05-18)
more
CTAccel Image Processor for AWS Cloud(hereinafter referred to briefly as CIP for AWS Cloud) is available as an Amazon Machine Image on the Amazon Web Services Community AMIs. CIP for AWS Cloud is an FPGA-based image processing acceleration solution that can help you greatly improve the performance of image processing by transferring computational work-load from CPU to FPGA.
Application Scenarios
CTAccel provides rich solutions for customers who have image processing requests. And they can be used in many application scenarios, such as JPEG thumbnail, Sharpen, Main color, Watermark, Brightness-Contrast and so on.
Benefits
CIP for AWS Cloud can benefit you by increasing image processing throughput, reducing computational latency and reducing TCO.
➢ Improve the Throughput by 10x
➢ Reduce Latency by 10x
➢ Reduce TCO by 3x
CTAccel Joins Accelize Ecosystem to Make FPGA-Based Image Transcoding Acceleration Available on AccelStore(2018-05-17)
more
Image Transcoding Accelerator from CTAccel Will Be Available on As-Needed Basis for Cloud and Enterprise Applications
Cloud Expo Asia, Hong Kong — May 16, 2018 — CTAccel announced today that it is partnering with Accelize® to make its FPGA-based CTAccel Image Processor (CIP) available on an as-needed basis on the new AccelStore™ marketplace. CIP is a high-performance image processing accelerator that improves server throughput and latency.
“By joining the Accelize ecosystem, we are making our image transcoding expertise available to a broader audience of cloud and enterprise application developers on all the cloud and enterprise platforms supported by the Accelize framework starting with OVH and AWS,” said Ivan Wong, senior product director of CTAccel. “This partnership with Accelize allows us to explore new ways to offer our products to a wider range of customers whether they are Cloud Application developers or looking for on-premise acceleration solutions in a fast, easy and cost-effective way.”
Similar to other accelerators on AccelStore, CIP will leverage the Accelize RESTFul API to enable fast and easy evaluation and deployment in just minutes on any supported platform, starting with Amazon Web Services (AWS) and OVH. The accelerator will also be available on multiple Enterprise FPGA cards for on-premise usage and purchasable with a variety of business models.
“CTAccel has proven the value of its solutions on multiple Cloud Service Providers in Asia, and we are excited to work with them to offer image transcoding acceleration to AccelStore users,” said Stephane Monboisset, vice president of marketing and partnerships for Accelize.
AccelStore is a new, online marketplace of ready-to-use accelerator functions, provided by a growing ecosystem of 3rd party developer companies, that can be seamlessly deployed in high-speed data centers including Amazon Web Services (AWS) and OVH to start, and more to come. Accelize gives IP developers the right framework and support to deploy their FPGA solutions to the Cloud and manages all aspects of distributing and licensing for them. AccelStore makes the online library of FPGA-accelerated functions available to the broad audience of cloud applications developers with easy evaluation, licensing and usage terms.
About Accelize
Accelize, a spinoff of PLDA Group, is a leading provider of Acceleration-as-a-Service, bringing the benefits of FPGA acceleration to cloud and enterprise users. Accelize operates AccelStore, a marketplace of ready-to-use accelerator functions running on FPGA platforms provided by a broad ecosystem of IP providers, design houses and ISV’s. Accelize also develops and maintains unique technologies that ease the development of FPGA accelerator functions and their monetization to benefit the entire FPGA supply chain. Its accelerator functions operate on multiple FPGA platforms in Public Cloud, Private Cloud and on premise. For more information, visit www.accelize.com.
CTAccel CIP 产品已经上线BAT三大云平台(2017-11-24)
more
联捷计算科技(CTAccel)丶阿里云共建FPGA异构计算加速云平台生态(2017-10-20)
more
一年一度的杭州云栖大会(2017) 刚在10月11日-10月14日在西湖区云栖小镇举办。全球各地云计算丶大数据丶人工智能的顶尖企业Intel丶Xilinx丶Nvidia丶AMD均汇集于此, 与阿里云联合发布新一代的异构计算加速云平台,聚焦全球高性能云计算丶大数据应用和人工智能创新领域最前沿的技术。联捷计算科技(CTAccel)一直致力于基于FPGA的图片处理与分析加速计算技术的研发,核心技术已获得美国专利,承蒙阿里云的邀请,作为阿里云异构计算加速云平台的生态共建合作企业之一出席会议.
(左三: 联捷计算科技CTAccel CEO俞海乐博士)
会议上CTAccel CEO俞海乐博士表达了对阿里FPGA云服务平台的高度认同, 简述了FPGA云服务可有效降低FPGA加速方案的研发环境搭建的时间, 同时解决FPGA加速方案在售前与部署面对的各种困难及阻力, 例如各种硬件合规与运维准入标准等问题, 让加速方案团队能专注于产品打磨与核心算法的开发,意义十分重大.
CTAccel团队经过和阿里云的伙伴的共同努力,将CTAccel图片处理加速解方案移植入阿里云FPGA服务,并即将把该方案输出给客户,此举是国内外在FPGA云服务化的开创性成果,并代表了FPGA与云计算结合的未来发展趋势。
CTAccel在FPGA加速处理上有丰富经验, 研发人员拥有从国内外知名大学获得的理工科硕士学位和丰富的研发经验。经过历时三年的探索,团队的图片加速处理技术已经实现优于传统CPU七倍的计算性能,并获得美国专利公审。CTAccel 的图片加速处理产品CIP在图像处理计算中,可降低延时三倍,提高并发度三至七倍,降低TCO 三倍。CIP提供了目前世界上最强的图片处理能力,重新定义了数据中心图片处理计算模式,为互联网图片计算提供最高效的解决方案。
SC16: FPGA 计算时代来临,联捷计算科技加速技术场内亮点(2016-11-28)
more
在美国犹他州盐湖城举办的世界超算大会SC16已于11月18号圆满结束。FPGA届两大巨头INTEL与Xilinx在此大会上都展示了他们最新的FPGA加速技术,专用于提升高性能计算与互联网数据中心的性能。此次Intel展示的Arria 10 FPGA有浮点处理能力,运行AlexNet——一种卷积神经网络(CNN)时可达到1000FPS的处理速度。与此同时,Xilinx研发的Kintex Ultrascale FPGA在进行定点版本的AlexNet推断时可达到1800FPS的性能。值得注意的是,二者设计神经网络时皆运用了OpenCL,这无疑给市场打了剂强心针,这意味着使用高级编程语言编FPGA成为现实。在今后,FPGA开发者将缩短研发周期,令人诟病的漫长开发周期将成为过去式。而Xilinx的OpenCL工具SDAccel将在今年年底正式公布。联捷科技(CTAccel)是中国第一批赛灵思官方认证的SDAccel设计服务提供商。
图1:联捷科技的老朋友-Xilinx SDAccel产品总监Vinay与联捷科技技术总监促膝长谈
浪潮(Inspur)也在展会上发布了基于Intel的FPGA加速器。可以预见的是,市场上越来越多的服务器供应商将加入到为各自服务器开发FPGA加速器的大军。值得一提的是,CTAccel的FPGA加速解决方案愈发强大,拥有多种功能与超高性能。现在他们的FPGA加速器已经支持WebP——一种高效率小体积的互联网图片格式。在今年的SC16展会上,CTAccel演示了基于FPGA的JPEG转WebP的流程,比传统处理器快五倍。近年来,CTAccel也在研发基于CNN的图片分析技术,展出的联捷科技的FPGA加速方案可将基于神经网络的人脸识别速度提升两倍。
图2:IBM Power架構专家与联捷科技技术总监深入讨论联捷科技的平台技术
今年的世界超算大会让我们感受到FPGA正逐渐成为主流计算设备。从2013年开始研发FPGA图像加速技术的CTAccel正步入产品成熟期,他们性能强大的FPGA图像处理方案必将为图像界带来新的亮点,成果拭目以待。
more
联捷科技再度入选Top 50 国产处理器芯片厂商(2023-06-30)
more
2023年版Top 50 国产处理器厂商调研与市场分析报告涵盖CPU、GPU、FPGA、DSP和多媒体SoC等处理器芯片类别,分别从全球和中国市场趋势、处理器技术发展,以及国产处理器芯片行业现状的方面,对国际巨头和50家国产处理器厂商进行了全面而详尽的分析。
从以上表格数据可以看出,国产CPU厂商共有13家,除了龙科中心和海光信息等传统CPU公司外,最近几年还出现了以Arm架构为主的服务器CPU初创公司,比如鸿钧微、此芯科技和遇贤微电子等;GPU芯片厂商共有11家,除了景嘉微等以图形渲染为主的CPU芯片供应商外,还有多家以GPGPU和AI加速为主要应用的GPU初创公司;FPGA公司也有11家;DSP芯片厂商有5家,大都以音频信号处理为主;以视频处理为主的多媒体SoC芯片厂商有10家,涉及应用处理器、视频处理器、网络安全处理器等。
联捷计算科技再度入选TOP50国产处理器芯片厂商
来源:电子工程专辑
参考原文:2023年TOP50 国产处理器(CPU/GPU/FPGA/DSP/多媒体SoC)厂商调研与市场分析报告
CTAccel Image Processing (CIP) acceleration perfect integration with Intel® Agilex™ FPGA(2023-06-28)
more
用FPGA加速数据中心图像视频处理,「联捷科技」完成A+轮融资(2020-04-22)
more
速度更快、成本更低、效率更高。
36氪获悉,FPGA加速技术与解决方案提供商「联捷科技 (CTAccel Limited) 」宣布完成A+轮融资,投资方为君盛投资,青桐资本为本轮的投资顾问。本轮资金将主要用于产品的进一步研发及市场拓展。
联捷科技成立于2016年, 专注于研发基于FPGA的数据中心图像视频等多媒体异构计算解决方案,这项技术重新定义了数据中心图像处理的计算模式,可以提供端到端解决方案,把性能和效能提升一个数量级,已获得美国及中国专利。目前,联捷科技高吞吐、低时延的FPGA图像处理加速技术解决方案目前已经广泛应用到包括O2O服务、智能手机云应用、云存储和在线视频网站细分市场中。
联捷科技创始人兼首席执行官俞海乐告诉36氪,公司的解决方案主要针对的数据中心图片和视频计算的两个痛点,一是计算延时高;二是计算成本高。
移动互联网的不断发展,人人都可以拍视频、传照片,人们对图片、视频的质量要求也越来越高。海量的内容和多样的功能导致视频、图片计算在数据中心需求不断增加。
“尤其是最近两年手机摄像头的分辨率也不断提高,这一维度也增加了整体后台计算的压力。而更高压缩率的编码算法,也对算力提出了更高的要求。互联网公司数据中心的计算量越来越大,计算成本高企难下。”俞海乐说,“为了给用户更流畅的体验,同样也要求数据中心计算速度更快,处理延迟更低。CPU性能增长乏力,让依赖纯软件计算满足高复杂度计算的实时性变得越来越不现实。”
针对这些痛点和需求,联捷科技提供了基于FPGA的异构计算解决方案。简单来说,其核心就是将数据中心需要执行的各类任务(软件、算法代码等)进行分析、拆解、重组,再分给各异构计算资源进行计算,以达到尽可能充分利用各种计算资源,缩短任务执行时间,提升数据中心整体效率的目的。
产品形态上,这套方案主要包括FPGA硬件加速器和软件包两个部分,软件包部分硬件驱动软件、SDK包以及部分应用层软件。部署上,公有云和私有服务器均能部署,用户可以选择购买硬件及软件包产品,也可选择纯软件方案,以“硬件费用+软件订阅费”进行收费。加速器支持ImageMagick、OpenCV、FFmpeg多种主流开源软件,用户几乎不需改动原有系统程序即可使用。同时,加速器还可以通过远程升级的方式进行软件化功能定义,可根据具体使用场景调整加速器功能。
产品性能方面,联捷科技的方案对不同类型任务,如视频编解码、云相册的缩略图生成等,以及客户数据中心的整体系统环境,如网络和宿主机配置,加速及提升效果都有所不同。俞海乐介绍,用户在运行加速器之后,可以看到单机处理能力和单任务计算延迟两个关键指标的变化,“效果都是可量化、可观测的。以某客户的实际应用情况为例,运行我们的方案18个月以来,单机处理能力提升了两倍,计算延时降低,总成本至少降低了50%。”
当下,随着AI、5G、IoT等新技术和新应用的快速发展,算力需求大幅提升。以GPU、FGPA和ASIC芯片为主的专用加速器的应用不断提升。除了图像视频处理领域,联捷科技的设计方法同样能用到其他数据中心计算如AI计算、金融计算,基因测序等。“我们的核心能力是对软件算法的识别、分析、重组的能力,并不只针对某一特定领域的计算。但To B业务的落地,尤其是数据中心的底层创新产品的落地,是非常困难且长周期的一件事,需要的也不仅仅是技术优势。因此在一个细分赛道先获得成功是务实之举,也不宜盲目扩张。”
团队方面,联捷科技目前共有近30名全职员工,核心人员都拥有国内外知名大学的理工科硕博学位和丰富的研发经验,具备算法研究、算法移植、FPGA工程、系统调优、软件整合等多方面异构计算的综合技术能力。
据悉,联捷科技曾于2018年11月获得英特尔投资领投、信智资本跟投的A轮融资。
关于投资
君盛投资执行事务合伙人李昊表示:君盛投资一直围绕企业数字化进行布局,背后基础设施是通信半导体和信息技术,应用场景包括了企业服务和金融科技等。未来相当长一段时间,我们需要处理的数据量会持续快速增加。相应的,无论是数据中心还是边缘端的计算场景,计算体系将会被重构。除了GPU,FPGA、ASIC等异构计算架构会更加丰富地被使用在特定场景中,传统计算架构的演化趋势越来越明显。FPGA加速与解决方案提供的壁垒很高,也是上游通用芯片和下游客户需求连接的重要环节。结合具体场景有区分,但又有相对通用性的服务交付,使得团队业务高效扩张成为可能。公司团队对硬件架构、软件算法、应用场景都有深刻理解,实现了一系列头部客户的认可。我们相信,围绕图片、视频、数据等进行路径延展,联捷科技将推动行业的快速发展。
从JPEG WebP到HEIF FPGA实时图片转码架构 (2020-02-19)
more
本次演讲讨论基于现实中数据中心所有到一般性问题,尤其是数据处理的困境。而联捷计算科技(CTAccel)针对基于FPGA的异构计算的特点,与赛灵思配合提出发挥FPGA特长的多媒体解决方案,并以应用接口的方式提供给用户。
文 / 俞海乐
整理 / LiveVideoStack
转自:https://mp.weixin.qq.com/s/zPpFBCsK5Wx0hTfOyYnD9w
1. 简介
大家好,我是CTAccel Limited创始人兼CEO俞海乐,首先是非常感谢受赛灵思邀请来参加LiveVideoStackCon音视频技术大会,我们的公司叫做联捷计算科技,目前在深圳主要是做图片和视频的加速计算,尤其是针对云端的加速计算。
联捷计算科技公司成立于2016年,但是我们做这个事情源起于2013年,那个时候中国还没有多少人用FPGA加速。当时中国最早做FPGA加速的是百度,后来腾讯也开始做FPGA加速。那个时候我们就跟他们做了一个POC,把图片加速里面的一个function加速了40倍,然后去做黑盒测试/ABtest,发现比较明显的性能提升。我们就沿着这个项目做下来,后来就有了今天的这个公司。我们团队的成长伴随着中国FPGA异构产业的发展,到目前为止共有35人,且都在深圳,成员主要来自于港科大、香港中文大学、复旦、中科院,目前专注于做图片和视频的加速解决方案。
1.1 做FPGA加速的原因
数据的爆炸和算例的停滞增长带来的供需不平衡,是这个大环境下我们要做加速的原因。
2. 加速解决方案
联捷计算科技做TCO Reduction、Enhanced Throughput和Latency Reduction。前两个大家可以认为是一回事,TCO的降低来自于单节点计算密度提升,当我们提到单节点密度提升,通常对应的是TCO。另外一个商业化的途径就是Latency Reduction。举个例子,比如说我做前面的加速,以前运矿车是5吨重,一小时可以往返一次。现在我发明了500吨重的载重卡车,也是一小时可以载500吨,这样吞吐就提升了。但是人家还有一部分Latency的要求,运1千克的货,要求1分钟就跑回来,这个就是坐法拉利,两种不同的变现模式,做过加速计算的人都懂。上述应用的场景主要是互联网,针对云存储、社交、电商、短视频等。
大家听到这些,其实主要由UGC产生的。当我们2013年做加速的POC的时候,尤其是图像的编解码和缩放,我自己都觉得没什么意思,因为我平时自己也拍一些照片,玩摄影。我也在我自己电脑上存了几千上万张照片,经常做转码和缩放,但是没有任何被加速的需求。但是后来才知道,原来是一个workload,哪怕是几百毫秒,几十毫秒,也架不住请求多。举个例子,一个单机500个QPS,如果不经过FPGA加速已经不算低了,但是一百万个QPS的时候就需要2000台服务器,这已经是非常大的体量了。刚才阿里的同学说他们才用几千块FPGA就已经是中国最大的workload了。所以说关键是架不住并发度,而并发度的出现,其实就是受移动互联网的红利。
拍照片拍视频比以往任何时候都便捷,因为有4G的网络,分享也更加快捷。所以我们会看到供需的GAP进一步加大,这些都来自于三点。第一点是5G时代新的杀手应用还没有产生;第二点是新的交互,尤其视觉交互分辨率是越来越大,因为今天局限在1080p和2k这个层面是受手机屏幕的限制——只有5到6度的视场,但是在沉浸式的设备里呢,通常有至少60度以上,这对分辨率的需求也将越来越大;还有就是编解码的计算复杂度,视频和图片每一代都比上一代有更大的计算复杂度,计算复杂度的增长远远大过单节点算例的增长。
2.1 System Stack
System Stack比较偏技术一些。我们的客户也是解耦在应用的加速接口这一层,应用软件包括常见的图片和视频的处理框架软件。下面是Service & Driver ,再下面是加速引擎——AFU(AcceleratorFunction Unit),这里通常是我们实现在FPGA里的东西。无论是图片还是视频,基本上transcoding都避不开三个step,Decode 、像素级的处理,以及一些Encode。
3. 图像加速解决方案
联捷计算科技目前的产品矩阵包含了最主流的两种:JPEG和WebP。我们目前也支持苹果刚发布的HEIF。听说安卓手机在明年也会支持默认的HEIF存储格式。现在拍一张4兆的照片,默认就是2兆,但是会给互联网网站带来压力。因为以前只Decode JPEG,现在要Decode HELF,那么HELF由于单文件size更小,在固定带宽的情况下,上传到单个server数量更多。server计算密度的要求比之前JPEG解码大很多。最后是一个Lepton比较邪门的格式,是Dropbox发明的,主要用于JPEG的无损压缩。目前来说主要是Dropbox在用,其他的云存储厂家对这个方案也有一些兴趣,都处在评估阶段。
3.1 JPEG缩略图客户基于CPU的现有解决方案
这是非常古老的workload,有互联网那天起就有这种workload。最开始主要用ImageMagick,但是因为计算视觉的workload越来越多。客户慢慢转向OpenCV。这其中有个小故事,互联网的早期——Facebook网站上线几年之内,都没有允许用户上传图片,这在今天很难想象,Facebook一开始不允许上传图片,后来只能上传头像,结果Facebook一开feature(图片上传),服务器就挂,因为做不了转码。
今天像Facebook这种主流一线厂家,已经成为异构计算新的定义者。大家关注新闻的话,现在Facebook定义了3款加速芯片,分别针对视频、AI推理和AI训练。所以我们可以看到Facebook是互联网移动社交的霸主,掌握全世界超过一半的workload,那么它走向异构,就说明确实CPO做不过来。
3.2 挑战:缩短图像加载时间
在GitHub社区,牵扯到Thumbnailgeneration,不时的看到用户抱怨loading的速度太慢,这也是我们做加速的原因之一。
3.3 JPEG 缩略图性能基准
整体而言,我们给客户实现的是上图所示的workload,大概是5倍的吞吐、12%的延时、CPU利用率从100%降低到29%。不同的厂家关于这种阐述有不一样的理解,主要是看怎么去理解整个系统。当落地方案的时候,我们发现有一个问题就是一个新技术进入传统业务场景的时候,一个单点性能的急速提升,比如说提升十倍甚至几十倍,带来的是很快在其他节点产生新的系统痛点和系统瓶颈。真正讲商业落地,你会发现客户需求的单节点计算密度和TCO节省并没有账面数字上写得那么高。比如现在花100块钱办的事,用了你的产品花10块钱就解决了,一般来说有一个相对比较合理的降比已经足够了。他想要的是什么呢?2B(To-Business)的方案,尤其是数据中心这种加速计算,这其中有一个公式是客户的净收益减去迁移成本才是最终的净收益。比如说,这个热水器特别好,但是我得把你家拆了,把你厨房卫生间打得稀烂,你还得重新装修,计算下来省的东西还不如我多花的部分,你可能就不这么选择了。但是如果我能一尘不染的就能把更好的引擎集成进去,对客户来说才是真正有落地价值的东西。
3.4 在图像搜索时将webp作为缩略图
WebP是反复提到由谷歌推出的一种格式,主要应用在安卓和Chrome浏览器生态。
3.5 jpeg2 webp性能基准
Benchmark我们一般控制在3倍左右,因为同行内有个说法,单做吞吐不是一个很好的生意。想想看,你给他100台机器减成10台,且不说网络和存储允不允许你做到这么高,即便真正能做到的话,怎么收费?互联网大厂也不是不知道卡的价格,你一下收巨额的方案费,基本上是不太可行的。所以真实落地的时候能有3倍就非常好了,你也得一点收益,客户这个集群还不能缩太少,互联网布服务器肯定是按着冗余布的。
我举个例子,如果真的10台机器减成1台了,还有没有冗余,灾备会有很大问题的。举个非常具体的例子:如果他有50台机器掉了1台,性能损失1/50,根据运维标准,也许今晚还能睡个觉,不用连夜去处理故障。可是减到5台机器掉1台,性能降低20%,这就是另一个级别的运维失误了,今晚就得连夜工作。虽然加速计算有一些就技术论技术的Benchmark,但是真正进到商业里会有一些非技术的制约,这都会造成一些落地上的特别考虑。
3.6 Appleannounced to use HEIF
HELF是IOS12之后苹果才推出来的,苹果是很主流的一个移动平台,这个格式一出来,数据中心各个大的app马上就涌现出很多HELF流量进来,所以才会发现它的处理比JPEG消耗更多的计算这个痛点,我们也发现很多app一开始就没有兼容性。比如钉钉也是阿里旗下的,我们同事用苹果手机上传照片在安卓端看不了,只显示个HEIF,那就说明app没有做到转码。我相信如果我们和阿里合作很快他们就有这个方案了。
3.7 JPEG到HEIF转码性能基准
JPEG到HEIF转码性能基准有48倍的吞吐提升,大概延时能降低到软件处理的6%。客户已经在反映说吞吐太大,太大就埋不了几片,有时候要控制,其实卡能放几个是方案上定的。现在内部宁可做高延时也不要做大吞吐。因为反正干掉CPU是很容易的一件事情,哪一个加速方案上,不比CPU秒杀几倍几十倍,这已经不是新闻了,关键是延时需要再做。延时是什么呢?我有一个workload。比如说手机卡顿不想用了,而且一旦用过不卡的就回不去了。所以在2B端也有类似的现象,客户对延时的要求有点类似于,你用过卡的电脑和手机,之后你真的不想用它,那都不是省钱不省钱的问题,是能用不能用的问题。我觉得未来几年,尤其是5G本身就强调低延时。延时是CPU怎么都解决不了的问题,吞吐撑死就是有钱、堆服务器,堆一万台服务器,每一个workload该是多少毫秒还是多少毫秒。这是计算代差的问题,与电器和蒸汽时代的差别一样,不是说靠吞吐堆的。在2013年到2016年间,客户都讲TCU,因为那个时候每个workload,CPU的延时都在可用范围以内,就算性价比,性价比比不过就不用了。今天不一样了,现在有相当一个比例的workload是CPU的延时,这是不可被接受的,因此也没办法说价钱问题。什么是算力的游戏?2个算力的Latency是一样的基础上再比较吞吐和计算密度,如果Latency都不一样,就不能比较密度,因为没有可比性。
3.8 无损压缩
Lepton就是无损压缩,把存储无损下压。这个是比较重要的问题,因为云存储不能篡改用户的数据,就是你什么样子传给我,取回的时候比特是一致的,无损也是我们的产品之一。
3.9 JPEGto Lepton 转码性能基准
JPEG至Lepton都加之后,JPEG转成压缩格式和压缩格式返回有3倍的性能,有时候讲几倍也看卡的数量。就像重型火箭,当时设计有两个方案,第一个是单个的大推力引擎,研发成本非常高;第二个是用捆绑式的,几个小引擎给它捆绑起来,所以在做工程型的东西的时候,很少有极致的偏执狂和强迫症的技术追求,通常是因为成本所导致。当我们选择加速器芯片的时候,是根据workload选取应该使用什么最合适的加速器芯片,XLILNX显然是最合适的。
4. 视频加速解决方案
视频有一部分也是用MPSoC。我觉得7EV芯片代表未来,因为以前异构是主处理器和协处理器作为PC连接的,MPSoC是多核处理器+Soc,可以从XILINX的ACAP上看出趋势,更多的host和加速器连接更紧密而去,而且芯片里有一个VCU,是一个硬核编解码器,它的编码效率非常高,还有可编程逻辑资源,相当于中小规模的FPGA,还有ARM的core,里面有实时操作系统的core,相对比较全面的。打个比方,如果这个东西再加个TPU就是ACAP了。当然这个说法也不严谨,因为ACAP采用了很多新的互联技术。
我们也有264Encoder的基于U200软核方案,因为云平台目前没有一个上MPSoC计算实力,基本上都是基于纯FPGA的,U200又比较多是渠道导向的研发。很多客户确实需要Video的Workload,但是几个云平台都是U200为主,我们开发了基于U200的编码方案,我们设想的客户他很有可能将来异构计算也分成稳态异构和动态异构。什么叫稳态异构和动态异构,互联网公司都有波峰波谷,相对有一个业务存量,保底的用量是多少,这块是用MPSoC,甚至是ASCII,问题不大。FPGA最适合是弹出来那部分,我可能一天就用几个小时,就高峰时间段用,用完了就退资源。云平台除了AI,很少上ASCII计算加速器就是因为不灵活,我们很多用户一配,华北阿里好几个可用期,万一可用期里没有呢?就是售罄或者是资源调配不过来,ASCII很难几个小时内调配,我们认为存量资源有可能用ASCII,但是弹出来的资源还得用可编程资源,FPGA就像CPU一样是最符合资源池概念和完全可编程资源池概念的计算资源,这就是FPGA能经久不息的原因, 那为什么CPU还有这么大市场?CPU的极致性能是最弱的,但是可承用性、可编程性是最好的。所以可以给下一代异构计算一个启发,我认为将来CPU会成为功能产生平台。
今天大家编程不可能摆脱CPU,好的想法和好的算法肯定是在CPU上先做原型,也可能是早期原型部署平台,早期小批量,之后再大一点,可能FPGA或者ASCII接棒,继续往下走,最后才可能会实现动态平衡。
当一个算法诞生到渐渐火起来,觉得CPU不够,到最后真正形成它的硬核架构这样一个动荡。新的好的应用好的算法层出不穷,就一浪一浪的出来,FPGA卡这个阶段是相当合适的。我们公司对FPGA是重仓的,根据经济学原理,到达某一个用量,才能到达盈亏平衡。从之前的加密货币可以看出,只有少数几个币种可以走到商业化可行路径。
Transcoding第一部分是7EV的,差不多是7.8倍。
这个是一转三的,推流1080p入,720、540、360出,比较典型的直播场景,是一个4.4倍的性能密度。
这个是软核的,大概有5.1倍。这是一种设计倾向,对于砍腰部还是铲尾,还是砍头部的问题,这个设计倾向相对有点腰部偏长尾,不是完全对标medium,但是我们做出高度稳定高度接口可调用的方案,总会卡到自己的目标群体去。
这个是一些案例了。比较知名的手机互联网公司的云相册,TCU的节省、High performance、High throughput、Latency讲到底是叫用户体验提升。其实加速计算就是两件事:降成本提体验。降成本就是单节点密度,提体验就是降低Latency。不光是降低Latency,还有就是确定性延时波动非常小,10ms总在9.5和10.5之间波动,总在不会出现非常大的波动,这个是QPS的实质。但是load Latency不是非常的完全的load Latency。在图片上还好,有一张load不出来就不看了。Deterministic timing在金融上是非常非常重要的,因为很多金融方案策略是时延和timing有非常紧密联系的。我的策略就是发现100秒之后下一个单,timing错了,导致整个策略就错了,当然这个也是客户发现的。Deterministictiming在FPGA加速计算的另外一个领域有更大的应用,金融方向。
WebP这是个视频网站,但是用在社交平台,也是处理UGC内容,也同样可以观测到这些benefit。
CTAccel Receives Series A Funding Led by Intel Capital (2018-11-28)
more
Hong Kong, November 28, 2018 – CTAccel Limited, a leading company in FPGA-based acceleration technology and solutions, today announced it has received investment in a Series A funding round led by Intel Capital with participation from Ironfire Ventures.
CTAccel will use the investment proceeds to broaden its product portfolio for better and more effective image processing and image analytics solutions development, and to strengthen the company’s global market penetration in North America, Europe and Asia Pacific.
Since 2013, CTAccel’s FPGA experts have been involved in the development of heterogeneous computing solutions for datacenters. The company’s products redefine image processing in datacenters by using patented technology that enables end-to-end solutions that improve performance and energy efficiency by an order of magnitude.
CTAccel solutions are deployed in a wide spectrum of market segments including online-to-offline (“O2O”) services, smartphone cloud applications, cloud storage and online video sites. The company’s FPGA-based accelerator brings high-throughput, low-latency image processing that delivers proven performance improvements while simultaneously reducing costs for customers.
"Our existing and in-development product offerings have positioned CTAccel to be a market leader in FPGA-accelerated solutions," said Dr. Harry Yu, founder and CEO of CTAccel. “This investment, led by Intel Capital, will speed up our new product development and extend our solutions across FPGA-accelerated datacenter computation while supporting our global expansion.”
Anthony Lin, Vice President and Managing Director of Intel Capital International, said:“Our investment in CTAccel supports Intel’s strategy to accelerate the development of the rapidly growing data economy. We look forward to continuing to work with CTAccel to increase the adoption of FPGA-based datacenter solutions in China and global markets.”
The Series A funding round extends the relationship between CTAccel and Intel and aims to leverage the extensive experience of CTAccel in hardware-software co-design, heterogeneous computing and software engineering to deliver high-performance, high-value solutions to customers.
About CTAccel Limited
CTAccel was founded in March 2016 by a team of FPGA experts from ClusterTech Limited. The team has been involved in the development of FPGA-based heterogeneous computing solutions for the datacenter since 2013. The company’s patented CTAccel Image Processing (CIP) accelerator improves the performance and efficiency of image processing in datacenters by offloading computation from CPU to FPGA. Learn more about CTAccel by visiting www.ct-accel.com.
About Intel Capital
Intel Capital invests in innovative startups targeting artificial intelligence, autonomous vehicles, datacenter and cloud, 5G, next-generation compute and a wide range of other disruptive technologies. Since 1991, Intel Capital has invested US $12.3 billion in 1,544 companies worldwide, and more than 660 portfolio companies have gone public or participated in a merger. Intel Capital curates thousands of business development introductions each year between its portfolio companies and the Global 2000. For more information on what makes Intel Capital one of the world’s most powerful venture capital firms, visit www.intelcapital.com or follow @Intelcapital.
CTAccel To Deliver NGCodec Video Encoding Solutions as Exclusive Agent in China (2018-07-06)
more
NGCodec, NGCodec, a pioneer in cloud video processing, is partnering with Chinese FPGA acceleration specialist CTAccel to deliver FPGA-based video encoding solutions in China. CTAccel will be the exclusive agent for NGcodec products in both mainland China and Hong Kong.
CTAccel will offer the next generation NGCodec video encoder, the RealityCodec™ H.265/HEVC encoder, using FPGA hardware acceleration for low latency while maximizing video quality, meeting the highest broadcasting standards.
“Opportunities for cloud video encoding are expanding, but traditional software approaches need massive, expensive CPU resources and cannot deliver the video quality or latency required by emerging applications,” said Oliver Gunasekara, Chief Executive Officer and Founder, NGCodec. “CTAccel is experienced and respected in FPGA acceleration and we look forward to offering state of the art video encoding solutions to customers in China through CTAccel”
CTAccel has offered image processing solutions employing a high-throughput, low latency FPGA-based accelerator with proven value among customers in China
“CTAccel is very experienced in FPGA-based acceleration. Being NGcodec’s exclusive agent in China, we are making both party’s solutions more complete. This partnership allows both CTAccel and NGcodec to explore new ways to offer our products to a wide range of customers around the world.” says Harry Yu, CEO and Co-Founder of CTAccel.
NGcodec and CTAccel have already collaborated on several projects and are committed to providing the best FPGA-based solutions to customers.
About NGcodec
NGCodec® has been in passionate pursuit of next generation video compression since 2012. With the support of investors including Xilinx, NGCodec’s agile startup team has created Reality Codec™, a compressor-decompressor technology optimized for ultra-low latency, high-quality applications. Headquartered in Sunnyvale, California, NGCodec leverages FPGA acceleration in the Cloud to lower encoding costs by 10x over traditional CPU encoders. Learn more at www.ngcodec.com online. Learn more about NGcodec: https://ngcodec.com/
About CTAccel
CTAccel Ltd. was founded in March 2016 by a team of FPGA experts from Clustertech Ltd. The company has been involved in the development of FPGA based heterogeneous computing solution for the datacenter since 2013. The company’s patented CTAccel Image Processor (CIP) improves the performance and efficiency of image processing in datacenters. Learn more about CTAccel:http://www.ct-accel.com/home-2/
CTAccel Provides High Performance FPGA-based Image Processing Accelerator on AWS F1 (2018-05-18)
more
CTAccel Image Processor for AWS Cloud(hereinafter referred to briefly as CIP for AWS Cloud) is available as an Amazon Machine Image on the Amazon Web Services Community AMIs. CIP for AWS Cloud is an FPGA-based image processing acceleration solution that can help you greatly improve the performance of image processing by transferring computational work-load from CPU to FPGA.
Application Scenarios
CTAccel provides rich solutions for customers who have image processing requests. And they can be used in many application scenarios, such as JPEG thumbnail, Sharpen, Main color, Watermark, Brightness-Contrast and so on.
Benefits
CIP for AWS Cloud can benefit you by increasing image processing throughput, reducing computational latency and reducing TCO.
➢ Improve the Throughput by 10x
➢ Reduce Latency by 10x
➢ Reduce TCO by 3x
CTAccel Joins Accelize Ecosystem to Make FPGA-Based Image Transcoding Acceleration Available on AccelStore(2018-05-17)
more
Image Transcoding Accelerator from CTAccel Will Be Available on As-Needed Basis for Cloud and Enterprise Applications
Cloud Expo Asia, Hong Kong — May 16, 2018 — CTAccel announced today that it is partnering with Accelize® to make its FPGA-based CTAccel Image Processor (CIP) available on an as-needed basis on the new AccelStore™ marketplace. CIP is a high-performance image processing accelerator that improves server throughput and latency.
“By joining the Accelize ecosystem, we are making our image transcoding expertise available to a broader audience of cloud and enterprise application developers on all the cloud and enterprise platforms supported by the Accelize framework starting with OVH and AWS,” said Ivan Wong, senior product director of CTAccel. “This partnership with Accelize allows us to explore new ways to offer our products to a wider range of customers whether they are Cloud Application developers or looking for on-premise acceleration solutions in a fast, easy and cost-effective way.”
Similar to other accelerators on AccelStore, CIP will leverage the Accelize RESTFul API to enable fast and easy evaluation and deployment in just minutes on any supported platform, starting with Amazon Web Services (AWS) and OVH. The accelerator will also be available on multiple Enterprise FPGA cards for on-premise usage and purchasable with a variety of business models.
“CTAccel has proven the value of its solutions on multiple Cloud Service Providers in Asia, and we are excited to work with them to offer image transcoding acceleration to AccelStore users,” said Stephane Monboisset, vice president of marketing and partnerships for Accelize.
AccelStore is a new, online marketplace of ready-to-use accelerator functions, provided by a growing ecosystem of 3rd party developer companies, that can be seamlessly deployed in high-speed data centers including Amazon Web Services (AWS) and OVH to start, and more to come. Accelize gives IP developers the right framework and support to deploy their FPGA solutions to the Cloud and manages all aspects of distributing and licensing for them. AccelStore makes the online library of FPGA-accelerated functions available to the broad audience of cloud applications developers with easy evaluation, licensing and usage terms.
About Accelize
Accelize, a spinoff of PLDA Group, is a leading provider of Acceleration-as-a-Service, bringing the benefits of FPGA acceleration to cloud and enterprise users. Accelize operates AccelStore, a marketplace of ready-to-use accelerator functions running on FPGA platforms provided by a broad ecosystem of IP providers, design houses and ISV’s. Accelize also develops and maintains unique technologies that ease the development of FPGA accelerator functions and their monetization to benefit the entire FPGA supply chain. Its accelerator functions operate on multiple FPGA platforms in Public Cloud, Private Cloud and on premise. For more information, visit www.accelize.com.
CTAccel CIP 产品已经上线BAT三大云平台(2017-11-24)
more
联捷计算科技(CTAccel)丶阿里云共建FPGA异构计算加速云平台生态(2017-10-20)
more
一年一度的杭州云栖大会(2017) 刚在10月11日-10月14日在西湖区云栖小镇举办。全球各地云计算丶大数据丶人工智能的顶尖企业Intel丶Xilinx丶Nvidia丶AMD均汇集于此, 与阿里云联合发布新一代的异构计算加速云平台,聚焦全球高性能云计算丶大数据应用和人工智能创新领域最前沿的技术。联捷计算科技(CTAccel)一直致力于基于FPGA的图片处理与分析加速计算技术的研发,核心技术已获得美国专利,承蒙阿里云的邀请,作为阿里云异构计算加速云平台的生态共建合作企业之一出席会议.
(左三: 联捷计算科技CTAccel CEO俞海乐博士)
会议上CTAccel CEO俞海乐博士表达了对阿里FPGA云服务平台的高度认同, 简述了FPGA云服务可有效降低FPGA加速方案的研发环境搭建的时间, 同时解决FPGA加速方案在售前与部署面对的各种困难及阻力, 例如各种硬件合规与运维准入标准等问题, 让加速方案团队能专注于产品打磨与核心算法的开发,意义十分重大.
CTAccel团队经过和阿里云的伙伴的共同努力,将CTAccel图片处理加速解方案移植入阿里云FPGA服务,并即将把该方案输出给客户,此举是国内外在FPGA云服务化的开创性成果,并代表了FPGA与云计算结合的未来发展趋势。
CTAccel在FPGA加速处理上有丰富经验, 研发人员拥有从国内外知名大学获得的理工科硕士学位和丰富的研发经验。经过历时三年的探索,团队的图片加速处理技术已经实现优于传统CPU七倍的计算性能,并获得美国专利公审。CTAccel 的图片加速处理产品CIP在图像处理计算中,可降低延时三倍,提高并发度三至七倍,降低TCO 三倍。CIP提供了目前世界上最强的图片处理能力,重新定义了数据中心图片处理计算模式,为互联网图片计算提供最高效的解决方案。
SC16: FPGA 计算时代来临,联捷计算科技加速技术场内亮点(2016-11-28)
more
在美国犹他州盐湖城举办的世界超算大会SC16已于11月18号圆满结束。FPGA届两大巨头INTEL与Xilinx在此大会上都展示了他们最新的FPGA加速技术,专用于提升高性能计算与互联网数据中心的性能。此次Intel展示的Arria 10 FPGA有浮点处理能力,运行AlexNet——一种卷积神经网络(CNN)时可达到1000FPS的处理速度。与此同时,Xilinx研发的Kintex Ultrascale FPGA在进行定点版本的AlexNet推断时可达到1800FPS的性能。值得注意的是,二者设计神经网络时皆运用了OpenCL,这无疑给市场打了剂强心针,这意味着使用高级编程语言编FPGA成为现实。在今后,FPGA开发者将缩短研发周期,令人诟病的漫长开发周期将成为过去式。而Xilinx的OpenCL工具SDAccel将在今年年底正式公布。联捷科技(CTAccel)是中国第一批赛灵思官方认证的SDAccel设计服务提供商。
图1:联捷科技的老朋友-Xilinx SDAccel产品总监Vinay与联捷科技技术总监促膝长谈
浪潮(Inspur)也在展会上发布了基于Intel的FPGA加速器。可以预见的是,市场上越来越多的服务器供应商将加入到为各自服务器开发FPGA加速器的大军。值得一提的是,CTAccel的FPGA加速解决方案愈发强大,拥有多种功能与超高性能。现在他们的FPGA加速器已经支持WebP——一种高效率小体积的互联网图片格式。在今年的SC16展会上,CTAccel演示了基于FPGA的JPEG转WebP的流程,比传统处理器快五倍。近年来,CTAccel也在研发基于CNN的图片分析技术,展出的联捷科技的FPGA加速方案可将基于神经网络的人脸识别速度提升两倍。
图2:IBM Power架構专家与联捷科技技术总监深入讨论联捷科技的平台技术
今年的世界超算大会让我们感受到FPGA正逐渐成为主流计算设备。从2013年开始研发FPGA图像加速技术的CTAccel正步入产品成熟期,他们性能强大的FPGA图像处理方案必将为图像界带来新的亮点,成果拭目以待。
2023年版Top 50 国产处理器厂商调研与市场分析报告涵盖CPU、GPU、FPGA、DSP和多媒体SoC等处理器芯片类别,分别从全球和中国市场趋势、处理器技术发展,以及国产处理器芯片行业现状的方面,对国际巨头和50家国产处理器厂商进行了全面而详尽的分析。
从以上表格数据可以看出,国产CPU厂商共有13家,除了龙科中心和海光信息等传统CPU公司外,最近几年还出现了以Arm架构为主的服务器CPU初创公司,比如鸿钧微、此芯科技和遇贤微电子等;GPU芯片厂商共有11家,除了景嘉微等以图形渲染为主的CPU芯片供应商外,还有多家以GPGPU和AI加速为主要应用的GPU初创公司;FPGA公司也有11家;DSP芯片厂商有5家,大都以音频信号处理为主;以视频处理为主的多媒体SoC芯片厂商有10家,涉及应用处理器、视频处理器、网络安全处理器等。
联捷计算科技再度入选TOP50国产处理器芯片厂商
来源:电子工程专辑
参考原文:2023年TOP50 国产处理器(CPU/GPU/FPGA/DSP/多媒体SoC)厂商调研与市场分析报告
more
用FPGA加速数据中心图像视频处理,「联捷科技」完成A+轮融资(2020-04-22)
more
速度更快、成本更低、效率更高。
36氪获悉,FPGA加速技术与解决方案提供商「联捷科技 (CTAccel Limited) 」宣布完成A+轮融资,投资方为君盛投资,青桐资本为本轮的投资顾问。本轮资金将主要用于产品的进一步研发及市场拓展。
联捷科技成立于2016年, 专注于研发基于FPGA的数据中心图像视频等多媒体异构计算解决方案,这项技术重新定义了数据中心图像处理的计算模式,可以提供端到端解决方案,把性能和效能提升一个数量级,已获得美国及中国专利。目前,联捷科技高吞吐、低时延的FPGA图像处理加速技术解决方案目前已经广泛应用到包括O2O服务、智能手机云应用、云存储和在线视频网站细分市场中。
联捷科技创始人兼首席执行官俞海乐告诉36氪,公司的解决方案主要针对的数据中心图片和视频计算的两个痛点,一是计算延时高;二是计算成本高。
移动互联网的不断发展,人人都可以拍视频、传照片,人们对图片、视频的质量要求也越来越高。海量的内容和多样的功能导致视频、图片计算在数据中心需求不断增加。
“尤其是最近两年手机摄像头的分辨率也不断提高,这一维度也增加了整体后台计算的压力。而更高压缩率的编码算法,也对算力提出了更高的要求。互联网公司数据中心的计算量越来越大,计算成本高企难下。”俞海乐说,“为了给用户更流畅的体验,同样也要求数据中心计算速度更快,处理延迟更低。CPU性能增长乏力,让依赖纯软件计算满足高复杂度计算的实时性变得越来越不现实。”
针对这些痛点和需求,联捷科技提供了基于FPGA的异构计算解决方案。简单来说,其核心就是将数据中心需要执行的各类任务(软件、算法代码等)进行分析、拆解、重组,再分给各异构计算资源进行计算,以达到尽可能充分利用各种计算资源,缩短任务执行时间,提升数据中心整体效率的目的。
产品形态上,这套方案主要包括FPGA硬件加速器和软件包两个部分,软件包部分硬件驱动软件、SDK包以及部分应用层软件。部署上,公有云和私有服务器均能部署,用户可以选择购买硬件及软件包产品,也可选择纯软件方案,以“硬件费用+软件订阅费”进行收费。加速器支持ImageMagick、OpenCV、FFmpeg多种主流开源软件,用户几乎不需改动原有系统程序即可使用。同时,加速器还可以通过远程升级的方式进行软件化功能定义,可根据具体使用场景调整加速器功能。
产品性能方面,联捷科技的方案对不同类型任务,如视频编解码、云相册的缩略图生成等,以及客户数据中心的整体系统环境,如网络和宿主机配置,加速及提升效果都有所不同。俞海乐介绍,用户在运行加速器之后,可以看到单机处理能力和单任务计算延迟两个关键指标的变化,“效果都是可量化、可观测的。以某客户的实际应用情况为例,运行我们的方案18个月以来,单机处理能力提升了两倍,计算延时降低,总成本至少降低了50%。”
当下,随着AI、5G、IoT等新技术和新应用的快速发展,算力需求大幅提升。以GPU、FGPA和ASIC芯片为主的专用加速器的应用不断提升。除了图像视频处理领域,联捷科技的设计方法同样能用到其他数据中心计算如AI计算、金融计算,基因测序等。“我们的核心能力是对软件算法的识别、分析、重组的能力,并不只针对某一特定领域的计算。但To B业务的落地,尤其是数据中心的底层创新产品的落地,是非常困难且长周期的一件事,需要的也不仅仅是技术优势。因此在一个细分赛道先获得成功是务实之举,也不宜盲目扩张。”
团队方面,联捷科技目前共有近30名全职员工,核心人员都拥有国内外知名大学的理工科硕博学位和丰富的研发经验,具备算法研究、算法移植、FPGA工程、系统调优、软件整合等多方面异构计算的综合技术能力。
据悉,联捷科技曾于2018年11月获得英特尔投资领投、信智资本跟投的A轮融资。
关于投资
君盛投资执行事务合伙人李昊表示:君盛投资一直围绕企业数字化进行布局,背后基础设施是通信半导体和信息技术,应用场景包括了企业服务和金融科技等。未来相当长一段时间,我们需要处理的数据量会持续快速增加。相应的,无论是数据中心还是边缘端的计算场景,计算体系将会被重构。除了GPU,FPGA、ASIC等异构计算架构会更加丰富地被使用在特定场景中,传统计算架构的演化趋势越来越明显。FPGA加速与解决方案提供的壁垒很高,也是上游通用芯片和下游客户需求连接的重要环节。结合具体场景有区分,但又有相对通用性的服务交付,使得团队业务高效扩张成为可能。公司团队对硬件架构、软件算法、应用场景都有深刻理解,实现了一系列头部客户的认可。我们相信,围绕图片、视频、数据等进行路径延展,联捷科技将推动行业的快速发展。
从JPEG WebP到HEIF FPGA实时图片转码架构 (2020-02-19)
more
本次演讲讨论基于现实中数据中心所有到一般性问题,尤其是数据处理的困境。而联捷计算科技(CTAccel)针对基于FPGA的异构计算的特点,与赛灵思配合提出发挥FPGA特长的多媒体解决方案,并以应用接口的方式提供给用户。
文 / 俞海乐
整理 / LiveVideoStack
转自:https://mp.weixin.qq.com/s/zPpFBCsK5Wx0hTfOyYnD9w
1. 简介
大家好,我是CTAccel Limited创始人兼CEO俞海乐,首先是非常感谢受赛灵思邀请来参加LiveVideoStackCon音视频技术大会,我们的公司叫做联捷计算科技,目前在深圳主要是做图片和视频的加速计算,尤其是针对云端的加速计算。
联捷计算科技公司成立于2016年,但是我们做这个事情源起于2013年,那个时候中国还没有多少人用FPGA加速。当时中国最早做FPGA加速的是百度,后来腾讯也开始做FPGA加速。那个时候我们就跟他们做了一个POC,把图片加速里面的一个function加速了40倍,然后去做黑盒测试/ABtest,发现比较明显的性能提升。我们就沿着这个项目做下来,后来就有了今天的这个公司。我们团队的成长伴随着中国FPGA异构产业的发展,到目前为止共有35人,且都在深圳,成员主要来自于港科大、香港中文大学、复旦、中科院,目前专注于做图片和视频的加速解决方案。
1.1 做FPGA加速的原因
数据的爆炸和算例的停滞增长带来的供需不平衡,是这个大环境下我们要做加速的原因。
2. 加速解决方案
联捷计算科技做TCO Reduction、Enhanced Throughput和Latency Reduction。前两个大家可以认为是一回事,TCO的降低来自于单节点计算密度提升,当我们提到单节点密度提升,通常对应的是TCO。另外一个商业化的途径就是Latency Reduction。举个例子,比如说我做前面的加速,以前运矿车是5吨重,一小时可以往返一次。现在我发明了500吨重的载重卡车,也是一小时可以载500吨,这样吞吐就提升了。但是人家还有一部分Latency的要求,运1千克的货,要求1分钟就跑回来,这个就是坐法拉利,两种不同的变现模式,做过加速计算的人都懂。上述应用的场景主要是互联网,针对云存储、社交、电商、短视频等。
大家听到这些,其实主要由UGC产生的。当我们2013年做加速的POC的时候,尤其是图像的编解码和缩放,我自己都觉得没什么意思,因为我平时自己也拍一些照片,玩摄影。我也在我自己电脑上存了几千上万张照片,经常做转码和缩放,但是没有任何被加速的需求。但是后来才知道,原来是一个workload,哪怕是几百毫秒,几十毫秒,也架不住请求多。举个例子,一个单机500个QPS,如果不经过FPGA加速已经不算低了,但是一百万个QPS的时候就需要2000台服务器,这已经是非常大的体量了。刚才阿里的同学说他们才用几千块FPGA就已经是中国最大的workload了。所以说关键是架不住并发度,而并发度的出现,其实就是受移动互联网的红利。
拍照片拍视频比以往任何时候都便捷,因为有4G的网络,分享也更加快捷。所以我们会看到供需的GAP进一步加大,这些都来自于三点。第一点是5G时代新的杀手应用还没有产生;第二点是新的交互,尤其视觉交互分辨率是越来越大,因为今天局限在1080p和2k这个层面是受手机屏幕的限制——只有5到6度的视场,但是在沉浸式的设备里呢,通常有至少60度以上,这对分辨率的需求也将越来越大;还有就是编解码的计算复杂度,视频和图片每一代都比上一代有更大的计算复杂度,计算复杂度的增长远远大过单节点算例的增长。
2.1 System Stack
System Stack比较偏技术一些。我们的客户也是解耦在应用的加速接口这一层,应用软件包括常见的图片和视频的处理框架软件。下面是Service & Driver ,再下面是加速引擎——AFU(AcceleratorFunction Unit),这里通常是我们实现在FPGA里的东西。无论是图片还是视频,基本上transcoding都避不开三个step,Decode 、像素级的处理,以及一些Encode。
3. 图像加速解决方案
联捷计算科技目前的产品矩阵包含了最主流的两种:JPEG和WebP。我们目前也支持苹果刚发布的HEIF。听说安卓手机在明年也会支持默认的HEIF存储格式。现在拍一张4兆的照片,默认就是2兆,但是会给互联网网站带来压力。因为以前只Decode JPEG,现在要Decode HELF,那么HELF由于单文件size更小,在固定带宽的情况下,上传到单个server数量更多。server计算密度的要求比之前JPEG解码大很多。最后是一个Lepton比较邪门的格式,是Dropbox发明的,主要用于JPEG的无损压缩。目前来说主要是Dropbox在用,其他的云存储厂家对这个方案也有一些兴趣,都处在评估阶段。
3.1 JPEG缩略图客户基于CPU的现有解决方案
这是非常古老的workload,有互联网那天起就有这种workload。最开始主要用ImageMagick,但是因为计算视觉的workload越来越多。客户慢慢转向OpenCV。这其中有个小故事,互联网的早期——Facebook网站上线几年之内,都没有允许用户上传图片,这在今天很难想象,Facebook一开始不允许上传图片,后来只能上传头像,结果Facebook一开feature(图片上传),服务器就挂,因为做不了转码。
今天像Facebook这种主流一线厂家,已经成为异构计算新的定义者。大家关注新闻的话,现在Facebook定义了3款加速芯片,分别针对视频、AI推理和AI训练。所以我们可以看到Facebook是互联网移动社交的霸主,掌握全世界超过一半的workload,那么它走向异构,就说明确实CPO做不过来。
3.2 挑战:缩短图像加载时间
在GitHub社区,牵扯到Thumbnailgeneration,不时的看到用户抱怨loading的速度太慢,这也是我们做加速的原因之一。
3.3 JPEG 缩略图性能基准
整体而言,我们给客户实现的是上图所示的workload,大概是5倍的吞吐、12%的延时、CPU利用率从100%降低到29%。不同的厂家关于这种阐述有不一样的理解,主要是看怎么去理解整个系统。当落地方案的时候,我们发现有一个问题就是一个新技术进入传统业务场景的时候,一个单点性能的急速提升,比如说提升十倍甚至几十倍,带来的是很快在其他节点产生新的系统痛点和系统瓶颈。真正讲商业落地,你会发现客户需求的单节点计算密度和TCO节省并没有账面数字上写得那么高。比如现在花100块钱办的事,用了你的产品花10块钱就解决了,一般来说有一个相对比较合理的降比已经足够了。他想要的是什么呢?2B(To-Business)的方案,尤其是数据中心这种加速计算,这其中有一个公式是客户的净收益减去迁移成本才是最终的净收益。比如说,这个热水器特别好,但是我得把你家拆了,把你厨房卫生间打得稀烂,你还得重新装修,计算下来省的东西还不如我多花的部分,你可能就不这么选择了。但是如果我能一尘不染的就能把更好的引擎集成进去,对客户来说才是真正有落地价值的东西。
3.4 在图像搜索时将webp作为缩略图
WebP是反复提到由谷歌推出的一种格式,主要应用在安卓和Chrome浏览器生态。
3.5 jpeg2 webp性能基准
Benchmark我们一般控制在3倍左右,因为同行内有个说法,单做吞吐不是一个很好的生意。想想看,你给他100台机器减成10台,且不说网络和存储允不允许你做到这么高,即便真正能做到的话,怎么收费?互联网大厂也不是不知道卡的价格,你一下收巨额的方案费,基本上是不太可行的。所以真实落地的时候能有3倍就非常好了,你也得一点收益,客户这个集群还不能缩太少,互联网布服务器肯定是按着冗余布的。
我举个例子,如果真的10台机器减成1台了,还有没有冗余,灾备会有很大问题的。举个非常具体的例子:如果他有50台机器掉了1台,性能损失1/50,根据运维标准,也许今晚还能睡个觉,不用连夜去处理故障。可是减到5台机器掉1台,性能降低20%,这就是另一个级别的运维失误了,今晚就得连夜工作。虽然加速计算有一些就技术论技术的Benchmark,但是真正进到商业里会有一些非技术的制约,这都会造成一些落地上的特别考虑。
3.6 Appleannounced to use HEIF
HELF是IOS12之后苹果才推出来的,苹果是很主流的一个移动平台,这个格式一出来,数据中心各个大的app马上就涌现出很多HELF流量进来,所以才会发现它的处理比JPEG消耗更多的计算这个痛点,我们也发现很多app一开始就没有兼容性。比如钉钉也是阿里旗下的,我们同事用苹果手机上传照片在安卓端看不了,只显示个HEIF,那就说明app没有做到转码。我相信如果我们和阿里合作很快他们就有这个方案了。
3.7 JPEG到HEIF转码性能基准
JPEG到HEIF转码性能基准有48倍的吞吐提升,大概延时能降低到软件处理的6%。客户已经在反映说吞吐太大,太大就埋不了几片,有时候要控制,其实卡能放几个是方案上定的。现在内部宁可做高延时也不要做大吞吐。因为反正干掉CPU是很容易的一件事情,哪一个加速方案上,不比CPU秒杀几倍几十倍,这已经不是新闻了,关键是延时需要再做。延时是什么呢?我有一个workload。比如说手机卡顿不想用了,而且一旦用过不卡的就回不去了。所以在2B端也有类似的现象,客户对延时的要求有点类似于,你用过卡的电脑和手机,之后你真的不想用它,那都不是省钱不省钱的问题,是能用不能用的问题。我觉得未来几年,尤其是5G本身就强调低延时。延时是CPU怎么都解决不了的问题,吞吐撑死就是有钱、堆服务器,堆一万台服务器,每一个workload该是多少毫秒还是多少毫秒。这是计算代差的问题,与电器和蒸汽时代的差别一样,不是说靠吞吐堆的。在2013年到2016年间,客户都讲TCU,因为那个时候每个workload,CPU的延时都在可用范围以内,就算性价比,性价比比不过就不用了。今天不一样了,现在有相当一个比例的workload是CPU的延时,这是不可被接受的,因此也没办法说价钱问题。什么是算力的游戏?2个算力的Latency是一样的基础上再比较吞吐和计算密度,如果Latency都不一样,就不能比较密度,因为没有可比性。
3.8 无损压缩
Lepton就是无损压缩,把存储无损下压。这个是比较重要的问题,因为云存储不能篡改用户的数据,就是你什么样子传给我,取回的时候比特是一致的,无损也是我们的产品之一。
3.9 JPEGto Lepton 转码性能基准
JPEG至Lepton都加之后,JPEG转成压缩格式和压缩格式返回有3倍的性能,有时候讲几倍也看卡的数量。就像重型火箭,当时设计有两个方案,第一个是单个的大推力引擎,研发成本非常高;第二个是用捆绑式的,几个小引擎给它捆绑起来,所以在做工程型的东西的时候,很少有极致的偏执狂和强迫症的技术追求,通常是因为成本所导致。当我们选择加速器芯片的时候,是根据workload选取应该使用什么最合适的加速器芯片,XLILNX显然是最合适的。
4. 视频加速解决方案
视频有一部分也是用MPSoC。我觉得7EV芯片代表未来,因为以前异构是主处理器和协处理器作为PC连接的,MPSoC是多核处理器+Soc,可以从XILINX的ACAP上看出趋势,更多的host和加速器连接更紧密而去,而且芯片里有一个VCU,是一个硬核编解码器,它的编码效率非常高,还有可编程逻辑资源,相当于中小规模的FPGA,还有ARM的core,里面有实时操作系统的core,相对比较全面的。打个比方,如果这个东西再加个TPU就是ACAP了。当然这个说法也不严谨,因为ACAP采用了很多新的互联技术。
我们也有264Encoder的基于U200软核方案,因为云平台目前没有一个上MPSoC计算实力,基本上都是基于纯FPGA的,U200又比较多是渠道导向的研发。很多客户确实需要Video的Workload,但是几个云平台都是U200为主,我们开发了基于U200的编码方案,我们设想的客户他很有可能将来异构计算也分成稳态异构和动态异构。什么叫稳态异构和动态异构,互联网公司都有波峰波谷,相对有一个业务存量,保底的用量是多少,这块是用MPSoC,甚至是ASCII,问题不大。FPGA最适合是弹出来那部分,我可能一天就用几个小时,就高峰时间段用,用完了就退资源。云平台除了AI,很少上ASCII计算加速器就是因为不灵活,我们很多用户一配,华北阿里好几个可用期,万一可用期里没有呢?就是售罄或者是资源调配不过来,ASCII很难几个小时内调配,我们认为存量资源有可能用ASCII,但是弹出来的资源还得用可编程资源,FPGA就像CPU一样是最符合资源池概念和完全可编程资源池概念的计算资源,这就是FPGA能经久不息的原因, 那为什么CPU还有这么大市场?CPU的极致性能是最弱的,但是可承用性、可编程性是最好的。所以可以给下一代异构计算一个启发,我认为将来CPU会成为功能产生平台。
今天大家编程不可能摆脱CPU,好的想法和好的算法肯定是在CPU上先做原型,也可能是早期原型部署平台,早期小批量,之后再大一点,可能FPGA或者ASCII接棒,继续往下走,最后才可能会实现动态平衡。
当一个算法诞生到渐渐火起来,觉得CPU不够,到最后真正形成它的硬核架构这样一个动荡。新的好的应用好的算法层出不穷,就一浪一浪的出来,FPGA卡这个阶段是相当合适的。我们公司对FPGA是重仓的,根据经济学原理,到达某一个用量,才能到达盈亏平衡。从之前的加密货币可以看出,只有少数几个币种可以走到商业化可行路径。
Transcoding第一部分是7EV的,差不多是7.8倍。
这个是一转三的,推流1080p入,720、540、360出,比较典型的直播场景,是一个4.4倍的性能密度。
这个是软核的,大概有5.1倍。这是一种设计倾向,对于砍腰部还是铲尾,还是砍头部的问题,这个设计倾向相对有点腰部偏长尾,不是完全对标medium,但是我们做出高度稳定高度接口可调用的方案,总会卡到自己的目标群体去。
这个是一些案例了。比较知名的手机互联网公司的云相册,TCU的节省、High performance、High throughput、Latency讲到底是叫用户体验提升。其实加速计算就是两件事:降成本提体验。降成本就是单节点密度,提体验就是降低Latency。不光是降低Latency,还有就是确定性延时波动非常小,10ms总在9.5和10.5之间波动,总在不会出现非常大的波动,这个是QPS的实质。但是load Latency不是非常的完全的load Latency。在图片上还好,有一张load不出来就不看了。Deterministic timing在金融上是非常非常重要的,因为很多金融方案策略是时延和timing有非常紧密联系的。我的策略就是发现100秒之后下一个单,timing错了,导致整个策略就错了,当然这个也是客户发现的。Deterministictiming在FPGA加速计算的另外一个领域有更大的应用,金融方向。
WebP这是个视频网站,但是用在社交平台,也是处理UGC内容,也同样可以观测到这些benefit。
CTAccel Receives Series A Funding Led by Intel Capital (2018-11-28)
more
Hong Kong, November 28, 2018 – CTAccel Limited, a leading company in FPGA-based acceleration technology and solutions, today announced it has received investment in a Series A funding round led by Intel Capital with participation from Ironfire Ventures.
CTAccel will use the investment proceeds to broaden its product portfolio for better and more effective image processing and image analytics solutions development, and to strengthen the company’s global market penetration in North America, Europe and Asia Pacific.
Since 2013, CTAccel’s FPGA experts have been involved in the development of heterogeneous computing solutions for datacenters. The company’s products redefine image processing in datacenters by using patented technology that enables end-to-end solutions that improve performance and energy efficiency by an order of magnitude.
CTAccel solutions are deployed in a wide spectrum of market segments including online-to-offline (“O2O”) services, smartphone cloud applications, cloud storage and online video sites. The company’s FPGA-based accelerator brings high-throughput, low-latency image processing that delivers proven performance improvements while simultaneously reducing costs for customers.
"Our existing and in-development product offerings have positioned CTAccel to be a market leader in FPGA-accelerated solutions," said Dr. Harry Yu, founder and CEO of CTAccel. “This investment, led by Intel Capital, will speed up our new product development and extend our solutions across FPGA-accelerated datacenter computation while supporting our global expansion.”
Anthony Lin, Vice President and Managing Director of Intel Capital International, said:“Our investment in CTAccel supports Intel’s strategy to accelerate the development of the rapidly growing data economy. We look forward to continuing to work with CTAccel to increase the adoption of FPGA-based datacenter solutions in China and global markets.”
The Series A funding round extends the relationship between CTAccel and Intel and aims to leverage the extensive experience of CTAccel in hardware-software co-design, heterogeneous computing and software engineering to deliver high-performance, high-value solutions to customers.
About CTAccel Limited
CTAccel was founded in March 2016 by a team of FPGA experts from ClusterTech Limited. The team has been involved in the development of FPGA-based heterogeneous computing solutions for the datacenter since 2013. The company’s patented CTAccel Image Processing (CIP) accelerator improves the performance and efficiency of image processing in datacenters by offloading computation from CPU to FPGA. Learn more about CTAccel by visiting www.ct-accel.com.
About Intel Capital
Intel Capital invests in innovative startups targeting artificial intelligence, autonomous vehicles, datacenter and cloud, 5G, next-generation compute and a wide range of other disruptive technologies. Since 1991, Intel Capital has invested US $12.3 billion in 1,544 companies worldwide, and more than 660 portfolio companies have gone public or participated in a merger. Intel Capital curates thousands of business development introductions each year between its portfolio companies and the Global 2000. For more information on what makes Intel Capital one of the world’s most powerful venture capital firms, visit www.intelcapital.com or follow @Intelcapital.
CTAccel To Deliver NGCodec Video Encoding Solutions as Exclusive Agent in China (2018-07-06)
more
NGCodec, NGCodec, a pioneer in cloud video processing, is partnering with Chinese FPGA acceleration specialist CTAccel to deliver FPGA-based video encoding solutions in China. CTAccel will be the exclusive agent for NGcodec products in both mainland China and Hong Kong.
CTAccel will offer the next generation NGCodec video encoder, the RealityCodec™ H.265/HEVC encoder, using FPGA hardware acceleration for low latency while maximizing video quality, meeting the highest broadcasting standards.
“Opportunities for cloud video encoding are expanding, but traditional software approaches need massive, expensive CPU resources and cannot deliver the video quality or latency required by emerging applications,” said Oliver Gunasekara, Chief Executive Officer and Founder, NGCodec. “CTAccel is experienced and respected in FPGA acceleration and we look forward to offering state of the art video encoding solutions to customers in China through CTAccel”
CTAccel has offered image processing solutions employing a high-throughput, low latency FPGA-based accelerator with proven value among customers in China
“CTAccel is very experienced in FPGA-based acceleration. Being NGcodec’s exclusive agent in China, we are making both party’s solutions more complete. This partnership allows both CTAccel and NGcodec to explore new ways to offer our products to a wide range of customers around the world.” says Harry Yu, CEO and Co-Founder of CTAccel.
NGcodec and CTAccel have already collaborated on several projects and are committed to providing the best FPGA-based solutions to customers.
About NGcodec
NGCodec® has been in passionate pursuit of next generation video compression since 2012. With the support of investors including Xilinx, NGCodec’s agile startup team has created Reality Codec™, a compressor-decompressor technology optimized for ultra-low latency, high-quality applications. Headquartered in Sunnyvale, California, NGCodec leverages FPGA acceleration in the Cloud to lower encoding costs by 10x over traditional CPU encoders. Learn more at www.ngcodec.com online. Learn more about NGcodec: https://ngcodec.com/
About CTAccel
CTAccel Ltd. was founded in March 2016 by a team of FPGA experts from Clustertech Ltd. The company has been involved in the development of FPGA based heterogeneous computing solution for the datacenter since 2013. The company’s patented CTAccel Image Processor (CIP) improves the performance and efficiency of image processing in datacenters. Learn more about CTAccel:http://www.ct-accel.com/home-2/
CTAccel Provides High Performance FPGA-based Image Processing Accelerator on AWS F1 (2018-05-18)
more
CTAccel Image Processor for AWS Cloud(hereinafter referred to briefly as CIP for AWS Cloud) is available as an Amazon Machine Image on the Amazon Web Services Community AMIs. CIP for AWS Cloud is an FPGA-based image processing acceleration solution that can help you greatly improve the performance of image processing by transferring computational work-load from CPU to FPGA.
Application Scenarios
CTAccel provides rich solutions for customers who have image processing requests. And they can be used in many application scenarios, such as JPEG thumbnail, Sharpen, Main color, Watermark, Brightness-Contrast and so on.
Benefits
CIP for AWS Cloud can benefit you by increasing image processing throughput, reducing computational latency and reducing TCO.
➢ Improve the Throughput by 10x
➢ Reduce Latency by 10x
➢ Reduce TCO by 3x
CTAccel Joins Accelize Ecosystem to Make FPGA-Based Image Transcoding Acceleration Available on AccelStore(2018-05-17)
more
Image Transcoding Accelerator from CTAccel Will Be Available on As-Needed Basis for Cloud and Enterprise Applications
Cloud Expo Asia, Hong Kong — May 16, 2018 — CTAccel announced today that it is partnering with Accelize® to make its FPGA-based CTAccel Image Processor (CIP) available on an as-needed basis on the new AccelStore™ marketplace. CIP is a high-performance image processing accelerator that improves server throughput and latency.
“By joining the Accelize ecosystem, we are making our image transcoding expertise available to a broader audience of cloud and enterprise application developers on all the cloud and enterprise platforms supported by the Accelize framework starting with OVH and AWS,” said Ivan Wong, senior product director of CTAccel. “This partnership with Accelize allows us to explore new ways to offer our products to a wider range of customers whether they are Cloud Application developers or looking for on-premise acceleration solutions in a fast, easy and cost-effective way.”
Similar to other accelerators on AccelStore, CIP will leverage the Accelize RESTFul API to enable fast and easy evaluation and deployment in just minutes on any supported platform, starting with Amazon Web Services (AWS) and OVH. The accelerator will also be available on multiple Enterprise FPGA cards for on-premise usage and purchasable with a variety of business models.
“CTAccel has proven the value of its solutions on multiple Cloud Service Providers in Asia, and we are excited to work with them to offer image transcoding acceleration to AccelStore users,” said Stephane Monboisset, vice president of marketing and partnerships for Accelize.
AccelStore is a new, online marketplace of ready-to-use accelerator functions, provided by a growing ecosystem of 3rd party developer companies, that can be seamlessly deployed in high-speed data centers including Amazon Web Services (AWS) and OVH to start, and more to come. Accelize gives IP developers the right framework and support to deploy their FPGA solutions to the Cloud and manages all aspects of distributing and licensing for them. AccelStore makes the online library of FPGA-accelerated functions available to the broad audience of cloud applications developers with easy evaluation, licensing and usage terms.
About Accelize
Accelize, a spinoff of PLDA Group, is a leading provider of Acceleration-as-a-Service, bringing the benefits of FPGA acceleration to cloud and enterprise users. Accelize operates AccelStore, a marketplace of ready-to-use accelerator functions running on FPGA platforms provided by a broad ecosystem of IP providers, design houses and ISV’s. Accelize also develops and maintains unique technologies that ease the development of FPGA accelerator functions and their monetization to benefit the entire FPGA supply chain. Its accelerator functions operate on multiple FPGA platforms in Public Cloud, Private Cloud and on premise. For more information, visit www.accelize.com.
CTAccel CIP 产品已经上线BAT三大云平台(2017-11-24)
more
联捷计算科技(CTAccel)丶阿里云共建FPGA异构计算加速云平台生态(2017-10-20)
more
一年一度的杭州云栖大会(2017) 刚在10月11日-10月14日在西湖区云栖小镇举办。全球各地云计算丶大数据丶人工智能的顶尖企业Intel丶Xilinx丶Nvidia丶AMD均汇集于此, 与阿里云联合发布新一代的异构计算加速云平台,聚焦全球高性能云计算丶大数据应用和人工智能创新领域最前沿的技术。联捷计算科技(CTAccel)一直致力于基于FPGA的图片处理与分析加速计算技术的研发,核心技术已获得美国专利,承蒙阿里云的邀请,作为阿里云异构计算加速云平台的生态共建合作企业之一出席会议.
(左三: 联捷计算科技CTAccel CEO俞海乐博士)
会议上CTAccel CEO俞海乐博士表达了对阿里FPGA云服务平台的高度认同, 简述了FPGA云服务可有效降低FPGA加速方案的研发环境搭建的时间, 同时解决FPGA加速方案在售前与部署面对的各种困难及阻力, 例如各种硬件合规与运维准入标准等问题, 让加速方案团队能专注于产品打磨与核心算法的开发,意义十分重大.
CTAccel团队经过和阿里云的伙伴的共同努力,将CTAccel图片处理加速解方案移植入阿里云FPGA服务,并即将把该方案输出给客户,此举是国内外在FPGA云服务化的开创性成果,并代表了FPGA与云计算结合的未来发展趋势。
CTAccel在FPGA加速处理上有丰富经验, 研发人员拥有从国内外知名大学获得的理工科硕士学位和丰富的研发经验。经过历时三年的探索,团队的图片加速处理技术已经实现优于传统CPU七倍的计算性能,并获得美国专利公审。CTAccel 的图片加速处理产品CIP在图像处理计算中,可降低延时三倍,提高并发度三至七倍,降低TCO 三倍。CIP提供了目前世界上最强的图片处理能力,重新定义了数据中心图片处理计算模式,为互联网图片计算提供最高效的解决方案。
SC16: FPGA 计算时代来临,联捷计算科技加速技术场内亮点(2016-11-28)
more
在美国犹他州盐湖城举办的世界超算大会SC16已于11月18号圆满结束。FPGA届两大巨头INTEL与Xilinx在此大会上都展示了他们最新的FPGA加速技术,专用于提升高性能计算与互联网数据中心的性能。此次Intel展示的Arria 10 FPGA有浮点处理能力,运行AlexNet——一种卷积神经网络(CNN)时可达到1000FPS的处理速度。与此同时,Xilinx研发的Kintex Ultrascale FPGA在进行定点版本的AlexNet推断时可达到1800FPS的性能。值得注意的是,二者设计神经网络时皆运用了OpenCL,这无疑给市场打了剂强心针,这意味着使用高级编程语言编FPGA成为现实。在今后,FPGA开发者将缩短研发周期,令人诟病的漫长开发周期将成为过去式。而Xilinx的OpenCL工具SDAccel将在今年年底正式公布。联捷科技(CTAccel)是中国第一批赛灵思官方认证的SDAccel设计服务提供商。
图1:联捷科技的老朋友-Xilinx SDAccel产品总监Vinay与联捷科技技术总监促膝长谈
浪潮(Inspur)也在展会上发布了基于Intel的FPGA加速器。可以预见的是,市场上越来越多的服务器供应商将加入到为各自服务器开发FPGA加速器的大军。值得一提的是,CTAccel的FPGA加速解决方案愈发强大,拥有多种功能与超高性能。现在他们的FPGA加速器已经支持WebP——一种高效率小体积的互联网图片格式。在今年的SC16展会上,CTAccel演示了基于FPGA的JPEG转WebP的流程,比传统处理器快五倍。近年来,CTAccel也在研发基于CNN的图片分析技术,展出的联捷科技的FPGA加速方案可将基于神经网络的人脸识别速度提升两倍。
图2:IBM Power架構专家与联捷科技技术总监深入讨论联捷科技的平台技术
今年的世界超算大会让我们感受到FPGA正逐渐成为主流计算设备。从2013年开始研发FPGA图像加速技术的CTAccel正步入产品成熟期,他们性能强大的FPGA图像处理方案必将为图像界带来新的亮点,成果拭目以待。
联捷科技成立于2016年, 专注于研发基于FPGA的数据中心图像视频等多媒体异构计算解决方案,这项技术重新定义了数据中心图像处理的计算模式,可以提供端到端解决方案,把性能和效能提升一个数量级,已获得美国及中国专利。目前,联捷科技高吞吐、低时延的FPGA图像处理加速技术解决方案目前已经广泛应用到包括O2O服务、智能手机云应用、云存储和在线视频网站细分市场中。
联捷科技创始人兼首席执行官俞海乐告诉36氪,公司的解决方案主要针对的数据中心图片和视频计算的两个痛点,一是计算延时高;二是计算成本高。
移动互联网的不断发展,人人都可以拍视频、传照片,人们对图片、视频的质量要求也越来越高。海量的内容和多样的功能导致视频、图片计算在数据中心需求不断增加。
“尤其是最近两年手机摄像头的分辨率也不断提高,这一维度也增加了整体后台计算的压力。而更高压缩率的编码算法,也对算力提出了更高的要求。互联网公司数据中心的计算量越来越大,计算成本高企难下。”俞海乐说,“为了给用户更流畅的体验,同样也要求数据中心计算速度更快,处理延迟更低。CPU性能增长乏力,让依赖纯软件计算满足高复杂度计算的实时性变得越来越不现实。”
针对这些痛点和需求,联捷科技提供了基于FPGA的异构计算解决方案。简单来说,其核心就是将数据中心需要执行的各类任务(软件、算法代码等)进行分析、拆解、重组,再分给各异构计算资源进行计算,以达到尽可能充分利用各种计算资源,缩短任务执行时间,提升数据中心整体效率的目的。
产品形态上,这套方案主要包括FPGA硬件加速器和软件包两个部分,软件包部分硬件驱动软件、SDK包以及部分应用层软件。部署上,公有云和私有服务器均能部署,用户可以选择购买硬件及软件包产品,也可选择纯软件方案,以“硬件费用+软件订阅费”进行收费。加速器支持ImageMagick、OpenCV、FFmpeg多种主流开源软件,用户几乎不需改动原有系统程序即可使用。同时,加速器还可以通过远程升级的方式进行软件化功能定义,可根据具体使用场景调整加速器功能。
产品性能方面,联捷科技的方案对不同类型任务,如视频编解码、云相册的缩略图生成等,以及客户数据中心的整体系统环境,如网络和宿主机配置,加速及提升效果都有所不同。俞海乐介绍,用户在运行加速器之后,可以看到单机处理能力和单任务计算延迟两个关键指标的变化,“效果都是可量化、可观测的。以某客户的实际应用情况为例,运行我们的方案18个月以来,单机处理能力提升了两倍,计算延时降低,总成本至少降低了50%。”
当下,随着AI、5G、IoT等新技术和新应用的快速发展,算力需求大幅提升。以GPU、FGPA和ASIC芯片为主的专用加速器的应用不断提升。除了图像视频处理领域,联捷科技的设计方法同样能用到其他数据中心计算如AI计算、金融计算,基因测序等。“我们的核心能力是对软件算法的识别、分析、重组的能力,并不只针对某一特定领域的计算。但To B业务的落地,尤其是数据中心的底层创新产品的落地,是非常困难且长周期的一件事,需要的也不仅仅是技术优势。因此在一个细分赛道先获得成功是务实之举,也不宜盲目扩张。”
团队方面,联捷科技目前共有近30名全职员工,核心人员都拥有国内外知名大学的理工科硕博学位和丰富的研发经验,具备算法研究、算法移植、FPGA工程、系统调优、软件整合等多方面异构计算的综合技术能力。
据悉,联捷科技曾于2018年11月获得英特尔投资领投、信智资本跟投的A轮融资。
关于投资
君盛投资执行事务合伙人李昊表示:君盛投资一直围绕企业数字化进行布局,背后基础设施是通信半导体和信息技术,应用场景包括了企业服务和金融科技等。未来相当长一段时间,我们需要处理的数据量会持续快速增加。相应的,无论是数据中心还是边缘端的计算场景,计算体系将会被重构。除了GPU,FPGA、ASIC等异构计算架构会更加丰富地被使用在特定场景中,传统计算架构的演化趋势越来越明显。FPGA加速与解决方案提供的壁垒很高,也是上游通用芯片和下游客户需求连接的重要环节。结合具体场景有区分,但又有相对通用性的服务交付,使得团队业务高效扩张成为可能。公司团队对硬件架构、软件算法、应用场景都有深刻理解,实现了一系列头部客户的认可。我们相信,围绕图片、视频、数据等进行路径延展,联捷科技将推动行业的快速发展。
more
本次演讲讨论基于现实中数据中心所有到一般性问题,尤其是数据处理的困境。而联捷计算科技(CTAccel)针对基于FPGA的异构计算的特点,与赛灵思配合提出发挥FPGA特长的多媒体解决方案,并以应用接口的方式提供给用户。
CTAccel Receives Series A Funding Led by Intel Capital (2018-11-28)
more
Hong Kong, November 28, 2018 – CTAccel Limited, a leading company in FPGA-based acceleration technology and solutions, today announced it has received investment in a Series A funding round led by Intel Capital with participation from Ironfire Ventures.
CTAccel will use the investment proceeds to broaden its product portfolio for better and more effective image processing and image analytics solutions development, and to strengthen the company’s global market penetration in North America, Europe and Asia Pacific.
Since 2013, CTAccel’s FPGA experts have been involved in the development of heterogeneous computing solutions for datacenters. The company’s products redefine image processing in datacenters by using patented technology that enables end-to-end solutions that improve performance and energy efficiency by an order of magnitude.
CTAccel solutions are deployed in a wide spectrum of market segments including online-to-offline (“O2O”) services, smartphone cloud applications, cloud storage and online video sites. The company’s FPGA-based accelerator brings high-throughput, low-latency image processing that delivers proven performance improvements while simultaneously reducing costs for customers.
"Our existing and in-development product offerings have positioned CTAccel to be a market leader in FPGA-accelerated solutions," said Dr. Harry Yu, founder and CEO of CTAccel. “This investment, led by Intel Capital, will speed up our new product development and extend our solutions across FPGA-accelerated datacenter computation while supporting our global expansion.”
Anthony Lin, Vice President and Managing Director of Intel Capital International, said:“Our investment in CTAccel supports Intel’s strategy to accelerate the development of the rapidly growing data economy. We look forward to continuing to work with CTAccel to increase the adoption of FPGA-based datacenter solutions in China and global markets.”
The Series A funding round extends the relationship between CTAccel and Intel and aims to leverage the extensive experience of CTAccel in hardware-software co-design, heterogeneous computing and software engineering to deliver high-performance, high-value solutions to customers.
About CTAccel Limited
CTAccel was founded in March 2016 by a team of FPGA experts from ClusterTech Limited. The team has been involved in the development of FPGA-based heterogeneous computing solutions for the datacenter since 2013. The company’s patented CTAccel Image Processing (CIP) accelerator improves the performance and efficiency of image processing in datacenters by offloading computation from CPU to FPGA. Learn more about CTAccel by visiting www.ct-accel.com.
About Intel Capital
Intel Capital invests in innovative startups targeting artificial intelligence, autonomous vehicles, datacenter and cloud, 5G, next-generation compute and a wide range of other disruptive technologies. Since 1991, Intel Capital has invested US $12.3 billion in 1,544 companies worldwide, and more than 660 portfolio companies have gone public or participated in a merger. Intel Capital curates thousands of business development introductions each year between its portfolio companies and the Global 2000. For more information on what makes Intel Capital one of the world’s most powerful venture capital firms, visit www.intelcapital.com or follow @Intelcapital.
CTAccel To Deliver NGCodec Video Encoding Solutions as Exclusive Agent in China (2018-07-06)
more
NGCodec, NGCodec, a pioneer in cloud video processing, is partnering with Chinese FPGA acceleration specialist CTAccel to deliver FPGA-based video encoding solutions in China. CTAccel will be the exclusive agent for NGcodec products in both mainland China and Hong Kong.
CTAccel will offer the next generation NGCodec video encoder, the RealityCodec™ H.265/HEVC encoder, using FPGA hardware acceleration for low latency while maximizing video quality, meeting the highest broadcasting standards.
“Opportunities for cloud video encoding are expanding, but traditional software approaches need massive, expensive CPU resources and cannot deliver the video quality or latency required by emerging applications,” said Oliver Gunasekara, Chief Executive Officer and Founder, NGCodec. “CTAccel is experienced and respected in FPGA acceleration and we look forward to offering state of the art video encoding solutions to customers in China through CTAccel”
CTAccel has offered image processing solutions employing a high-throughput, low latency FPGA-based accelerator with proven value among customers in China
“CTAccel is very experienced in FPGA-based acceleration. Being NGcodec’s exclusive agent in China, we are making both party’s solutions more complete. This partnership allows both CTAccel and NGcodec to explore new ways to offer our products to a wide range of customers around the world.” says Harry Yu, CEO and Co-Founder of CTAccel.
NGcodec and CTAccel have already collaborated on several projects and are committed to providing the best FPGA-based solutions to customers.
About NGcodec
NGCodec® has been in passionate pursuit of next generation video compression since 2012. With the support of investors including Xilinx, NGCodec’s agile startup team has created Reality Codec™, a compressor-decompressor technology optimized for ultra-low latency, high-quality applications. Headquartered in Sunnyvale, California, NGCodec leverages FPGA acceleration in the Cloud to lower encoding costs by 10x over traditional CPU encoders. Learn more at www.ngcodec.com online. Learn more about NGcodec: https://ngcodec.com/
About CTAccel
CTAccel Ltd. was founded in March 2016 by a team of FPGA experts from Clustertech Ltd. The company has been involved in the development of FPGA based heterogeneous computing solution for the datacenter since 2013. The company’s patented CTAccel Image Processor (CIP) improves the performance and efficiency of image processing in datacenters. Learn more about CTAccel:http://www.ct-accel.com/home-2/
CTAccel Provides High Performance FPGA-based Image Processing Accelerator on AWS F1 (2018-05-18)
more
CTAccel Image Processor for AWS Cloud(hereinafter referred to briefly as CIP for AWS Cloud) is available as an Amazon Machine Image on the Amazon Web Services Community AMIs. CIP for AWS Cloud is an FPGA-based image processing acceleration solution that can help you greatly improve the performance of image processing by transferring computational work-load from CPU to FPGA.
Application Scenarios
CTAccel provides rich solutions for customers who have image processing requests. And they can be used in many application scenarios, such as JPEG thumbnail, Sharpen, Main color, Watermark, Brightness-Contrast and so on.
Benefits
CIP for AWS Cloud can benefit you by increasing image processing throughput, reducing computational latency and reducing TCO.
➢ Improve the Throughput by 10x
➢ Reduce Latency by 10x
➢ Reduce TCO by 3x
CTAccel Joins Accelize Ecosystem to Make FPGA-Based Image Transcoding Acceleration Available on AccelStore(2018-05-17)
more
Image Transcoding Accelerator from CTAccel Will Be Available on As-Needed Basis for Cloud and Enterprise Applications
Cloud Expo Asia, Hong Kong — May 16, 2018 — CTAccel announced today that it is partnering with Accelize® to make its FPGA-based CTAccel Image Processor (CIP) available on an as-needed basis on the new AccelStore™ marketplace. CIP is a high-performance image processing accelerator that improves server throughput and latency.
“By joining the Accelize ecosystem, we are making our image transcoding expertise available to a broader audience of cloud and enterprise application developers on all the cloud and enterprise platforms supported by the Accelize framework starting with OVH and AWS,” said Ivan Wong, senior product director of CTAccel. “This partnership with Accelize allows us to explore new ways to offer our products to a wider range of customers whether they are Cloud Application developers or looking for on-premise acceleration solutions in a fast, easy and cost-effective way.”
Similar to other accelerators on AccelStore, CIP will leverage the Accelize RESTFul API to enable fast and easy evaluation and deployment in just minutes on any supported platform, starting with Amazon Web Services (AWS) and OVH. The accelerator will also be available on multiple Enterprise FPGA cards for on-premise usage and purchasable with a variety of business models.
“CTAccel has proven the value of its solutions on multiple Cloud Service Providers in Asia, and we are excited to work with them to offer image transcoding acceleration to AccelStore users,” said Stephane Monboisset, vice president of marketing and partnerships for Accelize.
AccelStore is a new, online marketplace of ready-to-use accelerator functions, provided by a growing ecosystem of 3rd party developer companies, that can be seamlessly deployed in high-speed data centers including Amazon Web Services (AWS) and OVH to start, and more to come. Accelize gives IP developers the right framework and support to deploy their FPGA solutions to the Cloud and manages all aspects of distributing and licensing for them. AccelStore makes the online library of FPGA-accelerated functions available to the broad audience of cloud applications developers with easy evaluation, licensing and usage terms.
About Accelize
Accelize, a spinoff of PLDA Group, is a leading provider of Acceleration-as-a-Service, bringing the benefits of FPGA acceleration to cloud and enterprise users. Accelize operates AccelStore, a marketplace of ready-to-use accelerator functions running on FPGA platforms provided by a broad ecosystem of IP providers, design houses and ISV’s. Accelize also develops and maintains unique technologies that ease the development of FPGA accelerator functions and their monetization to benefit the entire FPGA supply chain. Its accelerator functions operate on multiple FPGA platforms in Public Cloud, Private Cloud and on premise. For more information, visit www.accelize.com.
CTAccel CIP 产品已经上线BAT三大云平台(2017-11-24)
more
联捷计算科技(CTAccel)丶阿里云共建FPGA异构计算加速云平台生态(2017-10-20)
more
一年一度的杭州云栖大会(2017) 刚在10月11日-10月14日在西湖区云栖小镇举办。全球各地云计算丶大数据丶人工智能的顶尖企业Intel丶Xilinx丶Nvidia丶AMD均汇集于此, 与阿里云联合发布新一代的异构计算加速云平台,聚焦全球高性能云计算丶大数据应用和人工智能创新领域最前沿的技术。联捷计算科技(CTAccel)一直致力于基于FPGA的图片处理与分析加速计算技术的研发,核心技术已获得美国专利,承蒙阿里云的邀请,作为阿里云异构计算加速云平台的生态共建合作企业之一出席会议.
(左三: 联捷计算科技CTAccel CEO俞海乐博士)
会议上CTAccel CEO俞海乐博士表达了对阿里FPGA云服务平台的高度认同, 简述了FPGA云服务可有效降低FPGA加速方案的研发环境搭建的时间, 同时解决FPGA加速方案在售前与部署面对的各种困难及阻力, 例如各种硬件合规与运维准入标准等问题, 让加速方案团队能专注于产品打磨与核心算法的开发,意义十分重大.
CTAccel团队经过和阿里云的伙伴的共同努力,将CTAccel图片处理加速解方案移植入阿里云FPGA服务,并即将把该方案输出给客户,此举是国内外在FPGA云服务化的开创性成果,并代表了FPGA与云计算结合的未来发展趋势。
CTAccel在FPGA加速处理上有丰富经验, 研发人员拥有从国内外知名大学获得的理工科硕士学位和丰富的研发经验。经过历时三年的探索,团队的图片加速处理技术已经实现优于传统CPU七倍的计算性能,并获得美国专利公审。CTAccel 的图片加速处理产品CIP在图像处理计算中,可降低延时三倍,提高并发度三至七倍,降低TCO 三倍。CIP提供了目前世界上最强的图片处理能力,重新定义了数据中心图片处理计算模式,为互联网图片计算提供最高效的解决方案。
SC16: FPGA 计算时代来临,联捷计算科技加速技术场内亮点(2016-11-28)
more
在美国犹他州盐湖城举办的世界超算大会SC16已于11月18号圆满结束。FPGA届两大巨头INTEL与Xilinx在此大会上都展示了他们最新的FPGA加速技术,专用于提升高性能计算与互联网数据中心的性能。此次Intel展示的Arria 10 FPGA有浮点处理能力,运行AlexNet——一种卷积神经网络(CNN)时可达到1000FPS的处理速度。与此同时,Xilinx研发的Kintex Ultrascale FPGA在进行定点版本的AlexNet推断时可达到1800FPS的性能。值得注意的是,二者设计神经网络时皆运用了OpenCL,这无疑给市场打了剂强心针,这意味着使用高级编程语言编FPGA成为现实。在今后,FPGA开发者将缩短研发周期,令人诟病的漫长开发周期将成为过去式。而Xilinx的OpenCL工具SDAccel将在今年年底正式公布。联捷科技(CTAccel)是中国第一批赛灵思官方认证的SDAccel设计服务提供商。
图1:联捷科技的老朋友-Xilinx SDAccel产品总监Vinay与联捷科技技术总监促膝长谈
浪潮(Inspur)也在展会上发布了基于Intel的FPGA加速器。可以预见的是,市场上越来越多的服务器供应商将加入到为各自服务器开发FPGA加速器的大军。值得一提的是,CTAccel的FPGA加速解决方案愈发强大,拥有多种功能与超高性能。现在他们的FPGA加速器已经支持WebP——一种高效率小体积的互联网图片格式。在今年的SC16展会上,CTAccel演示了基于FPGA的JPEG转WebP的流程,比传统处理器快五倍。近年来,CTAccel也在研发基于CNN的图片分析技术,展出的联捷科技的FPGA加速方案可将基于神经网络的人脸识别速度提升两倍。
图2:IBM Power架構专家与联捷科技技术总监深入讨论联捷科技的平台技术
今年的世界超算大会让我们感受到FPGA正逐渐成为主流计算设备。从2013年开始研发FPGA图像加速技术的CTAccel正步入产品成熟期,他们性能强大的FPGA图像处理方案必将为图像界带来新的亮点,成果拭目以待。
Hong Kong, November 28, 2018 – CTAccel Limited, a leading company in FPGA-based acceleration technology and solutions, today announced it has received investment in a Series A funding round led by Intel Capital with participation from Ironfire Ventures.
CTAccel will use the investment proceeds to broaden its product portfolio for better and more effective image processing and image analytics solutions development, and to strengthen the company’s global market penetration in North America, Europe and Asia Pacific.
Since 2013, CTAccel’s FPGA experts have been involved in the development of heterogeneous computing solutions for datacenters. The company’s products redefine image processing in datacenters by using patented technology that enables end-to-end solutions that improve performance and energy efficiency by an order of magnitude.
CTAccel solutions are deployed in a wide spectrum of market segments including online-to-offline (“O2O”) services, smartphone cloud applications, cloud storage and online video sites. The company’s FPGA-based accelerator brings high-throughput, low-latency image processing that delivers proven performance improvements while simultaneously reducing costs for customers.
"Our existing and in-development product offerings have positioned CTAccel to be a market leader in FPGA-accelerated solutions," said Dr. Harry Yu, founder and CEO of CTAccel. “This investment, led by Intel Capital, will speed up our new product development and extend our solutions across FPGA-accelerated datacenter computation while supporting our global expansion.”
Anthony Lin, Vice President and Managing Director of Intel Capital International, said:“Our investment in CTAccel supports Intel’s strategy to accelerate the development of the rapidly growing data economy. We look forward to continuing to work with CTAccel to increase the adoption of FPGA-based datacenter solutions in China and global markets.”
The Series A funding round extends the relationship between CTAccel and Intel and aims to leverage the extensive experience of CTAccel in hardware-software co-design, heterogeneous computing and software engineering to deliver high-performance, high-value solutions to customers.
About CTAccel Limited
CTAccel was founded in March 2016 by a team of FPGA experts from ClusterTech Limited. The team has been involved in the development of FPGA-based heterogeneous computing solutions for the datacenter since 2013. The company’s patented CTAccel Image Processing (CIP) accelerator improves the performance and efficiency of image processing in datacenters by offloading computation from CPU to FPGA. Learn more about CTAccel by visiting www.ct-accel.com.
About Intel Capital
Intel Capital invests in innovative startups targeting artificial intelligence, autonomous vehicles, datacenter and cloud, 5G, next-generation compute and a wide range of other disruptive technologies. Since 1991, Intel Capital has invested US $12.3 billion in 1,544 companies worldwide, and more than 660 portfolio companies have gone public or participated in a merger. Intel Capital curates thousands of business development introductions each year between its portfolio companies and the Global 2000. For more information on what makes Intel Capital one of the world’s most powerful venture capital firms, visit www.intelcapital.com or follow @Intelcapital.
more
NGCodec, NGCodec, a pioneer in cloud video processing, is partnering with Chinese FPGA acceleration specialist CTAccel to deliver FPGA-based video encoding solutions in China. CTAccel will be the exclusive agent for NGcodec products in both mainland China and Hong Kong.
CTAccel will offer the next generation NGCodec video encoder, the RealityCodec™ H.265/HEVC encoder, using FPGA hardware acceleration for low latency while maximizing video quality, meeting the highest broadcasting standards.
“Opportunities for cloud video encoding are expanding, but traditional software approaches need massive, expensive CPU resources and cannot deliver the video quality or latency required by emerging applications,” said Oliver Gunasekara, Chief Executive Officer and Founder, NGCodec. “CTAccel is experienced and respected in FPGA acceleration and we look forward to offering state of the art video encoding solutions to customers in China through CTAccel”
CTAccel has offered image processing solutions employing a high-throughput, low latency FPGA-based accelerator with proven value among customers in China
“CTAccel is very experienced in FPGA-based acceleration. Being NGcodec’s exclusive agent in China, we are making both party’s solutions more complete. This partnership allows both CTAccel and NGcodec to explore new ways to offer our products to a wide range of customers around the world.” says Harry Yu, CEO and Co-Founder of CTAccel.
NGcodec and CTAccel have already collaborated on several projects and are committed to providing the best FPGA-based solutions to customers.
About NGcodec
NGCodec® has been in passionate pursuit of next generation video compression since 2012. With the support of investors including Xilinx, NGCodec’s agile startup team has created Reality Codec™, a compressor-decompressor technology optimized for ultra-low latency, high-quality applications. Headquartered in Sunnyvale, California, NGCodec leverages FPGA acceleration in the Cloud to lower encoding costs by 10x over traditional CPU encoders. Learn more at www.ngcodec.com online. Learn more about NGcodec: https://ngcodec.com/
About CTAccel
CTAccel Ltd. was founded in March 2016 by a team of FPGA experts from Clustertech Ltd. The company has been involved in the development of FPGA based heterogeneous computing solution for the datacenter since 2013. The company’s patented CTAccel Image Processor (CIP) improves the performance and efficiency of image processing in datacenters. Learn more about CTAccel:http://www.ct-accel.com/home-2/
CTAccel Provides High Performance FPGA-based Image Processing Accelerator on AWS F1 (2018-05-18)
more
CTAccel Image Processor for AWS Cloud(hereinafter referred to briefly as CIP for AWS Cloud) is available as an Amazon Machine Image on the Amazon Web Services Community AMIs. CIP for AWS Cloud is an FPGA-based image processing acceleration solution that can help you greatly improve the performance of image processing by transferring computational work-load from CPU to FPGA.
Application Scenarios
CTAccel provides rich solutions for customers who have image processing requests. And they can be used in many application scenarios, such as JPEG thumbnail, Sharpen, Main color, Watermark, Brightness-Contrast and so on.
Benefits
CIP for AWS Cloud can benefit you by increasing image processing throughput, reducing computational latency and reducing TCO.
➢ Improve the Throughput by 10x
➢ Reduce Latency by 10x
➢ Reduce TCO by 3x
CTAccel Joins Accelize Ecosystem to Make FPGA-Based Image Transcoding Acceleration Available on AccelStore(2018-05-17)
more
Image Transcoding Accelerator from CTAccel Will Be Available on As-Needed Basis for Cloud and Enterprise Applications
Cloud Expo Asia, Hong Kong — May 16, 2018 — CTAccel announced today that it is partnering with Accelize® to make its FPGA-based CTAccel Image Processor (CIP) available on an as-needed basis on the new AccelStore™ marketplace. CIP is a high-performance image processing accelerator that improves server throughput and latency.
“By joining the Accelize ecosystem, we are making our image transcoding expertise available to a broader audience of cloud and enterprise application developers on all the cloud and enterprise platforms supported by the Accelize framework starting with OVH and AWS,” said Ivan Wong, senior product director of CTAccel. “This partnership with Accelize allows us to explore new ways to offer our products to a wider range of customers whether they are Cloud Application developers or looking for on-premise acceleration solutions in a fast, easy and cost-effective way.”
Similar to other accelerators on AccelStore, CIP will leverage the Accelize RESTFul API to enable fast and easy evaluation and deployment in just minutes on any supported platform, starting with Amazon Web Services (AWS) and OVH. The accelerator will also be available on multiple Enterprise FPGA cards for on-premise usage and purchasable with a variety of business models.
“CTAccel has proven the value of its solutions on multiple Cloud Service Providers in Asia, and we are excited to work with them to offer image transcoding acceleration to AccelStore users,” said Stephane Monboisset, vice president of marketing and partnerships for Accelize.
AccelStore is a new, online marketplace of ready-to-use accelerator functions, provided by a growing ecosystem of 3rd party developer companies, that can be seamlessly deployed in high-speed data centers including Amazon Web Services (AWS) and OVH to start, and more to come. Accelize gives IP developers the right framework and support to deploy their FPGA solutions to the Cloud and manages all aspects of distributing and licensing for them. AccelStore makes the online library of FPGA-accelerated functions available to the broad audience of cloud applications developers with easy evaluation, licensing and usage terms.
About Accelize
Accelize, a spinoff of PLDA Group, is a leading provider of Acceleration-as-a-Service, bringing the benefits of FPGA acceleration to cloud and enterprise users. Accelize operates AccelStore, a marketplace of ready-to-use accelerator functions running on FPGA platforms provided by a broad ecosystem of IP providers, design houses and ISV’s. Accelize also develops and maintains unique technologies that ease the development of FPGA accelerator functions and their monetization to benefit the entire FPGA supply chain. Its accelerator functions operate on multiple FPGA platforms in Public Cloud, Private Cloud and on premise. For more information, visit www.accelize.com.
CTAccel CIP 产品已经上线BAT三大云平台(2017-11-24)
more
联捷计算科技(CTAccel)丶阿里云共建FPGA异构计算加速云平台生态(2017-10-20)
more
一年一度的杭州云栖大会(2017) 刚在10月11日-10月14日在西湖区云栖小镇举办。全球各地云计算丶大数据丶人工智能的顶尖企业Intel丶Xilinx丶Nvidia丶AMD均汇集于此, 与阿里云联合发布新一代的异构计算加速云平台,聚焦全球高性能云计算丶大数据应用和人工智能创新领域最前沿的技术。联捷计算科技(CTAccel)一直致力于基于FPGA的图片处理与分析加速计算技术的研发,核心技术已获得美国专利,承蒙阿里云的邀请,作为阿里云异构计算加速云平台的生态共建合作企业之一出席会议.
(左三: 联捷计算科技CTAccel CEO俞海乐博士)
会议上CTAccel CEO俞海乐博士表达了对阿里FPGA云服务平台的高度认同, 简述了FPGA云服务可有效降低FPGA加速方案的研发环境搭建的时间, 同时解决FPGA加速方案在售前与部署面对的各种困难及阻力, 例如各种硬件合规与运维准入标准等问题, 让加速方案团队能专注于产品打磨与核心算法的开发,意义十分重大.
CTAccel团队经过和阿里云的伙伴的共同努力,将CTAccel图片处理加速解方案移植入阿里云FPGA服务,并即将把该方案输出给客户,此举是国内外在FPGA云服务化的开创性成果,并代表了FPGA与云计算结合的未来发展趋势。
CTAccel在FPGA加速处理上有丰富经验, 研发人员拥有从国内外知名大学获得的理工科硕士学位和丰富的研发经验。经过历时三年的探索,团队的图片加速处理技术已经实现优于传统CPU七倍的计算性能,并获得美国专利公审。CTAccel 的图片加速处理产品CIP在图像处理计算中,可降低延时三倍,提高并发度三至七倍,降低TCO 三倍。CIP提供了目前世界上最强的图片处理能力,重新定义了数据中心图片处理计算模式,为互联网图片计算提供最高效的解决方案。
SC16: FPGA 计算时代来临,联捷计算科技加速技术场内亮点(2016-11-28)
more
在美国犹他州盐湖城举办的世界超算大会SC16已于11月18号圆满结束。FPGA届两大巨头INTEL与Xilinx在此大会上都展示了他们最新的FPGA加速技术,专用于提升高性能计算与互联网数据中心的性能。此次Intel展示的Arria 10 FPGA有浮点处理能力,运行AlexNet——一种卷积神经网络(CNN)时可达到1000FPS的处理速度。与此同时,Xilinx研发的Kintex Ultrascale FPGA在进行定点版本的AlexNet推断时可达到1800FPS的性能。值得注意的是,二者设计神经网络时皆运用了OpenCL,这无疑给市场打了剂强心针,这意味着使用高级编程语言编FPGA成为现实。在今后,FPGA开发者将缩短研发周期,令人诟病的漫长开发周期将成为过去式。而Xilinx的OpenCL工具SDAccel将在今年年底正式公布。联捷科技(CTAccel)是中国第一批赛灵思官方认证的SDAccel设计服务提供商。
图1:联捷科技的老朋友-Xilinx SDAccel产品总监Vinay与联捷科技技术总监促膝长谈
浪潮(Inspur)也在展会上发布了基于Intel的FPGA加速器。可以预见的是,市场上越来越多的服务器供应商将加入到为各自服务器开发FPGA加速器的大军。值得一提的是,CTAccel的FPGA加速解决方案愈发强大,拥有多种功能与超高性能。现在他们的FPGA加速器已经支持WebP——一种高效率小体积的互联网图片格式。在今年的SC16展会上,CTAccel演示了基于FPGA的JPEG转WebP的流程,比传统处理器快五倍。近年来,CTAccel也在研发基于CNN的图片分析技术,展出的联捷科技的FPGA加速方案可将基于神经网络的人脸识别速度提升两倍。
图2:IBM Power架構专家与联捷科技技术总监深入讨论联捷科技的平台技术
今年的世界超算大会让我们感受到FPGA正逐渐成为主流计算设备。从2013年开始研发FPGA图像加速技术的CTAccel正步入产品成熟期,他们性能强大的FPGA图像处理方案必将为图像界带来新的亮点,成果拭目以待。
CTAccel Image Processor for AWS Cloud(hereinafter referred to briefly as CIP for AWS Cloud) is available as an Amazon Machine Image on the Amazon Web Services Community AMIs. CIP for AWS Cloud is an FPGA-based image processing acceleration solution that can help you greatly improve the performance of image processing by transferring computational work-load from CPU to FPGA.
Application Scenarios
CTAccel provides rich solutions for customers who have image processing requests. And they can be used in many application scenarios, such as JPEG thumbnail, Sharpen, Main color, Watermark, Brightness-Contrast and so on.
Benefits
CIP for AWS Cloud can benefit you by increasing image processing throughput, reducing computational latency and reducing TCO.
➢ Improve the Throughput by 10x
➢ Reduce Latency by 10x
➢ Reduce TCO by 3x
more
Image Transcoding Accelerator from CTAccel Will Be Available on As-Needed Basis for Cloud and Enterprise Applications
Cloud Expo Asia, Hong Kong — May 16, 2018 — CTAccel announced today that it is partnering with Accelize® to make its FPGA-based CTAccel Image Processor (CIP) available on an as-needed basis on the new AccelStore™ marketplace. CIP is a high-performance image processing accelerator that improves server throughput and latency.
“By joining the Accelize ecosystem, we are making our image transcoding expertise available to a broader audience of cloud and enterprise application developers on all the cloud and enterprise platforms supported by the Accelize framework starting with OVH and AWS,” said Ivan Wong, senior product director of CTAccel. “This partnership with Accelize allows us to explore new ways to offer our products to a wider range of customers whether they are Cloud Application developers or looking for on-premise acceleration solutions in a fast, easy and cost-effective way.”
Similar to other accelerators on AccelStore, CIP will leverage the Accelize RESTFul API to enable fast and easy evaluation and deployment in just minutes on any supported platform, starting with Amazon Web Services (AWS) and OVH. The accelerator will also be available on multiple Enterprise FPGA cards for on-premise usage and purchasable with a variety of business models.
“CTAccel has proven the value of its solutions on multiple Cloud Service Providers in Asia, and we are excited to work with them to offer image transcoding acceleration to AccelStore users,” said Stephane Monboisset, vice president of marketing and partnerships for Accelize.
AccelStore is a new, online marketplace of ready-to-use accelerator functions, provided by a growing ecosystem of 3rd party developer companies, that can be seamlessly deployed in high-speed data centers including Amazon Web Services (AWS) and OVH to start, and more to come. Accelize gives IP developers the right framework and support to deploy their FPGA solutions to the Cloud and manages all aspects of distributing and licensing for them. AccelStore makes the online library of FPGA-accelerated functions available to the broad audience of cloud applications developers with easy evaluation, licensing and usage terms.
About Accelize
Accelize, a spinoff of PLDA Group, is a leading provider of Acceleration-as-a-Service, bringing the benefits of FPGA acceleration to cloud and enterprise users. Accelize operates AccelStore, a marketplace of ready-to-use accelerator functions running on FPGA platforms provided by a broad ecosystem of IP providers, design houses and ISV’s. Accelize also develops and maintains unique technologies that ease the development of FPGA accelerator functions and their monetization to benefit the entire FPGA supply chain. Its accelerator functions operate on multiple FPGA platforms in Public Cloud, Private Cloud and on premise. For more information, visit www.accelize.com.
CTAccel CIP 产品已经上线BAT三大云平台(2017-11-24)
more
联捷计算科技(CTAccel)丶阿里云共建FPGA异构计算加速云平台生态(2017-10-20)
more
一年一度的杭州云栖大会(2017) 刚在10月11日-10月14日在西湖区云栖小镇举办。全球各地云计算丶大数据丶人工智能的顶尖企业Intel丶Xilinx丶Nvidia丶AMD均汇集于此, 与阿里云联合发布新一代的异构计算加速云平台,聚焦全球高性能云计算丶大数据应用和人工智能创新领域最前沿的技术。联捷计算科技(CTAccel)一直致力于基于FPGA的图片处理与分析加速计算技术的研发,核心技术已获得美国专利,承蒙阿里云的邀请,作为阿里云异构计算加速云平台的生态共建合作企业之一出席会议.
(左三: 联捷计算科技CTAccel CEO俞海乐博士)
会议上CTAccel CEO俞海乐博士表达了对阿里FPGA云服务平台的高度认同, 简述了FPGA云服务可有效降低FPGA加速方案的研发环境搭建的时间, 同时解决FPGA加速方案在售前与部署面对的各种困难及阻力, 例如各种硬件合规与运维准入标准等问题, 让加速方案团队能专注于产品打磨与核心算法的开发,意义十分重大.
CTAccel团队经过和阿里云的伙伴的共同努力,将CTAccel图片处理加速解方案移植入阿里云FPGA服务,并即将把该方案输出给客户,此举是国内外在FPGA云服务化的开创性成果,并代表了FPGA与云计算结合的未来发展趋势。
CTAccel在FPGA加速处理上有丰富经验, 研发人员拥有从国内外知名大学获得的理工科硕士学位和丰富的研发经验。经过历时三年的探索,团队的图片加速处理技术已经实现优于传统CPU七倍的计算性能,并获得美国专利公审。CTAccel 的图片加速处理产品CIP在图像处理计算中,可降低延时三倍,提高并发度三至七倍,降低TCO 三倍。CIP提供了目前世界上最强的图片处理能力,重新定义了数据中心图片处理计算模式,为互联网图片计算提供最高效的解决方案。
SC16: FPGA 计算时代来临,联捷计算科技加速技术场内亮点(2016-11-28)
more
在美国犹他州盐湖城举办的世界超算大会SC16已于11月18号圆满结束。FPGA届两大巨头INTEL与Xilinx在此大会上都展示了他们最新的FPGA加速技术,专用于提升高性能计算与互联网数据中心的性能。此次Intel展示的Arria 10 FPGA有浮点处理能力,运行AlexNet——一种卷积神经网络(CNN)时可达到1000FPS的处理速度。与此同时,Xilinx研发的Kintex Ultrascale FPGA在进行定点版本的AlexNet推断时可达到1800FPS的性能。值得注意的是,二者设计神经网络时皆运用了OpenCL,这无疑给市场打了剂强心针,这意味着使用高级编程语言编FPGA成为现实。在今后,FPGA开发者将缩短研发周期,令人诟病的漫长开发周期将成为过去式。而Xilinx的OpenCL工具SDAccel将在今年年底正式公布。联捷科技(CTAccel)是中国第一批赛灵思官方认证的SDAccel设计服务提供商。
图1:联捷科技的老朋友-Xilinx SDAccel产品总监Vinay与联捷科技技术总监促膝长谈
浪潮(Inspur)也在展会上发布了基于Intel的FPGA加速器。可以预见的是,市场上越来越多的服务器供应商将加入到为各自服务器开发FPGA加速器的大军。值得一提的是,CTAccel的FPGA加速解决方案愈发强大,拥有多种功能与超高性能。现在他们的FPGA加速器已经支持WebP——一种高效率小体积的互联网图片格式。在今年的SC16展会上,CTAccel演示了基于FPGA的JPEG转WebP的流程,比传统处理器快五倍。近年来,CTAccel也在研发基于CNN的图片分析技术,展出的联捷科技的FPGA加速方案可将基于神经网络的人脸识别速度提升两倍。
图2:IBM Power架構专家与联捷科技技术总监深入讨论联捷科技的平台技术
今年的世界超算大会让我们感受到FPGA正逐渐成为主流计算设备。从2013年开始研发FPGA图像加速技术的CTAccel正步入产品成熟期,他们性能强大的FPGA图像处理方案必将为图像界带来新的亮点,成果拭目以待。
more
一年一度的杭州云栖大会(2017) 刚在10月11日-10月14日在西湖区云栖小镇举办。全球各地云计算丶大数据丶人工智能的顶尖企业Intel丶Xilinx丶Nvidia丶AMD均汇集于此, 与阿里云联合发布新一代的异构计算加速云平台,聚焦全球高性能云计算丶大数据应用和人工智能创新领域最前沿的技术。联捷计算科技(CTAccel)一直致力于基于FPGA的图片处理与分析加速计算技术的研发,核心技术已获得美国专利,承蒙阿里云的邀请,作为阿里云异构计算加速云平台的生态共建合作企业之一出席会议.
会议上CTAccel CEO俞海乐博士表达了对阿里FPGA云服务平台的高度认同, 简述了FPGA云服务可有效降低FPGA加速方案的研发环境搭建的时间, 同时解决FPGA加速方案在售前与部署面对的各种困难及阻力, 例如各种硬件合规与运维准入标准等问题, 让加速方案团队能专注于产品打磨与核心算法的开发,意义十分重大.
CTAccel团队经过和阿里云的伙伴的共同努力,将CTAccel图片处理加速解方案移植入阿里云FPGA服务,并即将把该方案输出给客户,此举是国内外在FPGA云服务化的开创性成果,并代表了FPGA与云计算结合的未来发展趋势。
CTAccel在FPGA加速处理上有丰富经验, 研发人员拥有从国内外知名大学获得的理工科硕士学位和丰富的研发经验。经过历时三年的探索,团队的图片加速处理技术已经实现优于传统CPU七倍的计算性能,并获得美国专利公审。CTAccel 的图片加速处理产品CIP在图像处理计算中,可降低延时三倍,提高并发度三至七倍,降低TCO 三倍。CIP提供了目前世界上最强的图片处理能力,重新定义了数据中心图片处理计算模式,为互联网图片计算提供最高效的解决方案。
SC16: FPGA 计算时代来临,联捷计算科技加速技术场内亮点(2016-11-28)
more
在美国犹他州盐湖城举办的世界超算大会SC16已于11月18号圆满结束。FPGA届两大巨头INTEL与Xilinx在此大会上都展示了他们最新的FPGA加速技术,专用于提升高性能计算与互联网数据中心的性能。此次Intel展示的Arria 10 FPGA有浮点处理能力,运行AlexNet——一种卷积神经网络(CNN)时可达到1000FPS的处理速度。与此同时,Xilinx研发的Kintex Ultrascale FPGA在进行定点版本的AlexNet推断时可达到1800FPS的性能。值得注意的是,二者设计神经网络时皆运用了OpenCL,这无疑给市场打了剂强心针,这意味着使用高级编程语言编FPGA成为现实。在今后,FPGA开发者将缩短研发周期,令人诟病的漫长开发周期将成为过去式。而Xilinx的OpenCL工具SDAccel将在今年年底正式公布。联捷科技(CTAccel)是中国第一批赛灵思官方认证的SDAccel设计服务提供商。
图1:联捷科技的老朋友-Xilinx SDAccel产品总监Vinay与联捷科技技术总监促膝长谈
浪潮(Inspur)也在展会上发布了基于Intel的FPGA加速器。可以预见的是,市场上越来越多的服务器供应商将加入到为各自服务器开发FPGA加速器的大军。值得一提的是,CTAccel的FPGA加速解决方案愈发强大,拥有多种功能与超高性能。现在他们的FPGA加速器已经支持WebP——一种高效率小体积的互联网图片格式。在今年的SC16展会上,CTAccel演示了基于FPGA的JPEG转WebP的流程,比传统处理器快五倍。近年来,CTAccel也在研发基于CNN的图片分析技术,展出的联捷科技的FPGA加速方案可将基于神经网络的人脸识别速度提升两倍。
图2:IBM Power架構专家与联捷科技技术总监深入讨论联捷科技的平台技术
今年的世界超算大会让我们感受到FPGA正逐渐成为主流计算设备。从2013年开始研发FPGA图像加速技术的CTAccel正步入产品成熟期,他们性能强大的FPGA图像处理方案必将为图像界带来新的亮点,成果拭目以待。
在美国犹他州盐湖城举办的世界超算大会SC16已于11月18号圆满结束。FPGA届两大巨头INTEL与Xilinx在此大会上都展示了他们最新的FPGA加速技术,专用于提升高性能计算与互联网数据中心的性能。此次Intel展示的Arria 10 FPGA有浮点处理能力,运行AlexNet——一种卷积神经网络(CNN)时可达到1000FPS的处理速度。与此同时,Xilinx研发的Kintex Ultrascale FPGA在进行定点版本的AlexNet推断时可达到1800FPS的性能。值得注意的是,二者设计神经网络时皆运用了OpenCL,这无疑给市场打了剂强心针,这意味着使用高级编程语言编FPGA成为现实。在今后,FPGA开发者将缩短研发周期,令人诟病的漫长开发周期将成为过去式。而Xilinx的OpenCL工具SDAccel将在今年年底正式公布。联捷科技(CTAccel)是中国第一批赛灵思官方认证的SDAccel设计服务提供商。
图1:联捷科技的老朋友-Xilinx SDAccel产品总监Vinay与联捷科技技术总监促膝长谈
浪潮(Inspur)也在展会上发布了基于Intel的FPGA加速器。可以预见的是,市场上越来越多的服务器供应商将加入到为各自服务器开发FPGA加速器的大军。值得一提的是,CTAccel的FPGA加速解决方案愈发强大,拥有多种功能与超高性能。现在他们的FPGA加速器已经支持WebP——一种高效率小体积的互联网图片格式。在今年的SC16展会上,CTAccel演示了基于FPGA的JPEG转WebP的流程,比传统处理器快五倍。近年来,CTAccel也在研发基于CNN的图片分析技术,展出的联捷科技的FPGA加速方案可将基于神经网络的人脸识别速度提升两倍。
图2:IBM Power架構专家与联捷科技技术总监深入讨论联捷科技的平台技术
今年的世界超算大会让我们感受到FPGA正逐渐成为主流计算设备。从2013年开始研发FPGA图像加速技术的CTAccel正步入产品成熟期,他们性能强大的FPGA图像处理方案必将为图像界带来新的亮点,成果拭目以待。