首頁 > 業(yè)界

新一代數(shù)據(jù)庫「偶數(shù)」獲紅杉中國、紅點中國投資,開源技術商業(yè)化是個好方向

時間:2017-10-31 15:56:46 來源:36氪 作者: 徐寧

1509436918590611.jpg

偶數(shù)是一家算法公司。算法不斷迭代,就能讓數(shù)據(jù)庫提升更快的效率。

“偶數(shù)”成立于2016年底,是一個基于HAWQ的新一代數(shù)據(jù)庫項目,目前團隊在30人。今年4月份公司獲得紅點中國的天使輪投資,又于近期完成了紅杉中國領投、紅點中國跟投的A輪融資,兩輪共計數(shù)千萬元。

我們先來看一下數(shù)據(jù)庫的發(fā)展歷程。

數(shù)據(jù)庫承擔的功能是存儲和計算,可分為交易型OLTP(on-line transaction processing)、分析型OLAP(On-Line Analytical Processing)兩類:

交易型OLTP是最穩(wěn)定的,主要是針對基本的、日常的事務處理,銀行交易就是一個典型的應用場景,由于不能出紕漏,大企業(yè)基本都選用Oracle的產(chǎn)品,該市場80%已飽和,并且增長緩慢。

分析型OLAP是數(shù)據(jù)倉庫系統(tǒng),支持復雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果,像現(xiàn)在智能交通中識別車牌就是典型應用,需要分析大量數(shù)據(jù),以及現(xiàn)在正火熱的AI都需要分析型數(shù)據(jù)庫做底層支撐。分析型數(shù)據(jù)庫是創(chuàng)業(yè)公司的機會,存量市場在200億美元,目前還在保持高速增長。

分析型數(shù)據(jù)庫目前已經(jīng)歷三代,正朝著第四代演變。

Oracle做為數(shù)據(jù)庫的巨頭,產(chǎn)品即有OLTP,也有OLAP。第一代分析型數(shù)據(jù)庫/OLAP,代表有Oracle的Exadata,缺點是只能儲存在EMC這樣的高端專有硬件上,每個節(jié)點要花費400多萬,并且,多節(jié)點共享一個存儲設備,導致可拓展性差,往往只能支持10幾個節(jié)點。

接著,出現(xiàn)第二代數(shù)據(jù)倉——MPP大規(guī)模并行處理。這時,數(shù)據(jù)已經(jīng)不需要儲存在專有硬件上,普通的x86服務器即可,成本自然下降。各個計算節(jié)點的數(shù)據(jù)獨立存在本地的硬盤上,互相之間不共享,計算時將任務并行的分散到多個服務器和節(jié)點上,在每個節(jié)點上計算完成后,將各自部分的結(jié)果匯總在一起得到最終的結(jié)果。代表產(chǎn)品有HP Vertica、EMC收購的Greenplum、IBM Netezza,雖然這種架構下節(jié)點可拓展至幾十個,但依舊不能滿足大規(guī)模的擴展需求。

隨著Hadoop的發(fā)展,第三代數(shù)據(jù)庫崛起,數(shù)據(jù)存儲在HDFS上,HDFS是運行在通用硬件上的分布式文件系統(tǒng)。此時,存儲、計算分離,各節(jié)點之間能夠互相訪問,擴展性強,可以延伸到上千個節(jié)點。不過由于新產(chǎn)品的性能還沒能很好磨合,有些情況下,第三代數(shù)據(jù)庫不如第二代快速。

之后,在Hadoop上就長出了很多開源技術,用來更進一步完善、優(yōu)化性能,HAWQ就是其中之一,此外還有Hive、Impala、Spark SQL等。

偶數(shù)的CEO常雷便是Apache HAWQ創(chuàng)始人,他告知,HAWQ數(shù)據(jù)庫可以比第二代快10倍,比第三代快30-50倍。

數(shù)據(jù)庫的性能取決于“優(yōu)化器”和“執(zhí)行器”,其中優(yōu)化器負責找出最佳步驟,執(zhí)行器負責控制硬件。而HAWQ的關鍵就在于執(zhí)行器。

例如,給一堆數(shù)據(jù)做排序,“先排序還是先篩選”是由優(yōu)化器決定,當優(yōu)化器決定先排序時,接下來由執(zhí)行器調(diào)配硬件。我們知道在冒泡排序的算法里,用一個數(shù)據(jù)跟其他比較然后插入位置,此時用兩個甚至多個同時計算就會快很多,而HAWQ就是用一種高級指令控制硬件,同時計算多條數(shù)據(jù)。

再比如,CPU有一定的緩存空間,計算時訪問距離最近、速度最快,但空間有限,磁盤存儲空間最大卻訪問最遠、速度最慢,所以,怎樣分配指令,用最快的資源處理最實時的需求,就是HAWQ執(zhí)行器需要做的事情。

這樣看來,偶數(shù)是一家算法公司。算法不斷迭代,就能讓數(shù)據(jù)庫提升更快的效率。

目前,偶數(shù)有兩款產(chǎn)品,一個是開源版的Apache HAWQ,另一個是商業(yè)版的Oushu Database(HAWQ++)。據(jù)常雷告知,剛發(fā)布的Oushu Database 3.0商業(yè)版比開源版快10倍,這樣算下來,就比Spark SQL等其他數(shù)據(jù)引擎快幾十倍。

至于應用,偶數(shù)可以在數(shù)據(jù)庫內(nèi)做AI算法,效果會優(yōu)于TensorFlow,TensorFlow是獨立系統(tǒng),加在數(shù)據(jù)庫外,而偶數(shù)的算法可以做在數(shù)據(jù)庫內(nèi),訪問越近,速度越快。常雷告知,像是航母、銀行、電力運維、金融、政府公安等行業(yè)目前都在應用偶數(shù)數(shù)據(jù)庫,像是傳感器采集大量數(shù)據(jù)的場景,都需要快速處理。

收費方面,偶數(shù)商業(yè)版根據(jù)CPU/節(jié)點/容量收取賬號年費。

對于本次融資,紅點中國管理合伙人袁文達先生表示:“紅點中國本身是很看好大數(shù)據(jù)技術領域未來的發(fā)展趨勢,在國內(nèi)外投資了不少大數(shù)據(jù)技術公司,包括MapR、Dremio、Snowflake、Crunchbase、Kyligence等等,偶數(shù)團隊來自于Pivotal、IBM等著名軟件公司,對國內(nèi)和國際市場以及產(chǎn)品落地有豐富的經(jīng)驗,以及HAWQ++在MPP分析數(shù)據(jù)庫的技術處于國際領先水平。我們很高興跟這樣的團隊合作。”

至于融資資金,常雷透露,將主要用于研發(fā)和市場。

----

附:以下是Oushu Database 3.O主要的革新點

1.   全新執(zhí)行器,性能提升10倍。

執(zhí)行器是數(shù)據(jù)庫最核心的部件之一,Oushu Database 3.0對執(zhí)行器進行了完全重新設計,充分利用了最新CPU的每一個特性,比如SIMD指令等,可以做到性能的極致。

2.   支持ORC外部存儲格式,結(jié)合新的執(zhí)行器,外部存儲的性能可以提升10-50倍。

這就使得外部存儲達到了內(nèi)部存儲的性能。

3.   支持新一代可插拔存儲框架,只需簡單編寫幾個函數(shù)就可以添加一個外部數(shù)據(jù)源。

傳統(tǒng)數(shù)據(jù)倉庫連接外部數(shù)據(jù)往往都是使用Connector形式,性能很慢,從而導致用戶需要使用先導入外部數(shù)據(jù)再查詢的方式,數(shù)據(jù)需要在多個系統(tǒng)存儲多份,浪費了多倍存儲空間。

結(jié)合新一代執(zhí)行器,Oushu Database可插拔存儲框架使得數(shù)據(jù)庫可以直接高性能訪問外部數(shù)據(jù),查詢外部數(shù)據(jù)的性能和查詢內(nèi)部數(shù)據(jù)類似。



智能界(ukrainianorthodoxchurchinexile.com)中國智能科技聚合推薦平臺,秉承“引領未來智能生活”的理念,專注報道智能家居、可穿戴設備、智能醫(yī)療、機器人、3D打印、智能汽車、VR/AR/MR/、人工智能等諸多科技前沿領域。關注智能創(chuàng)新對人的生活方式、價值的改變,致力傳播放大這部分聲量。聚合品牌宣傳、代理招商、產(chǎn)品評測、原創(chuàng)視頻、fm電臺與試用眾測,深入智能科技行業(yè),全平臺多維度為用戶及廠商提供服務,致力成為中國最具影響力的智能科技聚合推薦平臺。


智能界【微信公眾號ID:znjchina】【新浪/騰訊微博:@智能界】


評論列表(已有條評論)

最新評論

智能界

智能界(ukrainianorthodoxchurchinexile.com)

中國智能科技聚合推薦平臺