大(dà)多(duō)數(shù)數(shù)據科(k♣<εē)學家(jiā)使用(yòng)諸如(rú)R,Pytγδ"£hon和(hé)C / C ++之類的(de)分(fēn)析工(gōn↑♦≥®g)具進行(xíng)研究。這(zhè)些(xiē)工(gōng)具很£α↔(hěn)難與當前的(de)數(shù)β≥✔據庫系統集成,從(cóng)而導緻數(shù)據分(fēn)析緩£<₩慢(màn)而麻煩。北(běi)京軟件(jiàn)開(kāi)發公司:“數(shù)據科(kē)學家(jiā)選擇通(tōng)過開σγ$(kāi)發一(yī)系列數(shù)據管理(lǐ)替代™"↔•方案來(lái)重塑數(shù)據庫系統,這(zhè)∏♣些(xiē)替代方案可(kě)以執行(xíng)與✘€α£傳統數(shù)據庫管理(lǐ)系統相(xiàng)似的(de)任務,但(dà ∞n)是(shì)存在許多(duō)數(shù)十年(nián)前$↕在數(shù)據庫領域解決的(de)問(wèn)題。 β>”
“數(shù)據庫研究界在開(kāi) Ω發功能(néng)強大(dà)的(de)數(shù)據庫引擎方面取得(de♣∞)了(le)長(cháng)足的(de)進步,↕₹≠該引擎可(kě)進行(xíng)有(yǒu≤₽)效的(de)分(fēn)析查詢處理(lǐ)。±≤≈” 軟件(jiàn)開(kāi)發公司嘗試将數(shù)據γσ£€庫科(kē)學中的(de)這(zhè)些(xiē)創新與數(shù)據科β≥(kē)學家(jiā)最常使用(yòng)的ε>÷(de)分(fēn)析工(gōng)具相(xiαδ"àng)結合。北(běi)京軟件(jiàn)βσ←外(wài)包公司:“我們研究了(le)如(rú)何促進分(≥÷↕εfēn)析工(gōng)具與關系數(shù)據庫管理(lǐ)♥™α系統的(de)高(gāo)效,輕松集成。”
大(dà)型數(shù)據集
在計(jì)算(suàn)機(jī)科(kē)學中使用(yòng)标α§準數(shù)據庫系統的(de)另一(yī)個(σ÷♠gè)問(wèn)題是(shì)處理(lγεǐ)的(de)數(shù)據大(dà)小(xiǎo)。大♠<&(dà)多(duō)數(shù)數(shù)據庫系統并未針對(duì)♥€使用(yòng)遠(yuǎn)程服務器(qì)÷★的(de)大(dà)型數(shù)據集和(hé)大(dà)規模數(s"¥÷hù)據分(fēn)析進行(xíng)優化(huà)。要(yào)優化(&>₽λhuà)數(shù)據庫系統,可(kě)以考慮三種方法。
軟件(jiàn)公司:“我們♣£✔≤将研究重點放(fàng)在數(shù)據庫-客戶端♦'ε>集成的(de)三種主要(yào)方法上(sφ✘εαhàng):客戶端-服務器(qì)連接,數(shù)據庫內(λ★nèi)處理(lǐ)以及将數(shù)據庫₽←∞₹嵌入客戶端應用(yòng)程序中。” 對(duì)于每種₩ ¶∞方法,他(tā)研究了(le)現(xiàn)有(yǒu)數(shù)據庫系統中®←×↕的(de)實現(xiàn),并評估了(le)它們對(duì)于數(sh☆↓∞ù)據科(kē)學中常見(jiàn)的(ε♣de)大(dà)型數(shù)據集和(hé)工(gōng)作(zuò)負¥✘載的(de)效率。
鴨數(shù)據庫
最終結果是(shì)一(yī)個(gè)名為♦♣♣(wèi)DuckDB的(de)新數(shù)據管理(lǐ)系統,該系統專 ↕∞✔用(yòng)于與R和(hé)Python(及其他(tā)分✔ε¶ (fēn)析工(gōng)具)進行(xíng)高(gāo)效且輕松的(d♥e)集成。該管理(lǐ)系統旨在用(yòng)作(zuò₩¥λ)成熟的(de)數(shù)據庫系統,不(bù)僅用(y≤"òng)于研究目的(de)。“在DuckDB中,我們将從(cóng)研究數✔™↑(shù)據庫-客戶端集成的(de)所有(yǒ★≥α♥u)課程中吸取教訓,并創建一(yī)個(α"gè)易于使用(yòng)且高(gāo)效'©的(de)嵌入式數(shù)據庫。&rdq₽§ uo; 北(běi)京軟件(jiàn)外(wài)包公司将繼續擔任CWI的(de)博士後,在那(nà)裡(lǐ)他(tā)将繼續開(×σkāi)發DuckDB。