亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

C#在MySQL海量數(shù)據(jù)下的高效讀取、寫入

Original 2016-11-16 15:36:42 1151
abstract:前提由于工作的原因,經(jīng)常需要對(duì)海量數(shù)據(jù)進(jìn)行處理,做的數(shù)據(jù)爬蟲相關(guān),動(dòng)輒千萬(wàn)級(jí)別的數(shù)據(jù),單表幾十個(gè)G都是都是家常便飯。  主要開發(fā)語(yǔ)言是C#,數(shù)據(jù)庫(kù)使用的是MySQL。最常見的操作便是 select 讀取數(shù)據(jù),然后在C#中對(duì)數(shù)據(jù)進(jìn)行處理, 完畢后再插入數(shù)據(jù)庫(kù)中。  簡(jiǎn)而言之就 select -> process -> insert三個(gè)步驟

前提

由于工作的原因,經(jīng)常需要對(duì)海量數(shù)據(jù)進(jìn)行處理,做的數(shù)據(jù)爬蟲相關(guān),動(dòng)輒千萬(wàn)級(jí)別的數(shù)據(jù),單表幾十個(gè)G都是都是家常便飯。  主要開發(fā)語(yǔ)言是C#,數(shù)據(jù)庫(kù)使用的是MySQL。

最常見的操作便是 select 讀取數(shù)據(jù),然后在C#中對(duì)數(shù)據(jù)進(jìn)行處理, 完畢后再插入數(shù)據(jù)庫(kù)中。  簡(jiǎn)而言之就 select -> process -> insert三個(gè)步驟。 對(duì)于數(shù)據(jù)量小的情況下(百萬(wàn)級(jí)別 or 幾百兆)可能

最多1個(gè)小時(shí)就處理完了。但是對(duì)于千萬(wàn)級(jí)數(shù)據(jù)可能幾天,甚至更多。 那么問(wèn)題來(lái)了,如何優(yōu)化??

wKiom1glaOfRineiAAAyQA9eznk024.jpg-wh_651x-s_3681483363.jpg

(數(shù)據(jù)庫(kù)的一覽,有圖有真相)

第一步 解決讀取的問(wèn)題

跟數(shù)據(jù)庫(kù)打交道的方式有很多,我來(lái)列舉下吧:

1. 【重武器-坦克大炮】使用重型ORM框架,比如EF,NHibernat 這樣的框架。 

2. 【輕武器-AK47】 使用Dapper,PetaPoco之類,單cs文件。靈活高效,使用簡(jiǎn)單。居家越貨必備(我更喜歡PetaPoco :))

3. 【冷兵器?匕首?】使用原生的Connection、Command。 然后寫原生的SQL語(yǔ)句。。

分析:

【重武器】在我們這里肯定直接被PASS, 他們應(yīng)該被用在大型項(xiàng)目中。  

【輕武器】Dapper,PetaPoco 看過(guò)源碼你會(huì)發(fā)現(xiàn)用到了反射,雖然使用IL和緩存技術(shù),但是還是會(huì)影響讀取效率,PASS

好吧那就只有使用匕首,原生SQL走起, 利用DataReader 進(jìn)行高效讀取,并且使用索引取數(shù)據(jù)(更快),而不是列名。

大概的代碼如下:

using (var conn = new MySqlConnection("Connection String..."))
{
    conn.Open();
    //此處設(shè)置讀取的超時(shí),不然在海量數(shù)據(jù)時(shí)很容易超時(shí)
    var c = new MySqlCommand("set net_write_timeout=9999999; set net_read_timeout=9999999", conn);
    c.ExecuteNonQuery();

    MySqlCommand rcmd = new MySqlCommand();
    rcmd.Connection = conn;
    rcmd.CommandText = @"SELECT `f1`,`f2` FROM `table1`";
    //設(shè)置命令的執(zhí)行超時(shí)
    rcmd.CommandTimeout = 99999999;
    var myData = rcmd.ExecuteReader();

    while (myData.Read())
    {
        var f1= myData.GetInt32(0);
        var f2= myData.GetString(1);
        //這里做數(shù)據(jù)處理....
    }
}

哈哈,怎么樣,代碼非常原始,還是使用索引來(lái)取數(shù)據(jù),很容易出錯(cuò)。  當(dāng)然一切為了性能咱都忍了

 

第二步 數(shù)據(jù)處理

其實(shí)這一步,根據(jù)你的業(yè)務(wù)需要,代碼肯定不一, 不過(guò)無(wú)非是一些字符串處理,類型轉(zhuǎn)換的操作,這時(shí)候就是考驗(yàn)?zāi)愕腃#基礎(chǔ)功底的時(shí)候了。 以及如何高效編寫正則表達(dá)式。。。

具體代碼也沒法寫啊 ,先看完CLR via C# 在來(lái)跟我討論吧 ,O(∩_∩)O哈哈哈~ 跳過(guò)。。。。

 

第三部 數(shù)據(jù)插入

如何批量插入才最高效呢?  有同學(xué)會(huì)說(shuō), 使用事務(wù)啊,BeginTransaction, 然后EndTransaction。 恩,這個(gè)的確可以提高插入效率。 但是還有更加高效的方法,那就是合并insert語(yǔ)句。

那么怎么合并呢? 

insert into table (f1,f2) values(1,'sss'),values(2,'bbbb'),values(3,'cccc');

就是把values后面的全部用逗號(hào),鏈接起來(lái),然后一次性執(zhí)行 。

當(dāng)然不能一次性提交個(gè)100MB的SQL執(zhí)行,MySQL服務(wù)器對(duì)每次執(zhí)行命令的長(zhǎng)度是有限制的。 通過(guò) MySQL服務(wù)器端的max_allowed_packet  屬性可以查看, 默認(rèn)是1MB

咱們來(lái)看看偽代碼吧

//使用StringBuilder高效拼接字符串
 var sqlBuilder = new StringBuilder();
 //添加insert 語(yǔ)句的頭
 string sqlHeader = "insert into table1 (`f1`,`f2`) values";
 sqlBuilder.Append(sqlHeader);
 using (var conn = new MySqlConnection("Connection String..."))
 {
     conn.Open();
     //此處設(shè)置讀取的超時(shí),不然在海量數(shù)據(jù)時(shí)很容易超時(shí)
     var c = new MySqlCommand("set net_write_timeout=9999999; set net_read_timeout=9999999", conn);
     c.ExecuteNonQuery();

     MySqlCommand rcmd = new MySqlCommand();
     rcmd.Connection = conn;
     rcmd.CommandText = @"SELECT `f1`,`f2` FROM `table1`";
     //設(shè)置命令的執(zhí)行超時(shí)
     rcmd.CommandTimeout = 99999999;
     var myData = rcmd.ExecuteReader();
     while (myData.Read())
     {
         var f1 = myData.GetInt32(0);
         var f2 = myData.GetString(1);
         //這里做數(shù)據(jù)處理....
         sqlBuilder.AppendFormat("({0},'{1}'),", f1,AddSlash(f2));
         if (sqlBuilder.Length >=  1024 * 1024)//當(dāng)然這里的1MB length的字符串并不等于 1MB的Packet。。。我知道:)
         {
             insertCmd.Execute(sqlBuilder.Remove(sqlBuilder.Length-1,1).ToString())//移除逗號(hào),然后執(zhí)行
             sqlBuilder.Clear();//清空
             sqlBuilder.Append(sqlHeader);//在加上insert 頭
         }
     }
}

好了,到這里 大概的優(yōu)化后的高效查詢、插入就完成了。  

 

結(jié)語(yǔ)

總結(jié)下來(lái),無(wú)非2個(gè)關(guān)鍵技術(shù)點(diǎn),DataReader、SQL合并,都是一些老的技術(shù)啦。 

其實(shí),上面的代碼只能稱得上 高效 , 但是, 卻非常的不優(yōu)雅。。。甚至難看。。。


Release Notes

Popular Entries