技術(shù)詳情
Barcode長(zhǎng)度和barcode文庫(kù)復(fù)雜度
使用核苷酸創(chuàng)建barcode 涉及為不同的信息分配獨(dú)特的DNA序列。首先,可以使用一個(gè)短的核苷酸序列編碼基礎(chǔ)信息,例如一個(gè)特定細(xì)胞的標(biāo)識(shí)符。具體而言,“ATCG”可能代表細(xì)胞1,“TAGC”代表細(xì)胞2。隨著barcode長(zhǎng)度的增加,編碼信息的復(fù)雜性和多樣性會(huì)呈指數(shù)級(jí)增長(zhǎng)。Barcode的長(zhǎng)度越長(zhǎng),可用的排列組合數(shù)量越多,其識(shí)別更多變體的能力也越強(qiáng)。
Barcode 文庫(kù)的最大復(fù)雜度可以根據(jù)給定的一組核苷酸其生成的排列組合數(shù)目計(jì)算。對(duì)于隨機(jī)核苷酸的barcode ,每個(gè)位置可能有四種結(jié)果:A、T、G或C。給定barcode長(zhǎng)度(N)的排列組合總數(shù)(復(fù)雜度)為4N。例如:一個(gè)隨機(jī)NNN barcode 有64種(43)可能的組合。隨著barcode長(zhǎng)度的增加,復(fù)雜度呈指數(shù)級(jí)增長(zhǎng)。這種指數(shù)增長(zhǎng)彰顯了barcode文庫(kù)可使用更長(zhǎng)的序列來編碼信息的能力,因?yàn)樗试Sbarcode中擁有數(shù)量眾多的唯一標(biāo)識(shí)符。
載體和barcode設(shè)計(jì)
設(shè)計(jì)病毒載體中barcode的位置需要策略性的考量,以確保讀取計(jì)數(shù)的有效性以及與文庫(kù)克隆、篩選和去卷積分析過程的兼容性。對(duì)于慢病毒載體,barcode應(yīng)位于到病毒載體的整合區(qū)域中,確保它與相關(guān)遺傳元件(如gRNA或可變區(qū)域)一起穩(wěn)定整合到宿主基因組中。如果將barcode定位在轉(zhuǎn)錄區(qū)域內(nèi),將可通過RNA轉(zhuǎn)錄物進(jìn)行barcode讀取。為了方便后續(xù)分析,所選barcode序列應(yīng)兼容PCR,以便有效且均勻地?cái)U(kuò)增。此外,barcode設(shè)計(jì)應(yīng)適用于NGS,確保在測(cè)序過程中可檢測(cè)和準(zhǔn)確量化。理想情況下,barcode序列不應(yīng)干擾所研究的生物過程,以避免結(jié)果出現(xiàn)人工假象,但這通常要求充備的先驗(yàn)知識(shí)以進(jìn)行判斷。
設(shè)計(jì)barcode還需要考慮所謂一對(duì)一或多對(duì)一策略。Barcode和可變區(qū)之間的一對(duì)一關(guān)系意味著單個(gè)barcode僅代表一個(gè)可變區(qū),這確保了barcode與其各自的可變區(qū)之間直接關(guān)聯(lián)。而在多對(duì)一關(guān)系中,多個(gè)barcode可以代表相同的可變區(qū)。這種策略具有特別的優(yōu)勢(shì):首先,將表示相同可變區(qū)的多個(gè)barcode視為重復(fù)樣本,從而增強(qiáng)了陽性結(jié)果的可統(tǒng)計(jì)性。這種統(tǒng)計(jì)數(shù)據(jù)量的提升有利于識(shí)別真正的陽性結(jié)果并將其與高通量實(shí)驗(yàn)中產(chǎn)生的隨機(jī)變化相區(qū)分。其次,為同一可變區(qū)使用多個(gè)barcode可以進(jìn)行克隆分析,這對(duì)于研究異質(zhì)性細(xì)胞群(如腫瘤細(xì)胞)也有重要的價(jià)值。
Barcode基因遞送和NGS分析
為了將DNA barcode遞送到細(xì)胞中,研究人員可以使用病毒載體如慢病毒、AAV和逆轉(zhuǎn)錄病毒系統(tǒng),或者非病毒載體如piggyBac和Sleeping Beauty的轉(zhuǎn)座子系統(tǒng)。特別是在NGS分析時(shí),分離細(xì)胞的barcode需要確定使用RNA還是基因組DNA用作barcode讀取,而這是由將barcode引入細(xì)胞的基因遞送系統(tǒng)類型決定的。將barcode永久性地整合到細(xì)胞基因組中的系統(tǒng)有利于基因組DNA的分離。然而,這還需要確保它們適合于PCR擴(kuò)增并與NGS測(cè)序兼容。另一方面,如果barcode作為轉(zhuǎn)錄本的一部分表達(dá),RNA則反映了barcode的讀取信號(hào)。在單細(xì)胞RNA測(cè)序?qū)嶒?yàn)中,如Perturb-Seq和CROP-Seq,需要同時(shí)捕獲轉(zhuǎn)錄本和barcode信息,RNA讀取對(duì)于實(shí)驗(yàn)設(shè)計(jì)的兼容性至關(guān)重要??偠灾?,barcode讀取策略的選擇與barcode遞送系統(tǒng)的既定特征以及實(shí)驗(yàn)?zāi)繕?biāo)是密切關(guān)聯(lián)的,而這也印證了高度定制化的實(shí)驗(yàn)方法對(duì)于相對(duì)獨(dú)特的研究的重要性。
實(shí)驗(yàn)數(shù)據(jù)
圖1 一個(gè)N(21)barcode的核苷酸分布,使用簡(jiǎn)并核苷酸策略顯示每個(gè)位置的A、C、G、T的百分比。該圖表明在所有位置的核苷酸比例分布相近。