里面提到用sgRNA二次筛选结合高通量测序验证。
我不太明白,为什么要选择20nt长度的sgRNA?
是不是因为这个长度能最大化降低与基因组其他区域的同源性?”
乔海燕愣了一下,显然没料到这个“超市干活的”能说出这么专业的问题。
她推了推眼镜,语气缓和了些:“没错,20nt是目前验证过的最优长度——太短会降低靶向特异性,太长则容易引发非特异性结合。
不过我们团队最新的研究显示,在sgRNA的5端添加两个鸟嘌呤核苷酸,能进一步提高Cas9的切割效率,脱靶率能降低37%。”
“原来是这样。”季洁作恍然大悟状,继续追问,“那您在论文里提到的‘基于深度学习的脱靶风险预测模型’,输入参数除了sgRNA序列、PAM结构,是不是还纳入了染色质开放状态的数据?
我看您用的数据集里有ENCODE的DNase-seq数据,这对模型精度提升真的有那么显着吗?”
这话一出,乔海燕彻底收起了轻视。
她饶有兴致地看着季洁,像发现了同行:“你看得很细。
染色质开放状态的影响确实关键——同一个sgRNA,在异染色质区域可能完全无脱靶,在常染色质活跃区却可能出现多靶点切割。
我们的模型加入这一参数后,预测准确率从79%提升到了91%,在临床前研究中特别实用。”
她越说越投入,手里的文件夹被随意地夹在腋下,开始给季洁讲解模型构建时用到的卷积神经网络架构,从输入层的序列编码讲到输出层的风险评分函数,专业术语像连珠炮似的蹦出来。
季洁一边点头附和,一边用眼角余光瞟着实验室的门,耳朵里听着蓝牙耳机里的动静——
杨震的声音带着电流杂音:“65%……70%……”
她的后背已经被冷汗浸湿,每一秒都像在走钢丝。
乔海燕的讲解正到兴头上,忽然话锋一转:“你一个超市员工,怎么会对这些感兴趣?”