蛋白芯片实际上是个老古董了,但那会儿没人知道它有多“土”。在 20 世纪 80 年代,我们连蛋白质合成机器都差点没造出来,那时候哪位还关心啥蛋白芯片?毕竟那时候连细胞啥玩意儿都不清楚。

不过,蛋白质这东西大家天天用,吃个鸡蛋清、喝杯牛奶,身体里到底藏着啥,我们自然想知道。但那时候,实验室里的显微镜根本看不清单个蛋白质,只能看一堆糊成一团的大团块。 那时候,科学家最头疼的就是样本不够用。

你想看一种特定的蛋白,一般要造好几百个细胞,培养好了还得裂解成碎片,最终还要经过各种复杂的回收步骤,取出来的量可能还不如一个蛋清里的一半。并且,那时候的蛋白质检测手段忒原始了,只能靠一堆乱七八糟的沉淀和复杂的化学反应,根本没法准判断到底是哪种蛋白多了要么少了。更费事的是,这玩意儿还得靠肉眼要么笨重的仪器去观察,效率低到离谱,一次检测可能需求几天。 到了 1990 年代初,情况才启动一点点好转。

那时候的芯片还比较简陋,像是一块块透明的玻璃要么塑料板,上面印着密密麻麻的孔。你往孔里滴一滴样品,盖个盖子,过几个小时看看颜色有没有变化,就能知道这槽位里有啥。

那时候的芯片主要是用来做好办的显色反应,比如看蛋白质是不是有了反应,要么有没有形成化学反应。它的功能有点像目前的 T 恤印花,别看不能看清楚细节,但能证明“有”或“没有”,还能大约分出个高低。 这时候的蛋白芯片最大的毛病是分辨率忒低。你要是想看看两个蛋白到底拼在一起没,那是绝对做不出的。出于那时候的芯片设计是固定的,槽位之间固定距离,只能容忍误差。你打算粗看一个蛋白,那没难题,你想精细分析两个蛋白的相互功能,直接就把你排除在外了。并且,那时候检测到的数据往往只是好办的“有”或“无”,少了定量信息,更别提啥具体的浓度、富集比例要么异构体分布这些数据了。 直到 90 年代末,也就是 97 年左右,一个叫公司的人突然心血来潮,拍板“搞搞这个”。他说他们买了一块庞大的芯片,几千个孔,就连都不知道具体有多少个。他们想的是,既然如此多孔,那就全扫一遍,把每个孔的蛋白都测一遍。

那时候的扫描技术实际上挺原始,用的是激光和光电倍增管,扫描完一个孔大约要几秒,扫描几千个孔,工夫得十几个小时。但公司想的是,工夫不是难题,只要数据全,信息全就行。 这就挺有意思了。

那时候的芯片,孔之间是固定距离的,槽位是预先定死的。

这意味着,你只能看到那些“标准位置”上的蛋白

要是你感兴趣的蛋白,它的天然位置不在那些标准的槽位上,你就得想办法把它移到那些位置上去才能测。

如何移?人工贴上去啊。你拿显微镜看着一个孔,用镊子把想要的蛋白从培养皿里拿出来,再移到芯片孔位上,还得小心别弄坏了。 这里面有个庞大的代价。

这张纸,要么说这张庞大的芯片,每一排蛋白的位置是固定的,只要你想测这个位置,就得把它移过来。

要是它不在标准位置,你就得花工夫找、弄、贴、测。

要是位置有点偏差,你还得重新贴。试了好几次都不对,最终发现那个蛋白根本就不能做这个实验。 为了搞清楚这事儿,他们团队做了一个详细的统计。他们发现,要是随机地选一堆蛋白,大局部是“天然”位置在槽位上的,也就是不用动;但那些非天然的、想测的蛋白,位置错得越来越多。有的就连错到一半,得贴一半;有的彻底贴错,根本测不到。

这就好比你在一片固定地图上找树,树都在那。你要是想测那些非天然的树,得先给它们“搬家”。 这背后有个数学上的解释。假设我们要测 $N$ 个蛋白,其中 $K$ 个是天然位置,$N-K$ 个是非天然位置。

要是 $N$ 挺大,$K$ 也较大,比如几十上百个,非天然位置的占比会挺低。

可是,当你把 $N$ 降到几百,要么更少的时候,非天然位置的占比就会显著上升。你会发现,你花的工夫,花在寻找、移动、验证那些“非天然”位置上的蛋白上,比例会越来越高。

这就是为啥他们认定“得先找样本”的逻辑——要测所有非天然蛋白,得花庞大的工夫成本,大量时候,花一半的工夫去找,可能最终只有 20% 的蛋白能测出来。 为了验证这个结论,他们确实做了一个实验。他们拿了一大堆蛋白,一局部天然,一局部非天然,按随机分布投到芯片上。

然后依次测量前几个槽位的蛋白。结局贼惊人:前几个槽位测出来的东西,绝大多数都是天然位置上的蛋白,就连是同一种蛋白的不同拷贝。而越往后测,非天然位置上的蛋白占比就越猛。到最终测了十几个槽位后,非天然位置的占比简直超过了天然位置。 他们发现,要是非要测那些非天然的蛋白,得从后面启动测。出于前面测的那些天然位置,别看也算数据,但可能干扰了后面的分析,要么没被关切到。真正的难点在于,那些非天然位置的蛋白往往不表达,要么表达量极低,根本见不到。

故此,他们得想办法先找到这些“非天然”的线索,再倒着测。 这个过程忒痛苦了。你得在成千上万个孔里,找到那 5% 到 10% 的“非天然”孔。

这就像是在一百个瓶子里找那个空瓶子,每看一个就扔一个,得看几十上百次。一旦找到,还得重新做实验验证,不然数据就废了。并且,出于位置是固定的,你不可能一次测全,你得一步步来,前一个没搞定,后一个就废了。 这就是蛋白芯片的残酷现实:它是个强大的工具,但工具本身并不是万能钥匙。它的价值在于把原本需求几十上百个样本来搞定的实验,压缩成了几百个孔,大大下降了成本。但它也有个庞大的缺陷:它的分辨率不够,只能看到“点”,看不到“线”,更看不到“面”。

要是你想看两个蛋白是不是拼在一起,要么想搞清楚它们的相互功能网络,光靠这个芯片是绝对做不到的。 你看目前的生物芯片,已经进化成了啥模态呢?目前有表面等离子体共振(SPR)、流式细胞仪、质谱联用技术,还有基因芯片

这些技术能把数据做得更精细,能看清蛋白的细微动态和相互功能。但归根结底,蛋白芯片最初的价值是啥?是能大幅下降实验成本,把样本利用率提升几十上百倍。它的优势在于“量”,不在于“质”。 故此,回到最启动的那个难题,蛋白芯片检测的是啥?它检测的是蛋白的“存有”,是蛋白的“量”,是蛋白在特定位置上的“定位”。它不是用来做精细互作分析的,而是用来做初步筛选、质量管住、要么寻找那些稀有、低丰度蛋白的。 目前想想,当年的那只公司,要是最终只测到了 20% 的蛋白,那他们到底是赚了还是亏了?大量人认定亏惨了,出于本来能够测全的。但反过来想,要是非要测全,代价未免忒大了。

有时候,能做的,就是做的,能测的,就是测的。

有时候,找到那个 20% 的非天然蛋白,本身就是一个庞大的发现。 这就是蛋白芯片的历史。它从一块块简陋的玻璃板,一步步演变成了复杂的分析平台,但在挺长一段工夫里,它一直锚定在“低成本、高通量”这个原点上来。它没有试图去挑战分辨率的极限,而是包容了它的局限性。它告诉你,能测多少,就是多少;能发现多少,就是多少。 后来,随着技术的进步,单蛋白分辨率提升了,互作分析也变得更精细,蛋白芯片似乎一度被边缘化。但看看目前的新一代芯片,比如微流控芯片、空间转录组技术,实际上又在尝试找回它最初的热忱——试图在微观世界里,把每一个蛋白的位置、每一个互作的细节都弄清楚。 不过,甭管技术如何升级,蛋白芯片那个“先找非天然,再测天然”的底层逻辑,似乎还挺难彻底抛弃。

毕竟,在海量数据面前,找到那微乎其微的异常点,往往才是科研突破的真正启动。

故此,蛋白芯片依然检测着那些沉睡在芯片深处、等待被唤醒的“非平凡”信息。