51吃瓜网

那一些併不會做實驗高能實驗物理學家在幹什麽?

那一些併不會做實驗高能實驗物理學家在幹什麽?

作為一名在大型強子對撞機(LHC)工作的高能物理實驗學家,慚愧地說,我從未動手建造過其中的任何部件,甚至直到我在LHC工作的第五年,名下已有好幾篇關於LHC的學術文章,我才見到了探測器本尊。所以當別人問起我是做什麽的時候,我總感到萬分艱辛:

“聽說妳們實驗花了很多錢?”

“確實,建造大概花了50億瑞士法郎。”

“這麽大專案啊!那妳是設計實驗還是操作儀器的?”

“都不是,我們有非常專業的同事來完成這些事情。”

“那妳幹什麽呢?”

“我主要分析數據。”

空氣通常在這時就凝固了。竟有實驗物理學家不做實驗,依靠別人給的數據生存。分析數據不就是整理結果嘛,還需要專門設定一個職業,而且還需要博士文憑?

這倒不是什麽離譜的刻闆印象,1960年到1980年的粒子物理實驗就常常雇傭一些臨時員工來分析數據。那時一般用氣泡室作為探測設備,帶電的粒子經過它們時會電離,產生肉眼可見的“徑跡”,每隔幾秒就會有一張照片記錄這些徑跡,物理學家就利用這些照片來尋找新的粒子或新的物理現象。(編者註:參見《自己動手,在家做一回粒子物理實驗》)

和這個世界的大多數事情一樣,經常發生的沒意思,有意思的不經常發生。物理學家需要在一張張照片中尋找這些反常的事件,這就是所謂的分析數據,是一項工作量很大的工作。於是他們雇傭大量的臨時科研人員甄別這些照片,將反常的照片挑出來供物理學家進一步分析。這聽上去確實很枯燥,而且這些付出了大量時間的人,甚至不會在最終的文章中留下名字。(因為大部分被雇傭的臨時科研人員都是女性,歴史上有人稱她們為“Scanning girls”,如果妳對她們和這段歴史感興趣,可以讀讀這篇報道。)

那現在情形如何呢?當然是發生了很大的變化。這個變化可不是臨時工被替換成了收入同樣微薄的博士生,併允許他們在文章中出現名字這麽簡單。粒子物理實驗進入大科學專案時代後,數據量突飛猛進,遠遠超過人工所及。

在LHC上,質子束以每秒4×107的頻率迎頭碰撞,併被軌道上四個主要的大探測器記錄下來。LHC是目前世界上最大的隨機數產生子,如果有人不相信量子力學,一定要讓他來看LHC的數據。妳永遠都不知道下一次碰撞出的到底是兩個膠子,還是一對正反頂誇克。但是理論計算告訴妳後者的機率要小得多,如果妳把採集到的數據逐個翻一遍,妳會發現產生正反頂誇克的個數確實和理論預言的一樣。

這時新的挑戰來了:由於傳輸和存儲的限制,保存所有數據是不現實的,因此要進行快速篩選。要多快呢?為了避免不斷碰撞出的數據擠爆緩存和存儲設備,我們需要在0.000001秒內,從400個數據中粗選出1個有用的數據,再在0.1秒內從100個這樣的數據裏挑1個存儲。這個被稱作“觸發”的過程扔掉了大部分的實驗數據,而保留的事件由我們關心的物理決定。

篩選條件需要根據物理進行調整:比如我們想從數據中找到Z玻色子(傳遞弱相互作用的中性粒子),於是觸發會要求事件中含有兩個高動量的電子或繆子,因為他們是Z玻色子常見的衰變產物;或者我們想尋找一個標准模型沒有預測的新粒子,它會錶現為一個包裹著兩個底誇克的高動量噴註,於是觸發既要尋找到一個噴註,還得鑒別它內部的信號真的來自於底誇克。

顯然,我們需要機器來完成觸發,但告訴機器怎麽做可不是一件容易的事情。在LHC上,對撞產物留下的信息仟奇百怪,光是帶電徑跡就有上仟條,還有散落在各處的能量沈積,一切亂糟糟的,妳很難一眼看出哪裏有電子,更不要說鑒別它們的種類了。

這一切迫使粒子物理實驗學家成為機器學習和圖像識別的高手。早在1990年,歐洲核子中心LEP實驗的粒子物理學家就已經將神經網路運用在了觸發繫統上;在現在的LHC上,我們也是利用重建和鑒別算法將探測器中復雜的信號識別為不同類別的粒子,再進而完成觸發的。

聽過LHC的人大概也聽說過希格斯玻色子,它的發現是LHC目前最著名的成果,由此驗證了1964年提出的希格斯機制,完成了標准模型的最後一塊拼圖。事實上在LHC上搜尋希格斯玻色子,於2010年正式取數開始,2012年物理學家就宣佈了這個重要結果。這麽看來,在經過進行復雜的觸發繫統篩選後,實驗學家們似乎輕鬆愉快地就找到了希格斯玻色子。但我以當年在歐洲核子中心看到的無數貓熊眼嚮妳保證,這個過程可沒有那麽簡單。

以LHC上的探測器CMS為例,每秒CMS都會存儲幾個Gb的數據,一年運行下來,纍積存儲了十幾個Pb。借用LHC的官方文宣,這些數據相當於1仟萬張DVD,如果把它們堆起來,將會有12仟米高。在這海量的數據中,實驗學家們最後發現了多少希格斯玻色子呢?下面這張圖片來自於當年的PO會,妳用幾秒就能數出“黃金道”四輕子末態中的數據個數,能被稱作疑似希格斯玻色子的事件大概只有14個,其中一半還是偷偷混進來的“背景”——就是那些併非希格斯玻色子,但卻被選中的事件。

希格斯玻色子的產生截面(即機率)很小,是LHC物理總截面的10-10倍。想要在這茫茫數據中找到這些稀有的希格斯玻色子,我們需要對它進行非常精准的特徵刻畫,量身定做選擇條件,最終篩選想要的結果。打開任意一篇LHC的文章,妳會發現實驗學家們在這方面下了很大的力氣,用各種方法去除或區分背景。

機器學習大概是其中最常用的工具了。然而無論這些方法多麽復雜、多麽細致,篩選出的事件總會混入一些背景,這時物理學家會陷入兩難境地:放寬條件會混入更多背景,而下狠手嚴格篩選的話,可能連我們想要的數據——也就是信號——就會不剩幾個了。

於是實驗學家們還得精通統計學,將最終得到的數據翻譯成一個叫顯著度的東西,由此衡量結果的好壞。妳大概很難想象,LHC上的實驗學家們常常需要花上少則一年,上無封頂的時間來確保所有的隨機漲落和繫統誤差的正確性,因為不嚴謹的誤差處理對顯著度有巨大的影響。誤差的大小取什麽值合適,應該如何關聯,以及它們應該符合對數常態分配、還是平均分佈,這些都需要仔細推敲。

實驗學家們還發明了很多驗證統計結果可靠性的測試,如果妳路過一間事務室,聽到有人在咆哮道:“JES(噴註能量標度)怎麽又被over constrained了?!”不要驚訝,這只是一個粒子物理實驗室的博士生在進行日常的繫統誤差檢查。

當然,顯著度只是諸多統計錶達中的一種,我們關心的物理問題不同,統計方法和錶達方式也會發生變化。現代粒子物理數據分析就是一個將海量數據轉換為一個簡單的數字或結論的過程,實現這個過程需要龐大的知識體繫,包括粒子物理理論、探測器技術、機率論和數理統計知識、數據處理機器學習和強大的編程能力。

博士生們常常開玩笑,說他們一半的時間在寫代碼,一半的時間在找bug,但要設計代碼併理解程式運行的結果,靠的還是全面的物理和統計知識。有人提議將粒子物理實驗學家改名為“數據物理學家”,我覺得這倒貼切地反映了這個行業所需要的技能。

如今,在粒子物理中,物理學、數學和計算機科學的交叉融合正在慢慢改變分析方法。得益於深度學習的發展和應用,從探測器的信號中鑒別粒子種類的能力在過去幾年飛速發展,古早的逐個事件篩選方法被新的方法代替,速度可以提升100倍。這些方法很多是由年輕人提出併實現的,他們知識的全面性常常超過了我的預期。我想我們的大學部和研究生教育也需要提供更多的課程和實踐以適應學科的發展,讓他們有更堅實的基礎去創新。

在為這篇稿子做調研時我讀到一則新聞,三名MIT的博士生基於他們處理LHC大量數據的經驗,成立了一家雲數據庫服務公司Cloudant,這家公司在2014年被IBM收購。我希望在不久的將來,我們的博士生也可以用他們的專業知識來改變世界。

有人說粒子物理的終極模型也許會由大數據模型給出,盡管我對這個驚人的理論感到難以消化,但誰知道呢,讓年輕人來告訴我們答案吧!

您可能还会对下面的文章感兴趣:

娱乐圈大瓜揭秘:51cg今日最新鲜事速递