De CMS collaboratie bij CERN heeft zojuist meer dan 1 PB (petabyte) open data van botsingen bij de LHC vrijgegeven.

20/12/2017 - 18:00

20 december 2017 : De CMS collaboratie op CERN is verheugd de release bekend te maken van de derde reeks hoge-kwaliteit open data van de CMS-detector bij de Large Hadron Collider (LHC), beschikbaar op de CERN Open Data-portal . 

Deze nieuwe dataset bevat meer dan 550 terabytes, of  in deeltjesfysicataal 11.6 inverse femtobarns (fb -1), van proton-proton botsingsgegevens die in 2012 zijn geregistreerd. Op dat moment draaide de versneller bij een botsingsenergie van 8 Tera-electronvolt. Na het verwijderen van data waar de detectoren of versnellers niet volledig functioneren, bevat de dataset bevat ongeveer de helft van de data die dat jaar genomen is. Ongeveer 510 terabytes aan simulatiegegevens worden nu ook beschikbaar gesteld, en meer van deze simulaties zullen in de toekomst worden toegevoegd. De simulatie-samples beschrijven de meest voorkomende typen botsingen en kunnen zo worden gebruikt om de verschillende typen LHC botsingen (en de deeltjes die daar worden geproduceerd) te identificeren. 

Deze versie bevat datasets die zijn gebruikt om het Higgs-deeltje te ontdekken en de gegevens zijn beschikbaar in hetzelfde formaat dat CMS-wetenschappers gebruiken voor onderzoek. CMS levert ook kleinere, vereenvoudigde gegevensreeksen voor educatief gebruik. De gegevens zijn vrijgegeven voor het publieke domein onder de Creative Commons licentie.

Dit is de derde keer dat CMS open data heeft vrijgegeven, in 2014 werd 27 Terabyte aan botsingsgegevens van de data verzameld in 2010 al beschikbaar gesteld, en in 2016 werd de 2011 data vrijgegeven en ook simulaties van de botsingen, in total zo'n 100 Terabyte.

Met de data uit 2010 en 2011 is ook al onderzoek gedaan door onafhankelijke wetenschappers die de eerste collectie open gegevens gebruikten. De teamleader van de twee van die resultaten schreef over zijn ervaring voor het CMS-blog .

Het is mogelijk naar losse botsingen te kijken via http://opendata.cern.ch/visualise/events/cms 

De kracht van de LHC data is echter het toepassen van statististische analyse over de combinatie van heel veel verschillende botsingen. Dit is de reden waarom onderzoek zoals wordt gedaan aan de versneller op CERN ook aan de grondvesten staat van de huidige big data revolutie. De data wordt dan ook beschikbaar gesteld in formats die in dat veld veel worden gebruikt, zoals de programmeertalen R en python, en code om de data te analyseren is beschikbaar in github en via jupyter notebooks. 

Op de CMS open data portal zijn inleidingen / handleidingen voor verschillende niveaus te vinden voor het gebruik van CMS Open Data voor onderzoek en voor onderwijs .
En aangezien deze gegevens ook werden gebruikt om de Higgs-ontdekking in 2012 aan te kondigen, is het mogelijk om de distributies die aan de grond stonden van deze ontdekking te reproduceren. Prof. Freya Blekman, professor aan de Vrije Universiteit Brussel en betrokken was bij het schrijven van de open-data handleidingen, geeft aan waarom het belangrijk is dat deze data beschikbaar wordt gemaakt:

"De experimenten aan de LHC spreken jong en oud tot de verbeelding. Omdat wij onze experimenten doen met de hulp van voornamelijk publieke geldstromen, vinden wij het ook heel belangrijk dat de data ook weer voor het publiek beschikbaar wordt. Dit is daarom ook formeel vastgelegd in de regels van onze internationale collaboratie, via een zogenaamde Data-preservation policy. Ook als persoon vind ik dit belangrijk, jonge (toekomstige) wetenschappers maar trouwens ook actieve onderzoekers aan universiteiten hebben heel veel aan deze data. Wij hebben er al honderden papers over geschreven, het is nu tijd om de data terug te geven aan de maatschappij, zoals we ook hebben gedaan met onze spin-off zoals bijvoorbeeld het WWW. Het is trouwens echt niet zo dat die data al nutteloos is, ik heb nu al enkele ideeen voor projecten die hiermee kunnen worden gedaan. Zeker als ik bijvoorbeeld met een bachelor of masterstudent werk, is deze data uitstekend geschikt om nog nieuw, nooit gedaan, onderzoek te doen!" 

De CMS data policy is hier te vinden. 

Verdere informatie:

 

Contact: Prof. Freya Blekman

Meer informatie over de CMS data release is hier te vinden http://opendata.cern.ch/docs/observing-higgs-over-one-petabyte-new-cms-open-data