statistik

Fotbollens framtid XVII : Bättre spelarstatistik

För några veckor sedan kunde man läsa i Gepe att ”Sebastian Larsson är bättre än Giggs, Terry och Tevez” med hänvisning till Premier Leagues officiella statistik. Leverantören Actim Index sammanställer ett index över ligans spelare för en inbördes rankning.

På många sätt är det givetvis typiskt att läsaren får dylik information i sin morgontidning på grund av att en svensk råkar vara rankad på topp100. Lite på samma sätt som FC Barcelona i svensk kvälltidningsvärld i princip döpts om till FC Zlatan (inte långt ifrån FC Z!).

Enligt Premier Leagues officiella sida går beräkningen till såhär:

  • Calculation 1 – Assesses a player’s contribution to a winning team, based on points won by the team when he appeared
  • Calculation 2 – Assesses a player’s performance in each game, by allocating points for actions that positively contribute to a winning performance such as shots, tackles, clearances and saves. It also takes points away from players for negative actions such as yellow/red cards and shots off target
  • Calculation 3 – Allocates points based on time on the pitch
  • Calculation 4 – Allocates points for goal scorers
  • Calculation 5 – Allocates points for assists
  • Calculation 6 – Allocates points for clean sheets
  • Vad jag finner problematiskt med rankningar likt denna är att det frågan om viktningen av beräkningarna. Det är svårt att på ett självklart och objektivt sätt bestämma vilken tyngt (antal poäng) som skall tilldelas olika faktorer i sammanräkningen. Även om det givetvis finns än mer problematiska rankningar än detta, som exempelvis internationella lärosäten (jag skiter i sådant även om min arbetsplats är på plats 76).

    Det jag tycker är lite intressant är vilken betydelse detta kan få i framtiden. Jämfört med många amerikanska sporter, kanske i första hand amerikansk brännboll, är, eller var, statistiken och informationen kring enskilda fotbollsspelares prestation tämligen begränsad. Statistik har i fotbollssammanhang oftast framställts som underlag för anekdoter än för analys (”Om Pelle Svensson i Knypplinge IK gör mål på Dynamo Glomköping blir det den tredje klubben för vilket han gör detta” eller ”Real Säffle har inte vunnit en hemmamatch mot Atletico Åmål på en lördag i mars när det blåser bris från sydväst med mer än ett mål sedan 1937”).

    Skillnad mot exempelvis amerikansk brännboll är att fotboll består av oftast långa, kontinuerliga sekvenser som involverar flera spelare och där även spelaren som inte är i närheten av bollen bidrar till resultatet. Exempelvis en anfallare som gör en löpning för att skapa utrymme för sin anfallskollega. Det går förstås att mäta hur mycket en spelare springer under en match men samtidigt är det föga värde att springa runt som en dekapiterad höna i nittio minuter.

    Ett fotbollslag är mer (ibland mindre) än summan av sina delar. Någon definitiv och rättvisande rankning av spelare kommer troligen aldrig kunna genomföras men mer tillgägnlig statistik med tillhörande analyser gör det i alla fall möjligt för den fotbollsintresserade att ytterligare distansera sig från klåpare till journalister som inte kan göra annat än fokusera på felaktiga domslut, mål och vilken spelare som har snyggast fru.

    Annonser

    Att mäta rasism

    Torsdagens GP Debatt fick igång mitt minne en smula. I Adopterade upplever vardagsrasism i Sverige presenterar artikelförfattarna att genom djupintervjuer med ett antal utlandsadopterade kommit fram till slutsatsen att rasismen ännu lever och frodas i landet:

    ”Då vår studie visar att även människor som växer upp och lever i helsvenska familjer och sammanhang diskrimineras med anledning av sitt utseende, bör vi sluta med att bara tala om etnisk diskriminering såsom är fallet idag, utan också slå fast att det i Sverige år 2008 pågår rasdiskriminering.”

    Citat från artikeln

    Metoden har alltså varit intervjuer. Jag är alltid lite skeptisk när en forskare sätter sig ner med en representativ människa från lämpligt strata, tittar dem djupt i ögonen och frågar hur det står till. Enkelt uttryck föredrar jag kvantitativa undersökningar framför kvalitativa. Inte minst ett så stort ämne som rasism.

    Rasism och annan diskrimingen är dock mycket svårt att mäta. På en rak fråga kommer de flesta människor medvetet eller omedvetet att ljuga, antingen för att de är politiskt inkorrekt (även om det är anonymt) eller för att de är omedvetna om sina egna fördomar. Även att vända sig till offren för diskriminering – som i den ovan refererade undersökningen – är problematiskt; trots allt är det fullt rimligt att i alla fall en del av dem vill skylla personliga misslyckanden på något annat än sina egna tillkortakommanden.

    Ett sätt att försöka angripa förekomsten som diskriming från ett annat håll är ofta deriverade från Gary Beckers teorier om diskriminering och humankapital. I detta sammanhang har det ofta talats och skrivits om så kallat ”Sverige-specifik kunskap” när integrationsfrågor har kommit på tal. Kort och burdust sammanfattat kan man säga att skillnader mellan invandrare och infödda svenskars framgång på till exempel arbetsmarknaden som inte går att förklara med hjälp av observerbara variabler (ålder, kön, utbildning etc) beror på denna mer svårdefinerade kunskap som kanske framförallt inbegriper sociala nätverk och förmåga att tolka koder och normer i det svenska samhället.

    Problemet med denna hypotes är förstås att om man drar den för långt reduceras all rasism och diskriminering ner till en förklaring som beror på en brist hos minoriteten och inte alls på korkade fördomar. Men då borde ju inte detta drabba adoperade som växt upp i landet och tagit del av denna ”Sverige-specifika kunskap” från sina blonda, ariska föräldrar – eller hur? Ja, men som jag redan poängerat är detta svårt att avgöra med direkta intervjuer.

    Men nu till min deus ex machina, det finns nämligen minst en undersökning som går runt denna problematik. I nr 8/2008 av tidskriften Ekonomisk Debatt publicerade lektor Dan-Olof Rooth (jag har inte läst någon av hans senare forskning – så måhända har han kommit längre) en undersökning med titeln ”Etnisk diskriminering och ‘Sverige-specifikt’ kunskap – vad kan vi lära från studier av adopterade och andra generationens invandrare?” (pdf). Däri jämförs framgången på arbetsmarknaden för adopterade i jämförelse med svenskar efter att deras socioekonomiska bakgrund tagits i beaktande.

    ”En första slutsats är att jag inte kunnat förkasta att diskriminering på grund av hudfärg faktiskt förekommer på den svenska arbetsmarknaden. Om den icke observerade positiva familjeeffekten och den icke observerade negativa adoptionseffekten exakt tar ut varandra, vilket de verkar göra för adopterade med svenskt utseende, för vilka studien inte finner några skillnader gentemot infödda svenskar, innebär det att diskriminering på grund av hudfärg medför cirka sex procentenheters större sannolikhet att vara arbetslös jämfört med dem som inte diskrimineras.
    […]
    Vi fann dessutom att ”Sverige-specifik” kunskap verkar vara väldigt viktigt för att finna en bra position på arbetsmarknaden. Denna slutsats kan dras från en jämförelse av sannolikheten för arbetslöshet för grupper med samma utländska bakgrund, men där en förälder är född i Sverige respektive där båda föräldrarna är födda utomlands.”

    Citat från Rooths slutsatser

    Fördelen med Rooths angreppsätt är att det inte tar med något allmänt tyckande i beräkningen. Istället är det svart på vitt vad hudfärg och etnicitet har för betydelse för individens möjligheter på arbetsmarknaden. Finns förstås alltid anledning att tolka även sådan information med försiktighet, statistiska felkällor och allt det där, men det är i alla fall intressant att visa på att det går att komma runt det allmänna subjektiva tyckandet och faktiskt komma till problemets kärna med rätt angreppsätt.

    SvFF undersöker verkligheten utanför Sundbyberg

    Efter att jag kommit hem från snöslasket och bankat av skorna mot dörrposten samt satt igång perkulatorn och datorn är givetvis det första jag gör att gå in på några av internets grönsvarta vattenhål för att ta del av det allmänna neggandet. en bit ner stöter jag på följande inlägg:

    ”SvFF genomför en attitydundersökning som går att nå via GAIS.se (uppe i högra hörnet) fyll i och förklara för L-Å Lagrell att han dödar fotbollen.”

    av signaturen Barbarella

    Aha, jag kan förstås inte undvika att gå in och bella på undersökningen. Upplagd på easyresearch av företaget Mistat AB. Om man svarar på alla frågor kan man vinna biljetter till landskamper eller kanske en landslagströja, en möjlighet som jag vänligen men bestämt avböjer då jag inte är vidare intresserad och inte skulle vilja hittas död i landslagets tröja. Anledningen att jag svarar är givetvis möjligheten att svara på en öppen fråga. Jag uttrycker mig inte så plumpt som signaturen Barbarella uppmanar utan nöjer mig mer några mer konstruktiva och utvecklade förslag (ingen av dem inbegriper i Gunnebostängsel inrullar Lars-Åke i Nybroviken).

    Det är ändå märkligt att relativt välbetalda slipsnissar är så lätta att lura att de betalar pengar för sådana här undersökningar. De är givetvis billigare än seriösa dito. Det finns dock en gammal axiom för sådant här – skit in, skit ut.

    Det viktiga med det hela stavas givetvis urval. Vi kan la nästan utgå från att inlägg liknande Barbarella kommer att snurra runt på flera mer eller mindre officiella forum och svaren på undersökningen kommer att bli därefter. Måhända svar som jag uppskattar, men näppeligen representativa. Snackade för någon månad sedan med en man som gjort seriösa undersökningar för ett allsvenskt lag och han menade att resultaten hade förvånat klubbledningen som – i den mån de lyssnat överhuvudtaget – hört på de mer röststrarka besökarna.

    Vad skrev jag då till SvFF. Jo, bland annat att det kanske inte är hälsosamt eller vidare smart att behandla sina olika målgrupper som ömsesidigt uteslutande; på en modern och stor arena finns det plats för såväl billig ståplats som jippon och kringarrangemang för de som uppskattar sådant och är redo att betala det. Det är inte vidare vettigt att producera en utspädd blandning och servera till alla och behandla delar av sin marknad som fiender.

    Ser man på. nu är kaffet färdigt!

    SOM man ropar…?

    (Det här inlägger är först skrivet för bloggen Bobbie till VM 2010)

    I dagens Gepe presenteras en undersökning av SOM-institutet kring stöder kring olika fotbollsklubbar i Västsverige. Insitutet har i flera år gjort stora undersökningar där frågor kring politik, samhälle, media och kultur står i centrum.

    Den undersökning som det skrivs om i Gepes sportdel förvirrar mig dock en smula. Resultaten är en smula slafsigt ihopskrivna; troligen resultatet av en journalist med en smula begränsade kunskaper i undersökningsmetodik som försöker sammanfatta resultaten utan att göra det till en lång utläggning i metodik. I Göteborg stödjer 47 procent DLS, 14 procent Öis och 13 procent GAIS.

    Det är inte så mycket resultaten som jag ifrågasätter – även om det förstås är en möjlighet utifrån det som jag vill ifrågasätta – utan urvalet. Nu kan det hela möjligen vara ett resultat av journalistens slarv – näppeligen en nyhet på gepes sportredaktion – men jag undrar. Enligt artikeln har:

    ”1267 supportrar som aktivt stöder sina lag och följer fotbollen har tillfrågats av forskarna om favoritlagen, vilket är ett tillräckligt statistiskt underlag.”

    I en undersökning av detta slag finns det i princip två felkällor: Dels uppstår obundna fel som beror på att resultatet av undersökningen avviker en smula från det faktiska sanna värdet genom slump, något som är oundvikligt men går att uppskatta och beräkna för att leda fram till det som i opinionsundersökningar oftast kallades den statistiska felmarginalen (journalisten har enligt min tolkning inget riktigt grepp om vad som menas med tillräckligt statistiskt underlag). De bundna felen är svårare att fånga och beror ofta på en dåligt genomförd undersökning. Hur är det möjligt att göra en uppskattning av antalet supportar som stödjer olika lag när urvalslistan av tillfrågade består av personer som aktivt stöder sina lag? Tas 50 procent av personerna på listan från IFK Göteborgs medlemsregister och säg 15 procent från GAIS medlemsregister och så vidare så torde la de siffrorna i sin tur avspegla sig i resultatet. Som man ropar får man svar.

    Förhoppningsvis har SOM helt enkelt gjort en mycket större undersökning bland människor i allmänhet och de som säger sig vara aktiva fotbollsanhängare har fått svara på några ytterligare frågor, i så fall kan det vara i sin ordning – den som lever får se, men jag räknar tyvärr inte på ett klargörande från Gepes sportredaktion.

    Glöm derbyrensade publiksiffror, bella på variationskoefficienten

    En återkommande och hetsig diskussion mellan olika supportrar rör publiksiffror och hur trogna publiken är. Olika ad hoc-lösningar används för att framställa sig egen klubb i bästa dager och smutskasta motståndaren.

    Genom fotbollsbloggen Den osynliga handen refererades jag till en Hammarbysida som heter Go Bajern Go där en skribent ägnat en del tid åt hurpubliksifforna. I del 3 använder sig denne av variationskoefficienten för att att avgöra hur trogen en publik är. Enkelt uttryckt indikerar en låg siffra en stabil publiksiffra och en hög siffra en kraftigt varierande publiksiffra (läs: evenemangs/marginalpublik). Tittat över allsvenska säsongen 1998-2007 med lag med minst sex säsonger i allsvenskan går det från 8 procent för Hammarby till 32 procent för MFF, se även gepes två favoritobjekt Elfsborg (27 %) eller DLS (24 %). Det skulle förstås vara otillbörligt att ta med GAIS i beräkningen, med bara tre säsonger i allsvenskan under aktuella år och likartade placeringar i nedre halvan, men det har jag gjort i alla fall; variationskoefficienten hamnar på under två procent. Den (interna?) myten om att gaisare är trogna är i alla fall inte hotad.

    (med en variationskoefficient på 50 % över alla tio åren, från divsion 2 och upp och ner och upp igen är det inte så mycket värre än di blåes allsvenska säsonger. Nog förstärks några fördomar om malmöbor också)

    Stabil publik i all ära, men det kan också vara ett uttryck på en misslyckad marknadsföring mot evenemangspubliken.

    Tävlingsbalans presenterat på bättre sätt

    Jag har vid några tidigare tillfällen berört begreppet tävlingsbalans (Competitive balance). Framförallt här men också här. Det har bara varit några mindre nedstamp där jag kört lite siffror i open office. På den osynliga handen har bloggaren gjort en bättre genomgång av tävlingsbalansen i engelska Premier League och avser snart att fortsätta med Tipeligan och därefter någon tävling som heter allsvenskan.

    Notera att han(?) har räknat på ett annat sätt, så jämförelser med mina är inte tillbörligt. Jag använde HHI på seriesegrar under tolv år som tecken på dominans, han använder sig av poäng som marknadsandelar för ett antal år.

    Fotbollens framtid IV – lek med siffror

    På grund av en seg och slö lördagsförmiddag bestämda jag mig lite för att leka med några enkla modeller för tävlingsbalans för en liga som jag svamlade om en del tidigare. Det tog ett tag, jag har inget vettigt program för statistiska beräkningar på burken och bestämde mig för att göra en enkel linjär regression på det gamla hederliga sättet; huvudräkning. OK jag använde mig i och för sig av ett kalkylblad – jag är inte rainman. Får la hoppas att jag hållit tungan rätt i mun.

    Om antagandet om en tilltagande obalans i den inhemska ligan gäller bör skillnaden i poäng under säsongen öka över tid. Det vill säga, topplagen tar allt fler poäng av bottenlagen i nu än förr. En enkel modell för en sådan utveckling torde vara att den oberoende variabeln år (Xi) påverkar den beroende variabeln standardavikelse i poäng (Yi) för det året.

    Jag har räknat om alla allsvneska tabeller under min livstid (1978-) till två poäng för seger och beräknat en enkel linjär ekvation med följande resultat:

    Yi=6,104+0,0107Xi


    Inte direkt någon imponerande modell med en förklaringsgrad (Rkvadrat) på 0,01. Året förklarar 1 procent av poängvariationen mellan lagen i allsvenskan 1978-2007. Slutsatsen tycks vara att tiden har ringa betydelsen för tävlingsbalansen i den svenska högstaligan. Det stämmer överens med mitt tidigare intryck att svenska topplag inte lyckats dra ifrån de mindre lagen med hjälp av inkomster från europaspel och andra inkomster.

    *****

    Ja, jätteseg förmiddag var det. Så jag normaliserade herfindahls index också [H*=(H-1/N)/(1/N)]:

    Norge 0,68
    England 0,63

    Skottland 0,45
    Tyskland 0,33
    Danmark 0,30
    Franrike 0,24
    Spanien 0,20
    Italien 0,20
    Sverige 0,08

    *****

    Jackknife residualer och hat-matris? Glöm det!