Denne tredelte serie blev skrevet af Bruce MacEwen og Janet Stanton fra Adam Smith, Esq.
“Tænk ikke på elefanter,” lyder barndommens hån, med den umiddelbare virkning, at elefanter er det eneste, man kan tænke på.
Med risiko for at besejre vores egne bestræbelser, før vi begynder, så hvis vi skulle reducere vores vejledning om 2020 Am Law 200-listen til én sætning, ville det være: “Tænk ikke på gennemsnitsværdier.”
Hvorfor ikke gennemsnitsværdier? Selve ordet (vi har kontrolleret det) optræder 14 gange i juni 2020-udgaven af The American Lawyer, som offentliggjorde dette års komplette Am Law 200-liste. Og når man bliver præsenteret for en liste eller rangliste, synes det at fremkalde en uimodståelig impuls hos dem med en analytisk tilbøjelighed til at begynde at spørge om gennemsnitsværdier. Vi er her for at fortælle dig, at det ville være en fejltagelse af første orden, når man ser på Am Law 200.
Hvorfor? Primært fordi gennemsnit kan være en nyttig og informativ komponent i forbindelse med generering af et resumé eller overblik over data fordelt over en standard- eller normal- eller klokkekurve. Imidlertid – og dette er nøglen – repræsenterer Am Law 200 data fordelt over en effektkurve. Med denne type fordeling vildleder gennemsnittene ikke bare; til tider kan de faktisk lyve.
Hvad er forskellen?
Her er en klokkekurve, som vi har tegnet i Excel:
Her ser det bekendt ud. Se nu powerkurven:
I stedet for at vi hævder dette, skal vi vise dig det.
Tre af de vigtigste dataserier i Am Law-tallene er i) bruttoindtægter; ii) samlet overskud (kendt som nettodriftsindtjening); og iii) antal advokater. Her er, hvordan hver af disse serier ser ud efter deciler – de 200 firmaer i 10 grupper på hver 20 firmaer:
Alle tre diagrammer fortæller i det væsentlige den samme historie, som vi fremfører: Begynder man øverst i cirkeldiagrammerne og bevæger sig med uret, kan man se, at de to første deciler udgør mere end halvdelen (ca. 53 % i gennemsnit) af alle 200 virksomheder, og at de fire nederste deciler udgør ca. 10 %. En anden måde at udtrykke det samme på – og for at se, hvor stærkt skæv denne fordeling er – er, at de fem største virksomheder genererede næsten lige så meget omsætning (16,6 mia. dollars) som de 90 nederste virksomheder (17,1 mia. dollars).
Alt sammen meget interessant, naturligvis, men hvordan giver det en pointe om gennemsnitsværdier? The American Lawyer rapporterede, at “den gennemsnitlige vækst i omsætning og overskud for Am Law 200 var begge 5% sidste år”. Fair nok. Man kommer uvægerligt til at formode, at langt de fleste af de 200 firmaer derfor voksede ret tæt på de 5 % i omsætning og overskud. Men der er et væld af andre måder at generere et gennemsnit på 5 % for disse kritiske og højt profilerede dataserier, som ikke ville afspejle en sådan virkelighed.
Her er f.eks. et par andre måder at komme frem til de 5 % på:
- De øverste 10 % af firmaerne voksede hver især med 10 %, og de øvrige 180 firmaer voksede med 1.5%
- De øverste 20% af firmaerne voksede hver især 9%, og de øvrige 160 oplevede nulvækst.
- De øverste 100 firmaer voksede hver især 17%, og alle de øvrige firmaer gik konkurs – og blev slet ikke erstattet i Am Law 200.
Disse tre scenarier – indrømmet, nogle mere surrealistiske end andre – beskriver naturligvis ganske usammenhængende tilstande i verden. Men de passer alle perfekt sammen med et “5 %-gennemsnit.”
Hvad er moralen?
I analysen af effektkurver er man nødt til at smide den velkendte Stats 101-playbook ud og tænke mere. Man bør spørge: “Er der meningsfulde og informative generaliseringer, man kan drage om dette datasæt af virksomheder?” (Man skal ikke gå ud fra, at svaret skal være ja; måske er det mest støj med kun et meget svagt og spinkelt signal.)
Andre spørgsmål omfatter: “Hvad er det, jeg virkelig forsøger at finde ud af?” eller “Hvis en direkte sammenligning af omsætning, nettodriftsindtægter eller antal advokater ikke er afslørende, hvad ville så være det?”
“Skal jeg sammenligne firmaer inden for delmængder og ikke på tværs af alle 200?” “Hvilken klassifikationsmekanisme ville være nyttig til at definere grænserne for disse delmængder?” Og vigtigst af alt: “Hvilke oplysninger (hvis jeg kunne få dem frem) ville faktisk ændre den måde, jeg forvalter og opfører mig på?”
En af vores kerneopfattelser er, at data næsten altid forsøger at fortælle en historie, og vores opgave er at finde ud af, hvad denne fortælling er.
Om lidt vil vi foreslå nogle af vores egne hypoteser om denne fortælling og i den forbindelse bede dig sætte spørgsmålstegn ved, om Am Law 200 – eller Am Law 100 eller Second Hundred for den sags skyld – overhovedet er nyttige kategorier.
I mellemtiden skal du få elefanterne ud af din hjerne.