Johdatus Sabermetrics

Original: http://www-math.bgsu.edu/~albert/papers/saber.html 

Jim Albert

Mikä on Sabermetrics?

Sabermetrics on matemaattinen ja tilastollinen analyysi baseball kirjaa. Ymmärtää alan sabermetrics, ensin pitäisi tuntea peli baseball. Tämä urheilu on yksi suosituimmista peleistä Yhdysvalloissa; se on usein kutsuttu {\ sen kansanurheiluna}. Baseball alkoi Itä Yhdysvalloissa 1800-luvun puolivälistä. Baseball alkoi loppupuolella 18-luvulla; National League perustettiin vuonna 1876 ja American League vuonna 1900. Tällä hetkellä Yhdysvalloissa on 28 ammattilaisia Amerikan ja kansallisten liigojen ja miljoonat ihmiset katsovat pelejä pelikentät ja televisiossa.

Peli baseball

Peli baseball pelataan kahden joukkueen, joista jokainen muodostuu yhdeksän pelaajaa. Yhdeksän pelaajaa ovat syöttäjä, sieppari, ykkösvahti, toinen baseman, hajamielisemmät, kolmas baseman, vasen Fielder, keskusta Fielder ja oikea Fielder. Peli baseball koostuu yhdeksästä sisävuoro. Yksi pelivuoro on jaettu kahteen puoliskoon; top puolet pelivuoro, yksi joukkue pelaa kentällä ja toinen joukkue tulee bat ja alaosassa, joukkueet käänteinen roolit. Joukkue, joka on batting tiettynä puolen pelivuoro yrittää pisteet ajoja. Joukkueen kanssa suurempi määrä kulkee lopussa yhdeksän sisävuoro on voittanut pelin.

Aikana pelivuoro, pelaaja joukkue kentällä, kutsutaan syöttäjä heittää baseball kohti pelaaja tiimin-bat, nimeltään taikina. Taikina yrittää lyödä palloa puutikun avulla (kutsutaan BAT) paikkaan ulottuville pelaajia kentällä. Lyömällä palloa, taikina on mahdollisuus juosta neljä emästä, jotka ovat alalla. Jos pelaaja etenee ympärillä kaikki perusteet, hän on tehnyt ajaa. Jos taikina osuu pallon joka voidaan pyytää, tai että voidaan heittää ensimmäiselle pesälle ennen kuin hän juoksee että pohja, hän sanotaan olevan pois, eikä voi pisteet aikavälillä. Taikina on myös pois, ellei hän osui pesäpallo kolme kertaa tai jos kolme hyvää kentillä (kutsutaan lakot) on heitetty. Tavoitteena varten lyöntivuoro johtamisesta koko pelivuoro on pisteet niin monta juoksuja kuin mahdollista ennen kuin ovat saaneet kolme outtia.

Perus lyöntivuoro tilastoista

Yksi merkittävä osa peliä baseball on runsaasti numeeriset tiedot, jotka on tallennettu pelistä. Tehokkuutta taikinat ja kannut on tyypillisesti arvioidaan erityisesti numeerinen toimenpiteitä. Tavanomainen toimenpide osua tehokkuus pelaaja on vanu keskiarvo, joka on laskettu jakamalla osumien määrä useissa at-lepakoiden. Tämä tilasto antaa osuus mahdollisuudet (at-lepakot), jossa taikina onnistuu (saa osuma). Taikina, jolla on korkein lyöntivuoro keskimäärin vuoden baseball kauden kutsutaan paras lyöjä kyseisenä vuonna. Taikinat ovat myös arvioidaan niiden kykyyn saavuttaa yksi, kaksi, kolme tai neljä perustaa yhdelle osuman; nämä osumia kutsutaan vastaavasti yhden, kahden, kolmen ja juoksuja. Katkonaiseksi keskiarvo lasketaan jakamalla emästen kokonaismäärästä (lyhyt, yhteensä emästen) useissa mahdollisuuksia. Koska se painot osuu useissa emäksiä saavutettu, tämä toimenpide kuvastaa kykyä taikina lyödä pallon etäisyyden. Arvostetuin osuma baseball on kotiin ajaa, jossa pelaaja ennakot neljä tukikohtia yksi osuma. Määrän juoksuja kirjataan kaikille pelaajille ja taikina kanssa eniten juoksuja lopussa kauden annetaan erityistä tunnustusta.

Perus pitching tilastot

Joukko tilastoja käytetään myös arvioinnissa kannut. Tietylle syöttäjä, yksi laskee pelien määrä, jossa hän julistettiin voittajaksi tai häviäjä ja kuinka monta kulkee sallittu. Kannut ovat yleensä mitoitettu mitattuna keskimäärin ”ansainnut” kulkee mahdollisti yhdeksän pelivuoro peli. Muut tilastot ovat hyödyllisiä ymmärtämisen pitching kyky. Kaadin tallentaa yliviivattu kun taikina ei lyödä palloa kentällä ja kirjaa kävellä, kun hän heittää neljä epätarkkoja kentillä (pallot), että taikina. Kaadin joka voi heittää palloa hyvin nopeasti voi tallentaa suuren määrän strikeouts. Kaadin joka on ”villi” tai suhteellisen epätarkkoja tallentaa useita kävelee.

Parempi mittari lyömällä kyky — ajoja luotu

Yksi tavoite sabermetrics on löytää hyviä toimenpiteitä lyömällä ja pitching suorituskykyä. Bill James (1982) vertaa lyöntivuoro kirjaa kaksi pelaajaa, Johnny Pesky ja Dick Stuart, joka pelasi 1960-luvulla. Ärsyttävä oli taikina, joka ampuu korkean lyöntivuoro keskimäärin, mutta osui muutama juoksuja. Stuart sen sijaan oli vaatimaton lyöntivuoro keskimäärin, mutta osui suuren määrän juoksuja. Kuka oli arvokkaampi hitter? James väittää, että lyöjä olisi arvioitava hänen kykynsä luoda runs joukkueensa. Empiirisen tutkimuksen laaja kokoelma joukkueen lyömällä tietojen hän perusti seuraavan kaavan ennustamiseksi ajokertojen maalin kaudessa perustuu osumien, kävelee, at-lepakot ja kokonaisemäksistä kirjattu kauden.

       (HITS + kävelee) (TOTAL PERUSTAT)
RUNS = ----------------------------
             AT-BATS + WALKS

Tämä kaava sisältää kaksi tärkeää näkökohtaa pisteytys kulkee baseball. Osumien määrä ja kävelee joukkueen kuvastaa joukkueen kyky saada juoksijat pohja. Kokonaismäärää perustaa tiimin heijastaa joukkueen kykyä liikkua juoksijat, jotka ovat jo perusta. Tämä toimii luotu kaavaa voidaan käyttää yksilön tasolla laskea ajokertojen että pelaaja luo hänen joukkue. 1942, Johnny Pesky oli 620-mailat, 205 osumia, 42 kävelee, ja 258 koko emäkset; kaavalla, hän loi 96 runs joukkueensa. Dick Stuart vuonna 1960 oli 532-mailat 160 at-mailat, 34 kävelee, ja 309 yhteensä emäksiä 106 kulkee luotu. Johtopäätös on, että Stuart vuonna 1960 oli hieman parempi hitter kuin ärsyttävä vuonna 1942, koska hän loi muutaman runs joukkueensa.

lineaarinen painot

Vaihtoehtoinen lähestymistapa arvioida vanu suorituskyky perustuu lineaariseen painoja kaava. George Lindsey (1963) oli ensimmäinen henkilö luovuttaa jononarvot jokaiseen tapahtumaan, joita voi esiintyä, kun joukkue oli lyöntivuoro. Käyttämällä tallennetut tiedot baseball-pelejä ja todennäköisyysteoriasta hän kehitti kaava

RUNS = (0,41) 1B + (0,82) 2B + (1,06) 3B + (1,42) HR

Jossa 1B, 2B, 3B, ja HR ovat vastaavasti useita yhden, kahden, kolmen, ja juoksuja osuma pelin. Yksi huomattava osa tätä kaavaa on, että se tunnistaa taikina luo ajaa kolmella tavalla. On suora ajaa potentiaalinen kun taikina saa osuman ja pääsee pohja. Lisäksi taikina voi edistää juoksijat, jotka ovat jo perusta. Myös jota ei saada out, hitter sallii uuden taikina mahdollisuus saada osuma, ja tämä tuottaa epäsuora ajaa potentiaalia. Thorn ja Palmer (1993) esittää kehittyneempi versio lineaarisen painojen kaavaa, joka ennustaa ajokertojen tuottaman keskimäärin baseball joukkue perustuu kaikkia hyökkäykseen kirjattuja tapahtumia pelin aikana. Kuten Jamesin kulkee luotu kaava, lineaarinen painot sääntöä voidaan arvioida pelaajan lyöntivuoro suorituskykyä.

Juoksee voittoa

Vaikka pisteytys toimii on tärkeä baseball, perustavoite on tiimin pisteet enemmän kulkee kuin vastustaja. Oppia suhteesta ajojen teki maalin ja määrä voittaa, James (1982) tarkasteli ajokertojen tuotettu, ajokertojen sallittu, määrä voittaa ja vahinkojen määrää kauden aikana suuri määrä viime Major League joukkueet. James totesi, että suhde joukkueen voittaa tappioihin oli suunnilleen sama kuin neliön suhde kulkee teki kulkee sallittu. vastaavasti

            WINS RUNS ^ 2
RUNS = -------------- = ---------------------------.
        WINS + MENETYSTEN RUNS ^ 2 + vastustus RUNS ^ 2

Tätä suhdetta voidaan mitata Lyöjän suoriutuneet määrä voittaa, että hän luo hänen joukkue.

Parempi mitta pitching kyky

Sabermetrics on kehittänyt myös parempia tapoja arvioida pitching kyky. Standardin pitching tilastojen määrä voittaa ja ansaitsi kulkee per peli (ERA) ovat virheellisiä. Määrä voittaa ja syöttäjä voi vain ilmentää sitä, että hän kentillä hyvä hyökkäävä (run pisteytys) joukkue. ERA tekee mittaamiseen syöttäjä tehokkuutta, mutta se ei kerro todellisesta hyöty tästä syöttäjä yli koko kauden. Thorn ja Palmer (1993) kehitti pitching kulkee kaava

                                  liiga ERA
Syöttökoneet RUNS = Vuorotauko paiskautua x ----------- - ER.
                                      9

Kerroin (League ERA/9) mittaa keskimääräinen kulkee kohti sallitaan pelivuoro kaikki joukkueet liigassa. Tämä arvo kerrotaan useissa sisävuoro leirinsä että syöttäjä — tämä tuote edustaa ajokertojen että syöttäjä sallisi yli kaudella, jos hän oli keskimäärin. Lopulta yksi vähentää todellisen ansainnut kulkee (ER) syöttäjä sallitaan olevan kauden aikana. Jos pikeys kulkee on suurempi kuin 0, niin tämä syöttäjä on parempi kuin keskimäärin. Tämä uusi toimenpide näyttää olevan käyttökelpoisia mitattaessa tehokkuus ja kestävyys syöttäjä.

Pelaajan peli prosenttiosuus

Hyviä toimenpiteitä pallolla, pitching ja Fielding suorituskyky pesäpalloilijoita on kehitetty. Nämä tilastot eivät suoraan mittaa pelaajan panos voitto joukkueensa. Bennett ja Flueck (1984) käyttivät tietoja kahdesta baseball vuodenaikoina todennäköisyyden laskemiseksi kotijoukkue voittaa pelin tietyn ajon ero (kotijoukkue juoksee miinus vierasjoukkueen juoksee), puoli pelivuoro (ylä-tai alareunaan pelivuoro), The määrän out, ja on-base tilanteeseen. Käyttämällä näitä arvioidaan todennäköisyydet, voi nähdä, miten todennäköisyys voittaa muutosten jokaiseen peliin tapahtumaa. Voidaan mitata pelaajan panos voittaa pelin yhteen muutokset voittaa todennäköisyydet jokaista peliä, jossa pelaajan on osallistunut. Tämä tilasto, jota kutsutaan pelaajan peli Prosentti, käytti Bennett (1993) arvioidaan lyöntivuoro suorituskykyä Joe Jackson. Tämä pelaaja karkotettiin baseball väitetään heittämällä 1919 World Series. Tilastollinen analyysi käyttäen pelaajan peli Prosenttiosuus osoitti, että Jackson pelataan kykyjensä aikana tässä sarjassa.

Teet säätöjä

Ihmiset ovat usein kiinnostuneita verrattaessa taikinat tai kannut eri aikakausilta. Tehdessään nämä vertailut on tärkeää tarkastella lyöntivuoro tai pitching tilastoja asiayhteys, jossa ne on saavutettu. Esimerkiksi Bill Terry johti National League vuonna 1930, jossa on lyöntivuoro keskimäärin 0,401, merkki, joka on ohitettu, sillä vain yksi hitter. Vuonna 1968 Carl Yastrzemski johti American League lyömällä kanssa keskimäärin 0,301. Se näkyy pinnalla että Terry oli selvästi parempi hitter. Kuitenkin, kun tarkastellaan suhteessa iskualuksina että pelaajan aikana samaan aikaan, sekä iskualuksina oli noin 27 prosenttia parempi kuin keskimääräinen hitter (Thorn ja Palmer, 1993). Lyömällä saavutukset Terry vuonna 1930 ja Yastrzemski vuonna 1968 olivat todella hyvin samanlaisia.

Oppiminen valitut tiedot

Katsomassa baseball-peli herättää kysymyksiä, jotka motivoivat mielenkiintoinen tilastollisia analyysejä. Lähetyksen aikana pelin, baseball kuuluttaja tyypillisesti raportoivat valitut lyömällä tiedot pelaaja. Esimerkiksi se voidaan raportoida, että Barry Bonds on 10 osumaa hänen viimeisimmän 20 at-lepakoiden. Mitä olet oppinut Bonds’ lyöntivuoro keskiarvo on näiden tietojen perusteella? On selvää, joukkovelkakirjat vanu keskiarvo ei voi olla niin suuri kuin 10/20 = 0,500, koska tiedot on valittu maksimoimaan raportoitu prosentteina. Casella ja Berger (1994) rakentaa todennäköisyys toiminto pelaajan todellinen lyöntivuoro keskiarvo perusteella tämän valitut tiedot ja löytää estimaatti. He päättelevät, että tämä valitut tiedot vain antaa hieman käsityksen ”täydelliset tiedot” lyöntivuoro keskiarvo, joka on saatu lyöntivuoro kirjaa koko kauden.

Raidallisuutta?

Toinen mielenkiintoinen kysymys on olemassaolosta raidallisuutta lyömällä tietoja. Kauden aikana on havaittu, että jotkin ballplayers kokevat aikoja ”kuuma” lyömällä jossa he saavat suuren osan osumia. Muut hitters menee läpi laskuille päättymisen tai lyömällä harvoja osumia. Mutta nämä jaksot kuuma ja kylmä lyöminen voi olla vain heijastusta luonnollista vaihtelua havaittu kolikon tossing. Onko tilastollista näyttöä ”kuuma käsi” keskuudessa baseball iskualuksina jossa todennäköisyys saada osuma riippuu viime at-lepakoiden? Albright (1993) tarkasteli laaja kokoelma baseball lyödä dataa ja käytetään useita tilastoja esimerkiksi Ajomääräksi havaita raidallisuutta lyömällä tietoja. Hänen tärkein johtopäätös oli, että tilastotietoja ei yleensä kuuma käsi baseball lyömällä.

Situational tiedot

Tällä hetkellä on suurta kiinnostusta fanien keskuudessa ja media tilannejohtamiskoulutusta baseball tietoja. Lyömällä suorituskyky taikinat kirjataan useita erilaisia ​​tilanteita, kuten päivä vs. yö pelejä, nurmikentillä ja tekonurmi kenttiä vastaan ​​kannut jotka heittävät oikeakätinen ja vasenkätinen, ja sen aikana kotona ja poissa peleistä. On olemassa kaksi peruskysymystä tilastollisessa analyysissä tämän tyyppistä tietoa. Ensinnäkin on olemassa erityisesti tilanteissa, jotka voivat selittää merkittävän määrän vaihtelun pallolla tietoja? Toiseksi on olemassa ballplayers jotka suorittavat erityisen hyvin tai huonosti tietyssä tilanteessa? Albert (1994) analysoi olemassa runsaasti julkaistut tilannekohtaista tietoa ja käyttää Bayes hierarkkisia malleja yhdistellä tietoja suuri joukko pelaajia. Hänen perus johtopäätös on, että on olemassa joitakin tärkeitä tilanteita. Esimerkiksi, taikinat osuma keskimäärin 20 pistettä korkeampi, kun edessä syöttäjä vastakkaisen varren ja osui 8 prosenttiyksikköä korkeampi, kun he pelaavat kotonaan Ballpark. On kuitenkin yleensä vain vähän tilastollista näyttöä yksilöllisiä eroja näissä tilannekohtaista vaikutuksia.

Ennustus

Major League Baseball on tällä hetkellä jaettu kuudesta alueesta ja yksi tavoite tahansa joukkue on lopettaa ensin jako. Oletetaan, että osan kautta on saatu päätökseen. Käyttämällä joukkueiden levyjä tämän osittaisen kaudella, on mahdollista ennustaa tarkasti voittajat liiketoimintaryhmien? Barry ja Hartigan (1993) käyttävät valinta mallia todennäköisyys, että joukkue voittaa yksittäisen pelin. Tämä malli mahdollistaa erilaisia ​​vahvuuksia joukkueiden kesken, eri kodin etuja ja tiimi vahvuuksia, jotka voivat muuttua satunnaisesti ajan. Kirjoittajat käyttävät tätä mallia simuloida tuloksia tulevaisuuden baseball-pelejä ja arvioida todennäköisyydet, että jokainen joukkue voittaa sen periaatteensa.

Tällä hetkellä Major League Baseball pelejä kirjataan erittäin tarkkoja yksityiskohtia. Tietoa jokainen pallo senkin, peluuttaa ja osui pelin aikana todetaan, luoda suuri tietokanta baseball tilastoja. Tätä tietokantaa käytetään monin eri tavoin. Pr osastojen tiimien käyttää tietoja julkaisevat erityistä tilastoja pelaajille. Tilaston avulla auttaa määrittämään palkkoja Major League ballplayers. Erityisesti tilastotietoja käytetään todisteena palkkaa välimiesmenettelyssä, lainkäyttömenettely joka asettaa palkat. Useat joukkueet ovat kokopäivätyössä ammatillinen tilastollisen analyytikoille ja jotkut johtajat käyttävät tilastotietoa päätettäessä strategiaa pelin aikana.

Опубликовано в