Pokud vám to nebude vadit, začneme tím, že vás obdaříme dvěma dětmi. Petr a Linda (mohli jsme jim dát i módnější jména, když už jsme u toho) absolvovali test inteligence, stejně jako většina dětí ve školním věku.
Jelikož testy inteligence jsou velkým hitem naší doby, měli byste nad výsledkem takového testu trochu přemýšlet, abyste zjistili, o co vlastně jde; tato informace je tak tajemná, že je často považována za bezpečnou pouze v rukách psychologů a pedagogů, a na tom asi něco je. Každopádně se nějak dozvíte, že Petr má IQ 98 a Linda 101. Přitom samozřejmě víte, že IQ 100 je normální neboli „průměrné“.
Aha. Takže Linda je z vašich dětí to bystřejší. Navíc je nad průměrem. Petr je pod průměrem, ale tím se netrapte.
Jakékoliv závěry tohoto druhu jsou naprosto nesmyslné.
Abychom si nalili čistého vína, musíme si především uvědomit, že ať už takový test inteligence měří cokoliv, rozhodně neměří to, co obecně považujeme za inteligenci. Nepřihlíží k tomu, zda je někdo přirozený vůdce nebo zda má tvůrčí představivost. Nebere v úvahu takové věci, jako je sociální inteligence, hudební nebo umělecké nadání, a to nemluvím o osobních vlastnostech, jako je pracovitost a citová vyrovnanost. Navíc testy, které se obvykle zadávají ve školách, jsou většinou z těch levnějších, prefabrikovaných. Při jejich provádění velmi záleží na schopnosti dětí umět dobře číst; bystrý nebo tupý, pokud je někdo špatný čtenář, nemá v takovém testu šanci.
Řekněme, že jsme toto všechno pochopili a souhlasíme tedy, že budeme IQ testy vnímat prostě jako měření jakýchsi ne moc přesně definovaných schopností nakládat s fixními vizemi.
Nu a Petr s Lindou prošli tím, co je považováno za nejlepší z IQ testů, totiž revidovaným Stanford-Binetovým testem, který se zadává individuálně a nevyžaduje žádné zvláštní čtenářské schopnosti.
Je celkem jasné, že podstatou IQ testu je vlastně výběrové šetření inteligence. Jako kterýkoliv jiný produkt metod výběrového šetření, také IQ je údaj se statistickou (náhodnou) chybou.
Otázky, položené v rámci takového testu fungují zhruba stejně, jako kdybyste šli po poli, sem tam si prohlédli některý klas a podle toho chtěli posoudit kvalitu všeho obilí na poli. Kdybyste raději rozebrali a prohlédli dejme tomu sto klasů, získali byste celkem slušnou představu, jak na tom celé to pole je. Vaše informace by byla dostatečně přesná a použitelná k porovnání tohoto pole s jiným – pokud by ta dvě pole nebyla stejná. Pokud by byla stejná, museli byste se podívat na mnohem větší počet klasů a hodnotit je všechny podle přesně stejného standardu kvality.
Nakolik váš vzorek může reprezentovat celé pole je míra, kterou lze vyjádřit jako koeficient spolehlivosti.
Dejme tomu, že máte změřit velikost řady polí tím, že je odkrokujete podél mezí. První, co byste měli udělat, je ověřit si přesnost svého měřícího systému tím, že projdete metr dlouhými kroky kolem něčeho, o čem víte, že to má sto metrů. To byste měli udělat několikrát po sobě. Takto byste mohli zjistit, že se v průměru odchylujete o tři metry. Přesněji řečeno, že vám v polovině pokusů po sto krocích chyběly do sta metrů až tři kroky a ve druhé polovině pokusů jste po sto krocích byla až o tři kroky dál.
Zdroj: Irving Geis
Vaše chyba měření by pak byla tři metry neboli tři procenta. Z toho pak plyne, že každá mez, která měřila sto metrů podle vašeho krokování, by měla být popsána jako 100 + 3 metry.
Tak, jako v případě našeho hypotetického krokování, byla i u Standford-Binetova IQ testu zjištěna chyba odhadu na úrovni 3 %. To nijak nesouvisí s kvalitou samotného testu, pouze nám to říká, jak spolehlivě tento test měří to, co měří. Takže Petrovo indikované IQ by mělo být správně vyjádřeno jako 98 + 3 a Lindino jako 101 + 3.
Tím je řečeno, že existuje stejná šance, že Petrovo IQ spadá někam mezi hodnoty 95 a 101; je tedy stejně pravděpodobné, že je buď pod nebo nad oním původním číslem. Stejně tak Lindino IQ je s pravděpodobností ne lepší než padesát na padesát v rozmezí od 98 do 104. Z toho můžete snadno vidět, že je tu jedna možnost ze čtyř, že Petrovo IQ je opravdu nad 101 a obdobná možnost, že Lindino je pod 98. Nu a v takovém případě by Petr nebyl horší, ale lepší, a to s náskokem tří a více bodů.
Z toho vyplývá, že jediný způsob, jak přemýšlet o IQ a mnoha dalších výsledcích výběrových šetření, je přemýšlet o nich v určitém rozmezí. „Normální“ není 100, ale je to rozmezí řekněme od 90 do 110 a je otázkou, jak porovnávat dítě v tomto rozmezí s dítětem ve vyšším nebo nižším pásmu. Přitom – pokud jsou mezi údaji jen malé rozdíly, nemá vůbec cenu je porovnávat. Vždy musíte mít na paměti to plus-minus, i v případě (nebo zejména v případě), kdy tato znaménka nejsou uvedena.
Ignorování těchto tolerancí, které vyplývají ze samé podstaty všech výběrových šetření, vede k velmi pošetilému chování. Jsou vydavatelé časopisů, pro které je přehled čtenosti svatým písmem, a to zejména z toho důvodu, že mu nerozumějí. Když je vykázána čtenost 40 % u jednoho článku a jenom 35 % u druhého, požadují více článků toho typu, jako byl ten první.
Rozdíl mezi 35 % a 40 % čtenosti může být pro časopis důležitý, ale když je ten rozdíl uveden v přehledu, ještě nemusí být takový ve skutečnosti. Cena průzkumu vede často ke zmenšení vzorku čtenářstva jen na několik set osob. Přitom se většinou vyřadí ti čtenáři, kteří nečtou časopis vůbec. Pro časopis, který oslovuje především ženy, by měl být ve vzorku počet mužů velmi malý. Když se pak tito čtenáři rozdělí na skupiny těch, kteří tvrdí že „čtou všechno“, „čtou většinu“, „čtou něco“ nebo „nečetli“ daný článek, bude 35 % představovat jen malou hrstku lidí. A ta pravděpodobná chyba, skrytá za působivě prezentovaným číslem, může být tak velká, že vydavatel, který na ni spoléhá, se pohybuje na tenkém ledě.
Někdy se spustí velký povyk kvůli odlišnosti, která je sice matematicky reálná a doložitelná, ale je tak nepatrná, že nemá žádný praktický význam. Je to důkaz platnosti starého dobrého pravidla, které říká: Dvě věci jsou pouze tehdy rozdílné, pokud je mezi nimi opravdu rozdíl. Typickým příkladem je povyk, který kvůli úplné prkotině spustili lidé, pracující pro cigarety Old Gold. Povyk to byl velmi efektivní a výnosný.
Všechno to začalo nevinně u jednoho editora v časopise Reader’s Digest, který sice kouřil cigarety, ale kouření jako takové neschvaloval. Jeho časopis se pustil do práce a najal štáb laborantů, aby analyzovali kouř z cigaret řady různých značek. Časopis publikoval výsledek, kterým byla čísla o obsahu nikotinu a kdoví čeho ještě, v kouři jednotlivých značek cigaret. Časopis pak uvedl svůj závěr, doložený podrobnými čísly, že všechny značky cigaret jsou prakticky stejné a je jedno, kterou kouříte. Nyní byste si mohli myslet, že to pro výrobce cigaret a pro chlápky, kteří promýšlejí nové triky v reklamních agenturách, byla rána. Zdálo by se, že to znehodnotí všechna reklamní tvrzení o tom, jak ta která značka zklidňuje hrdlo nebo pozitivně působí na tvorbu akné v obličeji.
Ale někdo si tam něčeho všimnul. Na přehledu téměř identických množství jedů musela mít jedna cigareta hodnotu nejnižší a tou byla značka Old Gold. Rozlétly se telegramy a v novinách se najednou objevila velká reklama, s největšími písmeny, jaká byly po ruce. Titulky a slogany jednoduše říkaly, že ze všech cigaret, testovaných tímto prestižním časopisem, měla Old Gold v kouři nejméně oněch nežádoucích složek. Vynechaly se všechny ostatní údaje a také jakýkoliv náznak toho, že ten rozdíl byl zcela zanedbatelný.
Nakonec bylo lidem od Old Gold nařízeno, aby „zastavili a opustili“ tuto zavádějící reklamu. Tady zkrátka nebyl žádný rozdíl. Pouze se podařilo vymačkat z té původní myšlenky užitek. Jak se píše v New Yorkeru, za vším je holt někdo od reklamy.
Poznámka Evy Zamrazilové:
Výběrové šetření může být zatíženo systémovou chybou v případech, kdy vybraný vzorek není reprezentativní a vychyluje tedy výsledky výběrového šetření, které se pak v nějaké míře liší od skutečného stavu celého souboru. Systématická chyba je vadou výběrového šetření. Statistická chyba je jeho vlastností – jak jsme si řekli již v předchozí kapitole. Není to vada – je to však okolnost, s níž musíme počítat. Statistická chyba je měřitelná, zmenšuje se s rostoucí velikostí výběru a údaj o ní by měl být připojen ke každému výsledku výběrového šetření.
Testy inteligence jsou velmi atraktivním tématem, V knížce zmiňovaný test byl několikrát revidován, jeho současná verze je Stanford-Binet 5. Vyhodnocuje se podle toho, jakých výsledků dosáhne respondent v porovnání s jedinci stejného věku. Test používá směrodatnou odchylku 15 od průměrné hodnoty 100 na křivce normálního rozdělení. Do vzdálenosti jedné směrodatné odchylky od průměru (tedy IQ 85–115) spadá zhruba 68 % lidské populace, do vzdálenosti dvou směrodatných odchylek (tedy IQ 70-130) asi 95 % populace. Hodnocení je tedy dnes trochu jiné než je v původním textu uvedeno. Výsledky by navíc měly být validizovány pro každou zemi zvlášť.
Doc. Ing. Eva Zamrazilová, Csc. Po studiu na národohospodářské fakultě VŠE vyučovala teorii statistiky a ekonomickou statistiku na VŠE, pracovala jako vědecký pracovník v Ústavu prognózování VŠE, v Ekonomickém ústavu ČSAV a Výzkumném ústavu práce a sociálních věcí. V 90. letech spolupracovala na řadě studií k tématice transformace české ekonomiky, absolvovala krátkodobé stáže v zahraničí. Doktorandské studium ukončila v roce 1990 na Katedře statistiky NH fakulty VŠE. Od roku 1994 pracovala na makroekonomických analýzách a prognózách v Týmu hlavního ekonoma Komerční banky. Byla členkou vědeckého grémia České bankovní asociací v rámci Pracovní skupiny pro ekonomické a měnové otázky, je členkou předsednictva České společnosti ekonomické a nositelkou ceny ČSE. Přednáší makroekonomickou analýzu na Vysoké škole ekonomie a managementu. Dlouhodobě publikuje v domácím i zahraničním odborném tisku na témata makroekonomické rovnováhy, konvergenčního procesu tranzitivních ekonomik, hospodářské politiky, trhu práce (je autorkou či spoluautorkou více než 150 odborných titulů), rovněž přednáší na odborných konferencích. S účinností od 1. března 2008 byla Eva Zamrazilová jmenována členkou bankovní rady ČNB. |
Poznámka ČSÚ – Tereza Košťáková, Petr Musil
Testy inteligence jsou spolu s předvolebními průzkumy oblastmi statistiky, kterými se ČSÚ nezabývá. D. Huff i E. Zamrazilová se v této kapitole vracejí k problematice výběrových zjišťování včetně interpretace výsledků. Zmiňují, jak je důležité uvědomit si, že existuje nejen odhad ukazatele „jedním číslem“, tzv. bodový odhad, ale také to, že někdy může být vhodnější konstruovat tzv. intervalový odhad. Ten si můžeme představit jako interval, ve kterém se se zvolenou pravděpodobností nachází hodnota zkoumaného ukazatele. Obecně pak platí, že čím větší je rozsah výběru, tím může být takový interval užší.
ČSÚ publikuje pro vybrané ukazatele sociální statistiky vedle bodových odhadů i odhady intervalové. Ovšem pro většinu ekonomických indikátorů nelze intervalové odhady spočítat (pro takové odhady nejsou splněny některé podmínky, například se nejedná o náhodné veličiny).
Testy inteligence byly a jsou stále populární, nejznámějším je IQ test. D. Huff upozorňuje, že ne všechno, co si pod pojmem inteligence představíme, lze měřit IQ testem. Na tomto poli došlo od napsání knihy k pokroku a objevily se například EQ testy, které měří alespoň část zmiňované sociální inteligence (kterou IQ testy neměří).
To, na co D. Huff prostřednictvím IQ testů upozorňuje, je v podstatě tzv. adekvační problém ve statistice. Zní to záhadně, ale jde v podstatě jen o to, že je nutné používat pro zkoumání daného jevu (problému) vhodné ukazatele. Někdy se totiž stává, že se pracuje s ukazateli, které o daném jevu nevypovídají vůbec nebo jen okrajově, přestože se na první pohled může zdát, že spolu jev i ukazatel souvisí.
Vezměme si například ukazatel hrubého domácího produktu (HDP), který je perfektní pro popis ekonomické výkonnosti daného státu v daném období. Ovšem někteří uživatelé jej používají pro zkoumání jiných jevů, například bohatství nebo dokonce štěstí. Ale pokud jde o bohatství, má statistika vhodnější ukazatel: čisté jmění, definované jako rozdíl mezi aktivy (majetkem) a závazky (dluhy). Uveďme názorný příklad, pokud je například výstavba nového domu (tj. investice) financována úvěrem (tj. na dluh), tak se sice zvyšuje HDP, avšak bohatství se nemění.
A uveďme ještě jeden příklad. Index spotřebitelských cen (publikován často pod pojmem „inflace“) se občas mylně interpretuje jako změna cen v celé ekonomice. Tento ukazatel ale vyjadřuje změnu cen produktů nakupovaných průměrnou domácností. Pro zkoumání vývoje celkové cenové hladiny je vhodnější použít jiný ukazatel: deflátor HDP, který měří změnu cen všech produktů v ekonomice včetně například lokomotiv, které domácnosti nenakupují.
Ing. Tereza Košťáková Absolvovala obory Hospodářská politika a Ekonomická žurnalistika na Vysoké škole ekonomické v Praze. Pracuje v Českém statistickém úřadě, kde postupně zastávala různé pozice. Mimo jiné se podílela na vývoji nové metody odhadu zahraničního obchodu v podmínkách jednotného trhu EU, od roku 2014 byla vedoucí oddělení čtvrtletních odhadů v odboru národních účtů, které odpovídá za čtvrtletní odhady hrubého domácího produktu a souvisejících makroekonomických agregátů. Patří mezi uznávané odborníky v oblasti zahraničního obchodu a dopadů globalizace na vypovídací schopnost statistických ukazatelů. Je autorkou populárně naučné knihy „O složitém jednoduše – aneb nebojte se statistiky, nekouše“. |
Ing. Petr Musil, Ph.D. Absolvoval obor Statistické a pojistné inženýrství na Vysoké škole ekonomické v Praze, kde získal doktorát v oboru Statistika. Již při studiích nastoupil do Českého statistického úřadu, kde prošel několika pozicemi a od roku 2021 je ředitelem sekce makroekonomických statistik. Podílel se na zavádění mezinárodních standardů národního účetnictví ve vybraných zemích v rámci mezinárodních projektů. Je autorem nebo spoluautorem desítek odborných článků a konferenčních příspěvků. Patří mezi uznávané odborníky v oblasti ekonomické statistiky. V rámci pedagogické činnosti se podílí na výuce ekonomické a sociální statistiky na Fakultě informatiky a statistiky VŠE v Praze. |
Foto: Poskytnuto EM
Zdroj: Darrell Huff
Pátá kapitola vychází už 22. 3. 2022