Ev · Alet · İstatistiksel anlamlılık: tanım, kavram, anlamlılık, regresyon denklemleri ve hipotez testi. İstatistiksel güvenilirlik

İstatistiksel anlamlılık: tanım, kavram, anlamlılık, regresyon denklemleri ve hipotez testi. İstatistiksel güvenilirlik

İstatistiksel anlamlılık bir sonucun (p-değeri) “doğruluğuna” (“örneklemin temsil edilebilirliği” anlamında) olan güvenin tahmini ölçüsüdür. Daha teknik konuşursak, p değeri, sonucun güvenilirliğine göre azalan büyüklük sırasına göre değişen bir ölçüdür. Daha yüksek bir p değeri, örnekte bulunan değişkenler arasındaki ilişkide daha düşük bir güven düzeyine karşılık gelir. Spesifik olarak p değeri, gözlemlenen sonucun tüm popülasyona genelleştirilmesiyle ilişkili hata olasılığını temsil eder. Örneğin, 0,05'lik bir p değeri (yani 1/20), numunede bulunan değişkenler arasındaki ilişkinin numunenin yalnızca rastgele bir özelliği olma ihtimalinin %5 olduğunu gösterir. Başka bir deyişle, bir popülasyonda belirli bir ilişki mevcut değilse ve benzer deneyleri birçok kez yaparsanız, o zaman deneyin yaklaşık yirmi tekrarından birinde değişkenler arasında aynı veya daha güçlü bir ilişki olmasını beklersiniz.

Birçok çalışmada hata düzeyi için 0,05'lik bir p değeri "kabul edilebilir marj" olarak kabul edilir.

Hangi önem düzeyinin gerçekten "önemli" olarak kabul edilmesi gerektiğine karar verirken keyfilikten kaçınmanın bir yolu yoktur. Üzerinde sonuçların yanlış olarak reddedildiği belirli bir anlamlılık düzeyinin seçimi oldukça keyfidir. Uygulamada, nihai karar genellikle sonucun önceden mi tahmin edildiğine (yani deney gerçekleştirilmeden önce) veya çeşitli veriler üzerinde yapılan birçok analiz ve karşılaştırmanın bir sonucu olarak sonradan mı keşfedildiğine bağlıdır. çalışma alanının geleneği. Tipik olarak birçok alanda p 0,05 sonucu, istatistiksel anlamlılık açısından kabul edilebilir bir sınırdır, ancak bu düzeyin hala oldukça büyük bir hata oranı (%5) içerdiği unutulmamalıdır. p 0,01 düzeyinde anlamlı olan sonuçlar genellikle istatistiksel olarak anlamlı kabul edilir ve p 0,005 veya p 0,001 düzeyindeki sonuçlar genellikle oldukça anlamlı kabul edilir. Bununla birlikte, bu önem düzeyi sınıflandırmasının oldukça keyfi olduğu ve yalnızca belirli bir araştırma alanındaki pratik deneyime dayanarak kabul edilen resmi olmayan bir anlaşma olduğu anlaşılmalıdır.

Daha önce de belirtildiği gibi, bağımlılığın ve güvenilirliğin büyüklüğü iki şeyi temsil eder: çeşitli özellikler değişkenler arasındaki bağımlılıklar. Ancak tamamen bağımsız oldukları söylenemez. Konuşuyorum ortak dil normal büyüklükteki bir örneklemdeki değişkenler arasındaki bağımlılığın (bağlantının) büyüklüğü ne kadar büyük olursa, o kadar güvenilir olur.

Eğer popülasyonda karşılık gelen değişkenler arasında bir ilişki olmadığını varsayarsak, o zaman incelenen örneklemde de bu değişkenler arasında bir ilişkinin olmayacağını beklemek büyük olasılıkla muhtemeldir. Bu nedenle, bir örnekte ne kadar güçlü bir ilişki bulunursa, ilişkinin alındığı popülasyonda var olmama olasılığı da o kadar az olur.


Örneklem büyüklüğü ilişkinin önemini etkiler. Az sayıda gözlem varsa, o zaman bu değişkenler için buna uygun olarak az sayıda olası değer kombinasyonu vardır ve bu nedenle, güçlü bir ilişki gösteren bir değer kombinasyonunun kazara keşfedilme olasılığı nispeten yüksektir.

İstatistiksel anlamlılık düzeyi nasıl hesaplanır? İki değişken arasındaki bağımlılığın ölçüsünü zaten hesapladığınızı varsayalım (yukarıda açıklandığı gibi). Sonraki soru, önünüzde duruyor: "Bu ilişki ne kadar önemli?" Örneğin, iki değişken arasındaki açıklanan varyansın %40'ı ilişkinin anlamlı olduğunu düşünmek için yeterli midir? Cevap: "Durumlara göre." Yani anlamlılık esas olarak örneklem büyüklüğüne bağlıdır. Daha önce açıklandığı gibi, çok büyük örneklemlerde değişkenler arasındaki çok zayıf ilişkiler bile anlamlı olurken, küçük örneklemlerde çok güçlü ilişkiler bile güvenilir değildir. Bu nedenle, istatistiksel anlamlılık düzeyini belirlemek amacıyla, her örnek boyutu için değişkenler arasındaki ilişkinin "büyüklüğü" ve "anlamlılığı" arasındaki ilişkiyi temsil eden bir fonksiyona ihtiyacınız vardır. Bu işlev size tam olarak "popülasyonda böyle bir bağımlılığın olmadığı varsayılarak, belirli büyüklükteki bir örneklemde belirli bir değere (veya daha fazlasına) bağımlılık elde etmenin ne kadar muhtemel olduğunu" gösterir. Başka bir deyişle, bu fonksiyon anlamlılık düzeyini (p-değeri) ve dolayısıyla belirli bir ilişkinin popülasyonda mevcut olmadığı varsayımının hatalı bir şekilde reddedilme olasılığını verecektir. Bu "alternatif" hipoteze (popülasyonda hiçbir ilişkinin bulunmadığına) genellikle sıfır hipotezi denir. Hata olasılığını hesaplayan fonksiyonun doğrusal olması ve farklı örneklem büyüklükleri için yalnızca farklı eğimlere sahip olması ideal olacaktır. Ne yazık ki bu işlev çok daha karmaşıktır ve her zaman tam olarak aynı değildir. Ancak çoğu durumda biçimi bilinir ve belirli bir büyüklükteki numunelerle yapılan çalışmalarda anlamlılık düzeylerini belirlemek için kullanılabilir. Bu işlevlerin çoğu çok ilgilidir önemli sınıf dağılımlara normal denir.

İstatistiksel çıkarımı gerekçelendirirken şu soru sorulmalıdır: Sıfır hipotezini kabul etmekle reddetmek arasındaki çizgi nerede? Deneyde rastgele etkilerin varlığından dolayı bu sınır tam olarak doğru bir şekilde çizilememektedir. Konsepte dayanmaktadır önem düzeyi. Önem düzeyi sıfır hipotezinin yanlışlıkla reddedilme olasılığı denir. Veya başka bir deyişle, önem düzeyi - Bu, karar verirken tip I hatanın olasılığıdır. Bu olasılığı belirtmek için kural olarak ya Yunanca α harfini ya da Latin harfini kullanırlar. R. Bundan sonra mektubu kullanacağız R.

Tarihsel olarak, istatistik kullanan uygulamalı bilimlerde ve özellikle psikolojide, istatistiksel anlamlılığın en düşük seviyesi, seviye olarak kabul edilir. p = 0,05; yeterli seviye R= 0,01 ve en yüksek seviye p = 0.001. Bu nedenle istatistik ders kitaplarının ekinde verilen istatistiksel tablolarda genellikle seviyelere ilişkin tablo değerleri verilmektedir. p = 0,05, p = 0,01 ve R= 0,001. Bazen seviyeler için tablo değerleri verilir R - 0,025 ve p = 0,005.

0,05, 0,01 ve 0,001 değerleri, standart istatistiksel anlamlılık seviyeleri olarak adlandırılır. Deneysel verileri istatistiksel olarak analiz ederken, bir psikolog, çalışmanın hedeflerine ve hipotezlerine bağlı olarak gerekli önem düzeyini seçmelidir. Gördüğümüz gibi, burada en büyük değer veya istatistiksel anlamlılık düzeyinin alt sınırı 0,05'e eşittir - bu, yüz öğeden (vakalar, konular) oluşan bir örneklemde beş hataya veya yirmide bir hataya izin verildiği anlamına gelir. unsurlar (vakalar, konular). Ne altı, ne yedi, ne de olduğuna inanılıyor. büyük miktar Yüzde bir kez yanılmış olamayız. Bu tür hataların maliyeti çok yüksek olacaktır.

Bilgisayarlardaki modern istatistik paketlerinin standart anlamlılık seviyelerini değil, doğrudan ilgili istatistiksel yöntemle çalışma sürecinde hesaplanan seviyeleri kullandığını unutmayın. Harfle gösterilen bu seviyeler R, 0 ila 1 aralığında farklı bir sayısal ifadeye sahip olabilir; örneğin, p = 0,7, R= 0,23 veya R= 0,012. İlk iki durumda elde edilen anlamlılık düzeylerinin çok yüksek olduğu ve sonucun anlamlı olduğunu söylemenin mümkün olmadığı açıktır. Aynı zamanda ikinci durumda sonuçlar 12 binde bir düzeyinde önemlidir. Bu güvenilir bir seviyedir.

İstatistiksel bir sonucu kabul etmenin kuralı şu şekildedir: Psikolog, elde edilen deneysel verilere dayanarak, seçtiği istatistiksel yöntemi kullanarak sözde ampirik istatistikleri veya ampirik değeri hesaplar. Bu miktarı şu şekilde belirtmek uygundur: H onları . Daha sonra ampirik istatistikler H onları seçilen istatistiksel yöntem için %5 ve %1 anlamlılık düzeylerine karşılık gelen ve şu şekilde gösterilen iki kritik değerle karşılaştırılır: H cr . Miktarları H cr Herhangi bir istatistik ders kitabının ekinde verilen ilgili tabloları kullanarak belirli bir istatistiksel yöntem için bulunur. Bu miktarlar kural olarak her zaman farklıdır ve aşağıda kolaylık olması açısından şu şekilde adlandırılabilirler: H kr1 Ve H kr2 . Tablolardan bulunan kritik değerler H kr1 Ve H kr2 Bunu aşağıdaki standart gösterim biçiminde göstermek uygundur:

Ancak notasyonu kullandığımızı vurguluyoruz. H onları Ve H cr "sayı" kelimesinin kısaltması olarak. Tüm istatistiksel yöntemler, tüm bu büyüklükler için kendi sembolik tanımlarını benimsemiştir: hem ilgili istatistiksel yöntem kullanılarak hesaplanan ampirik değer hem de ilgili tablolardan bulunan kritik değer. Örneğin, bu katsayının kritik değerleri tablosunu kullanarak Spearman sıra korelasyon katsayısını hesaplarken, bu yöntem için belirtilen aşağıdaki kritik değerler bulunmuştur. Yunan harfiρ (“rho”). İçin böylece p = Tablodan bulunan 0,05 değeri ρ cr 1 = 0,61 ve için p = 0,01 büyüklük ρ cr 2 = 0,76.

Aşağıdaki sunumda benimsenen standart gösterim biçiminde şuna benzer:

Şimdi ampirik değerimizi tablolardan bulunan iki kritik değerle karşılaştırmamız gerekiyor. Bunu yapmanın en iyi yolu üç sayıyı da "anlam ekseni" adı verilen yere yerleştirmektir. "Önem ekseni", kural olarak bu düz çizgi üzerinde işaretlenmemiş olmasına rağmen, sol ucu 0 olan düz bir çizgidir ve sayı dizisinde soldan sağa bir artış vardır. Aslında bu her zamanki okul apsis ekseni AH Kartezyen koordinat sistemi. Ancak bu eksenin özelliği üç bölümden, “bölgelerden” oluşmasıdır. Bir uç bölgeye önemsizlik bölgesi, ikinci uç bölgeye önemli bölge, ara bölgeye ise belirsizlik bölgesi adı verilir. Her üç bölgenin sınırları H kr1İçin p = 0,05 ve H kr2 İçin p =Şekilde gösterildiği gibi 0,01.

Bu istatistiksel yöntemde öngörülen karar kuralına (çıkarım kuralına) bağlı olarak iki seçenek mümkündür.

Birinci seçenek: Alternatif hipotez kabul edilirse H onlarıH cr .

Veya ikinci seçenek: Alternatif hipotez şu durumda kabul edilir: H onlarıH cr .

sayıldı H onları bazı istatistiksel yöntemlere göre mutlaka üç bölgeden birine girmesi gerekir.

Ampirik değer anlamsızlık bölgesine düşerse, farklılıkların yokluğuna ilişkin H 0 hipotezi kabul edilir.

Eğer H onları anlamlı bölgeye düştüğünde alternatif hipotez H 1 kabul edilir Ö farklılıkların varlığı ve H 0 hipotezinin reddedilmesidir.

Eğer H onları belirsizlik alanına düştüğünde araştırmacı bir ikilemle karşı karşıya kalır. Yani çözülen problemin önemine bağlı olarak elde edilen istatistiksel tahminin %5 düzeyinde güvenilir olduğunu düşünebilir ve dolayısıyla H 1 hipotezini kabul ederek H 0 hipotezini reddedebilir. , veya - %1 düzeyinde güvenilmez, dolayısıyla H 0 hipotezi kabul edilir. Bununla birlikte, bir psikoloğun birinci veya ikinci türden hatalar yapabileceği durumun tam da bu olduğunu vurguluyoruz. Yukarıda tartışıldığı gibi, bu durumlarda örneklem boyutunu artırmak en iyisidir.

değerini de vurgulayalım. H onları her ikisiyle de tam olarak eşleşebilir H kr1 veya H kr2 . İlk durumda, tahminin tam olarak %5 seviyesinde güvenilir olduğunu varsayabilir ve H 1 hipotezini kabul edebilir veya tam tersi H 0 hipotezini kabul edebiliriz. İkinci durumda, kural olarak, farklılıkların varlığına ilişkin alternatif hipotez H 1 kabul edilir ve H 0 hipotezi reddedilir.

Sizce “diğer yarınızı” özel ve anlamlı kılan şey nedir? Bu onun kişiliğiyle mi yoksa bu kişiye karşı beslediğiniz duygularla mı alakalı? Ya da belki de çalışmaların gösterdiği gibi, sempatinizin rastlantısallığı hakkındaki hipotezin olasılığının %5'ten az olduğu gerçeğiyle mi? Son ifadenin güvenilir olduğunu düşünürsek, prensipte başarılı tanışma siteleri mevcut olmayacaktır:

Web sitenizde bölünmüş test veya başka bir analiz yaptığınızda, "istatistiksel anlamlılığın" yanlış anlaşılması, sonuçların yanlış yorumlanmasına ve dolayısıyla dönüşüm optimizasyonu sürecinde yanlış eylemlere yol açabilir. Bu, mevcut tüm endüstrilerde her gün gerçekleştirilen diğer binlerce istatistiksel test için de geçerlidir.

"İstatistiksel anlamlılığın" ne olduğunu anlamak için terimin tarihine dalmanız, gerçek anlamını öğrenmeniz ve bu "yeni" eski anlayışın, araştırmanızın sonuçlarını doğru bir şekilde yorumlamanıza nasıl yardımcı olacağını anlamanız gerekir.

Biraz tarih

İnsanlık yüzyıllardır çeşitli sorunları çözmek için istatistiği kullanıyor olmasına rağmen, istatistiksel anlamlılık, hipotez testi, rastgeleleştirme ve hatta Deney Tasarımı (DOE) hakkındaki modern anlayış ancak 20. yüzyılın başında şekillenmeye başladı ve ayrılmaz bir şekilde Sör Ronald Fisher'ın adı (Sir Ronald Fisher, 1890-1962):

Ronald Fisher, evrim çalışmalarına özel bir tutkusu olan bir evrimsel biyolog ve istatistikçiydi. Doğal seçilim hayvanda ve bitki örtüsü. Şanlı kariyeri boyunca bugün hala kullandığımız birçok yararlı istatistiksel aracı geliştirdi ve popüler hale getirdi.

Fisher geliştirdiği teknikleri baskınlık, mutasyonlar ve genetik sapmalar gibi biyolojideki süreçleri açıklamak için kullandı. Web kaynaklarının içeriğini optimize etmek ve geliştirmek için bugün aynı araçları kullanabiliriz. Bu analiz araçlarının, yaratıldıkları sırada var olmayan nesnelerle çalışmak için kullanılabilmesi oldukça şaşırtıcı görünüyor. İnsanların hesap makineleri veya bilgisayarlar olmadan karmaşık hesaplamalar yapması da aynı derecede şaşırtıcıdır.

İstatistiksel bir deneyin sonuçlarını doğru olma olasılığının yüksek olduğunu tanımlamak için Fisher "anlamlılık" kelimesini kullandı.

Ayrıca Fisher'ın en ilginç gelişmelerinden biri de "seksi oğul" hipotezi olarak adlandırılabilir. Bu teoriye göre kadınlar, cinsel açıdan rastgele erkekleri tercih ediyor çünkü bu, bu erkeklerden doğan oğulların aynı yatkınlığa sahip olmasına ve daha fazla çocuk üretmesine olanak tanıyacak (bunun sadece bir teori olduğunu unutmayın).

Ancak hiç kimse, hatta parlak bilim insanları bile hata yapmaktan muaf değildir. Fisher'ın kusurları bugün bile uzmanların başına dert olmaya devam ediyor. Ancak Albert Einstein'ın şu sözlerini hatırlayın: "Hiç hata yapmamış olan, hiçbir zaman yeni bir şey yaratmamıştır."

Bir sonraki noktaya geçmeden önce şunu unutmayın: istatistiksel anlamlılık, test sonuçlarındaki farkın, farkın rastgele faktörlerle açıklanamayacak kadar büyük olmasıdır.

Hipoteziniz nedir?

"İstatistiksel anlamlılığın" ne anlama geldiğini anlamak için öncelikle "hipotez testinin" ne olduğunu anlamanız gerekir çünkü iki terim yakından iç içe geçmiştir.
Hipotez sadece bir teoridir. Bir teori geliştirdikten sonra, yeterli kanıt toplamak ve bu kanıtları gerçekten toplamak için bir süreç oluşturmanız gerekecektir. İki tür hipotez vardır.

Elmalar veya portakallar - hangisi daha iyi?

Sıfır hipotezi

Kural olarak, birçok insanın zorluk yaşadığı yer burasıdır. Akılda tutulması gereken bir şey, boş bir hipotezin kanıtlanması gereken bir şey olmadığıdır; tıpkı bir web sitesindeki belirli bir değişikliğin dönüşümlerde artışa yol açacağını kanıtlamanız gibi, ancak bunun tersi de geçerlidir. Boş hipotez, sitede herhangi bir değişiklik yaparsanız hiçbir şeyin olmayacağını belirten bir teoridir. Ve araştırmacının amacı bu teoriyi kanıtlamak değil çürütmektir.

Soruşturmacıların aynı zamanda suçlunun kim olduğuna dair hipotezler oluşturduğu suçları çözme deneyimine bakarsak, sıfır hipotezi sözde masumiyet karinesi biçimini alır; buna göre sanığın suçluluğu kanıtlanana kadar masum olduğu varsayılır. hukuk Mahkemesinde.

Boş hipotez, iki nesnenin özellikleri bakımından eşit olduğu yönündeyse ve birinin daha iyi olduğunu kanıtlamaya çalışıyorsanız (örneğin, A, B'den daha iyidir), alternatif lehine sıfır hipotezini reddetmeniz gerekir. Örneğin, bir veya daha fazla dönüşüm optimizasyon aracını karşılaştırıyorsunuz. Sıfır hipotezinde her ikisi de hedef üzerinde aynı etkiye sahiptir (veya hiçbir etkisi yoktur). Alternatif olarak bunlardan birinin etkisi daha iyidir.

Alternatif hipoteziniz şunları içerebilir: Sayısal değerörneğin B - A > %20. Bu durumda sıfır hipotezi ve alternatif aşağıdaki formu alabilir:

Alternatif hipotezin diğer adı araştırma hipotezidir çünkü araştırmacı her zaman bu özel hipotezi kanıtlamakla ilgilenir.

İstatistiksel anlamlılık ve p değeri

Tekrar Ronald Fisher'a ve onun istatistiksel anlamlılık kavramına dönelim.

Artık boş bir hipoteziniz ve bir alternatifiniz olduğuna göre, birini nasıl kanıtlayıp diğerini çürütebilirsiniz?

İstatistikler doğası gereği belirli bir popülasyonun (örneklem) incelenmesini içerdiğinden, elde edilen sonuçlardan asla %100 emin olamazsınız. İyi bir örnek: Seçim sonuçları genellikle ön anketlerin ve hatta çıkış havuzlarının sonuçlarından farklıdır.

Dr. Fisher, deneyin başarılı olup olmadığını size bildirecek bir ayrım çizgisi oluşturmak istedi. Güvenilirlik endeksi bu şekilde ortaya çıktı. Güvenilirlik, neyi “önemli” olarak değerlendirdiğimizi ve neyi düşünmediğimizi söylemek için kullandığımız düzeydir. Anlamlılık indeksi olan "p" 0,05 veya daha küçük ise sonuçlar güvenilirdir.

Endişelenmeyin, aslında göründüğü kadar kafa karıştırıcı değil.

Gauss olasılık dağılımı. Kenarlarda - daha az olası değerler değişken, merkezde - en muhtemel olanı. P-puanı (yeşil gölgeli alan), gözlemlenen sonucun şans eseri ortaya çıkma olasılığıdır.

Normal olasılık dağılımı (Gauss dağılımı), tüm olasılıkların bir temsilidir. olası değerler Grafikteki belirli bir değişken (yukarıdaki şekilde) ve bunların frekansları. Araştırmanızı doğru yaparsanız ve tüm cevaplarınızı bir grafik üzerinde işaretlerseniz tam olarak bu dağılımı elde edersiniz. Normal dağılıma göre, benzer yanıtların büyük bir yüzdesini alacaksınız ve geri kalan seçenekler grafiğin kenarlarında ("kuyruk" olarak adlandırılan) yer alacaktır. Değerlerin bu dağılımı doğada sıklıkla bulunur, bu yüzden buna “normal” denir.

Numunenize ve test sonuçlarınıza dayalı bir denklem kullanarak, sonuçlarınızın ne kadar saptığını gösteren "test istatistiği" adı verilen şeyi hesaplayabilirsiniz. Ayrıca sıfır hipotezinin doğru olmasına ne kadar yakın olduğunuzu da söyleyecektir.

Bu konuyu anlamanıza yardımcı olması için istatistiksel önemi hesaplamak amacıyla çevrimiçi hesap makinelerini kullanın:

Bu tür hesap makinelerine bir örnek

"P" harfi sıfır hipotezinin doğru olma olasılığını temsil eder. Sayının küçük olması test grupları arasında bir fark olduğunu gösterirken, sıfır hipotezi bunların aynı olduğu yönünde olacaktır. Grafiksel olarak, test istatistiğiniz çan şeklindeki dağılımınızın kuyruklarından birine daha yakın olacak gibi görünecektir.

Dr. Fisher anlamlılık eşiğini p ≤ 0,05 olarak ayarlamaya karar verdi. Ancak bu ifade tartışmalıdır çünkü iki zorluğa yol açmaktadır:

1. Öncelikle sıfır hipotezinin yanlış olduğunu kanıtlamış olmanız, alternatif hipotezi kanıtladığınız anlamına gelmez. Bütün bu önem, ne A'yı ne de B'yi kanıtlayamayacağınız anlamına gelir.

2. İkinci olarak p-puanı 0,049 ise sıfır hipotezinin olasılığı %4,9 olacaktır. Bu, test sonuçlarınızın aynı anda hem doğru hem de yanlış olabileceği anlamına gelebilir.

P-puanını kullanabilir veya kullanmayabilirsiniz, ancak daha sonra sıfır hipotezinin olasılığını duruma göre hesaplamanız ve bunun planladığınız ve test ettiğiniz değişiklikleri yapmanızı engelleyecek kadar büyük olup olmadığına karar vermeniz gerekecektir. .

Günümüzde istatistiksel bir test yürütmek için en yaygın senaryo, testin kendisini çalıştırmadan önce anlamlılık eşiğini p ≤ 0,05 olarak ayarlamaktır. Sonuçlarınızı kontrol ederken p değerine yakından baktığınızdan emin olun.

Hata 1 ve 2

Üzerinden o kadar çok zaman geçti ki istatistiksel anlamlılık metriği kullanılırken oluşabilecek hatalara kendi isimleri bile verildi.

Tip 1 Hatalar

Yukarıda belirtildiği gibi, 0,05'lik bir p değeri, sıfır hipotezinin doğru olma ihtimalinin %5 olduğu anlamına gelir. Bunu yapmazsanız, 1 numaralı hatayı yapmış olursunuz. Sonuçlar, yeni web sitenizin dönüşüm oranlarınızı artırdığını gösteriyor ancak %5'lik bir ihtimalle bunu yapmadı.

Tip 2 Hatalar

Bu hata, hata 1'in tam tersidir: Boş hipotezi yanlış olduğunda kabul edersiniz. Örneğin test sonuçları size sitede yapılan değişikliklerin herhangi bir iyileştirme getirmediğini ancak değişiklikler olduğunu söylüyor. Sonuç olarak performansınızı iyileştirme fırsatını kaçırırsınız.

Bu hata, örneklem büyüklüğünün yetersiz olduğu testlerde yaygındır; bu nedenle şunu unutmayın: örneklem ne kadar büyükse sonuç da o kadar güvenilir olur.

Çözüm

Belki de hiçbir terim araştırmacılar arasında istatistiksel anlamlılık kadar popüler değildir. Test sonuçları istatistiksel olarak anlamlı çıkmadığında, sonuçlar dönüşüm oranlarının artmasından şirketin çöküşüne kadar uzanıyor.

Pazarlamacılar bu terimi kaynaklarını optimize ederken kullandıklarından, bunun gerçekte ne anlama geldiğini bilmeniz gerekir. Test koşulları değişebilir ancak örneklem büyüklüğü ve başarı kriterleri her zaman önemlidir. Hatırla bunu.

İstatistiksel anlamlılık veya p-anlamlılık düzeyi testin ana sonucudur

istatistiksel hipotez. Konuşuyorum teknik dil, belirli bir alma olasılığıdır

Örnek bir çalışmanın sonucu, aslında genel olarak

Toplamda, boş istatistiksel hipotez doğrudur; yani hiçbir bağlantı yoktur. Başka bir deyişle, bu

tespit edilen ilişkinin rastgele olup bir özellik olmaması olasılığı

bütünlük. İstatistiksel anlamlılık, p anlamlılık düzeyi, yani

İletişim güvenilirliğinin niceliksel değerlendirmesi: bu olasılık ne kadar düşük olursa bağlantı o kadar güvenilir olur.

Diyelim ki, iki örnek ortalamayı karşılaştırırken bir seviye değeri elde edildi

istatistiksel anlamlılık p=0,05. Bu, istatistiksel hipotezin test edilmesi anlamına gelir.

nüfustaki ortalamaların eşitliği şunu gösterdi: eğer bu doğruysa, o zaman olasılık

Tespit edilen farklılıkların rastgele ortaya çıkma oranı %5'ten fazla değildir. Başka bir deyişle, eğer

Aynı popülasyondan tekrar tekrar iki örnek alındı, ardından bunların 1'inde

20 vaka, bu numunelerin ortalamaları arasında aynı veya daha büyük farkı ortaya çıkaracaktır.

Yani bulunan farklılıkların şans eseri olma ihtimali %5'tir.

karakterdedir ve agreganın bir özelliği değildir.

Bir ilişkide bilimsel hipotez istatistiksel anlamlılık düzeyi nicelikseldir

sonuçlardan hesaplanan, bir bağlantının varlığına ilişkin sonuca güvensizlik derecesinin bir göstergesi

Bu hipotezin seçici, deneysel olarak test edilmesi. Nasıl daha az değer p seviyesi ne kadar yüksekse

Bilimsel bir hipotezi doğrulayan bir araştırma sonucunun istatistiksel önemi.

Anlamlılık düzeyini neyin etkilediğini bilmek faydalıdır. Önem düzeyi, diğer her şey eşit olduğunda

koşullar daha yüksekse (p düzeyi değeri daha düşüktür):

Bağlantının büyüklüğü (fark) daha büyüktür;

Özellik(ler)in değişkenliği daha azdır;

Örnek boyutu/boyutları daha büyüktür.

Tek taraflıİki taraflı anlamlılık testleri

Çalışmanın amacı iki genel parametredeki farklılıkları belirlemek ise

çeşitli doğal koşullara karşılık gelen agregalar ( yaşam koşulları,

deneklerin yaşı vb.), bu parametrelerden hangisinin daha büyük olacağı genellikle bilinmez ve

Hangisi daha küçük?

Örneğin, bir testteki sonuçların değişkenliğiyle ilgileniyorsanız ve

deney gruplarında, kural olarak, varyanslardaki farkın işaretine güven yoktur veya

Standart sapma değişkenliğin değerlendirildiği sonuçlar. Bu durumda

sıfır hipotezi varyansların eşit olduğu ve çalışmanın amacının

bunun tersini kanıtlayın, yani varyanslar arasında farkların varlığı. buna izin veriliyor

fark herhangi bir işarette olabilir. Bu tür hipotezlere iki taraflı denir.

Ancak bazen zorluk bir parametredeki artışı veya azalmayı kanıtlamaktır;

Örneğin, ortalama sonuç deney grubunda kontrol grubuna göre daha yüksektir. burada

Artık farkın farklı bir işarette olmasına izin verilmiyor. Bu tür hipotezlere denir

Tek taraflı.

İki taraflı hipotezleri test etmek için kullanılan anlamlılık testlerine ne ad verilir?

Çift taraflı ve tek taraflı - tek taraflı.

Belirli bir durumda hangi kriterin seçilmesi gerektiği sorusu ortaya çıkar. Cevap

Bu soru resmi istatistiksel yöntemlerin kapsamı dışındadır ve tamamen

Çalışmanın hedeflerine bağlıdır. Hiçbir durumda bir veya başka bir kriteri seçmemelisiniz.

Deneysel verilerin analizine dayalı bir deney yürütmek;

Yanlış sonuçlara yol açar. Bir deney yapmadan önce farkın olduğu varsayılırsa

Karşılaştırılan parametreler pozitif ya da negatif olabilir.

İSTATİSTİKSEL GÜVENİLİRLİK

- İngilizce güvenilirlik/geçerlilik, istatistiksel; Almanca Doğrulama, istatistik. İstatistiksel bir testte veya Q.l.'de tutarlılık, nesnellik ve belirsizlik eksikliği. ölçüm seti. D. s. aynı sonuçların elde edilip edilmediğini görmek için aynı testin (veya anketin) aynı denek üzerinde tekrarlanmasıyla test edilebilir; veya karşılaştırma çeşitli parçalar Aynı nesneyi ölçmesi gereken testler.

Antinazi. Sosyoloji Ansiklopedisi, 2009

Diğer sözlüklerde “İSTATİSTİKSEL GÜVENİLİRLİK” in ne olduğuna bakın:

    İSTATİSTİKSEL GÜVENİLİRLİK- İngilizce güvenilirlik/geçerlilik, istatistiksel; Almanca Doğrulama, istatistik. İstatistiksel bir testte veya Q.l.'de tutarlılık, nesnellik ve belirsizlik eksikliği. ölçüm seti. D. s. aynı testi tekrarlayarak doğrulanabilir (veya... Sözlük Sosyolojide

    İstatistikte, bir miktarın olasılığı düşükse istatistiksel olarak anlamlı olduğu söylenir. tesadüfi olay veya daha da uç değerler. Burada aşırı noktayla, test istatistiklerinin sıfır hipotezinden sapma derecesini kastediyoruz. Farkın adı... ...Wikipedia

    İstatistiksel kararlılığın fiziksel olgusu, örneklem boyutu arttıkça frekansın da artmasıdır. rastgele olay veya ortalama fiziksel miktar sabit bir sayıya yönelir. İstatistik olgusu... ... Vikipedi

    FARKLILIKLARIN GÜVENİLİRLİĞİ (Benzerlikler)- incelenen göstergelere (değişkenlere) göre örnekler arasındaki farklılıkların veya benzerliklerin önem düzeyini belirlemek için analitik istatistiksel prosedür ... Modern eğitim süreci: temel kavramlar ve terimler

    RAPORLAMA, İSTATİSTİK Büyük Muhasebe Sözlüğü

    RAPORLAMA, İSTATİSTİK- ilgili organların işletmelerden (kuruluşlar ve kurumlar) ihtiyaç duydukları bilgileri yasal olarak oluşturulmuş raporlama belgeleri (istatistiksel raporlar) biçiminde aldıkları bir tür devlet istatistiksel gözlemi... Büyük ekonomi sözlüğü

    Kütle olaylarının sistematik gözlemlenmesine yönelik teknikleri inceleyen bilim sosyal hayat insanların sayısal açıklamalarını derlemesi ve bu açıklamaların bilimsel olarak işlenmesi. Dolayısıyla teorik istatistik bir bilimdir... ... ansiklopedik sözlük F. Brockhaus ve I.A. Efron

    Korelasyon katsayısı- (Korelasyon katsayısı) Korelasyon katsayısı iki bağımlılığın istatistiksel bir göstergesidir rastgele değişkenler Korelasyon katsayısının tanımı, korelasyon katsayılarının çeşitleri, korelasyon katsayısının özellikleri, hesaplanması ve uygulanması... ... Yatırımcı Ansiklopedisi

    İstatistik- (İstatistik) İstatistik, olgu ve süreçlerdeki niceliksel değişiklikleri inceleyen genel bir teorik bilimdir. Devlet istatistikleri, istatistiksel hizmetler, Rosstat (Goskomstat), istatistiksel veriler, sorgu istatistikleri, satış istatistikleri,... ... Yatırımcı Ansiklopedisi

    Korelasyon- (Korelasyon) Korelasyon, iki veya daha fazla rastgele değişken arasındaki istatistiksel ilişkidir.Korelasyon kavramı, korelasyon türleri, korelasyon katsayısı, korelasyon analizi, fiyat korelasyonu, Forex'te döviz çiftlerinin korelasyonu... ... Yatırımcı Ansiklopedisi

Kitabın

  • Matematikte araştırma ve araştırmada matematik: Öğrenci araştırma faaliyetlerine ilişkin metodolojik koleksiyon, Borzenko V.I.. Koleksiyon sunar metodolojik gelişmeler organizasyonda uygulanabilir araştırma faaliyetleriöğrenciler. Koleksiyonun ilk bölümü araştırma yaklaşımının uygulanmasına ayrılmıştır...