欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

大數(shù)據(jù)技術(shù)

咨詢客服

數(shù)據(jù)科學(xué)家都應(yīng)該知道的5個(gè)統(tǒng)計(jì)學(xué)知識(shí)

2019-07-03 主機(jī)租用 134

數(shù)據(jù)科學(xué)實(shí)際上可以定義為我們從數(shù)據(jù)中獲取額外信息的一個(gè)過(guò)程，在做數(shù)據(jù)科學(xué)時(shí)，我們真正想要做的其實(shí)就是解釋除了數(shù)字之外，VPS，所有數(shù)據(jù)在現(xiàn)實(shí)世界中的實(shí)際含義。

為了提取潛藏在復(fù)雜數(shù)據(jù)集中的信息，數(shù)據(jù)科學(xué)家采用了許多工具和技術(shù)，包括數(shù)據(jù)挖掘、數(shù)據(jù)可視化和數(shù)據(jù)建模等等。數(shù)據(jù)挖掘中常用的一類非常重要的數(shù)學(xué)技術(shù)是統(tǒng)計(jì)學(xué)。

在實(shí)際意義上，統(tǒng)計(jì)數(shù)據(jù)允許我們定義數(shù)據(jù)的具體數(shù)學(xué)摘要。我們可以使用統(tǒng)計(jì)信息來(lái)描述其中的一些屬性，而不是嘗試描述每個(gè)數(shù)據(jù)點(diǎn)。而這通常足以讓我們提取有關(guān)數(shù)據(jù)結(jié)構(gòu)和構(gòu)成的某些信息。

有些時(shí)候，當(dāng)人們聽(tīng)到“統(tǒng)計(jì)”這個(gè)詞時(shí)，往往會(huì)想到一些過(guò)于復(fù)雜的東西。也可能會(huì)有點(diǎn)抽象，但我們并非總是需要訴諸復(fù)雜的理論，來(lái)從統(tǒng)計(jì)中獲得某種價(jià)值。

統(tǒng)計(jì)學(xué)中最基本的部分通常是數(shù)據(jù)科學(xué)中最實(shí)用的部分。

今天，我們將分享5個(gè)對(duì)于數(shù)據(jù)科學(xué)有用的統(tǒng)計(jì)學(xué)方法。這些不是過(guò)分抽象的概念，而是相當(dāng)簡(jiǎn)單、有長(zhǎng)期適用性的技術(shù)。

一、集中趨勢(shì)(Central Tendency)

數(shù)據(jù)集或特征變量的集中趨勢(shì)是集的中心或典型值。其思想是，可能有一個(gè)單一的值可以(在某種程度上)最好地描述我們的數(shù)據(jù)集。

例如，假設(shè)你有一個(gè)以x-y位置(100,100)為中心的正態(tài)分布。那么點(diǎn)(100,100)是集中趨勢(shì)，因?yàn)樵谒锌蛇x擇的點(diǎn)中，它提供了對(duì)數(shù)據(jù)最好的總結(jié)。

對(duì)于數(shù)據(jù)科學(xué)來(lái)說(shuō)，我們可以使用集中趨勢(shì)進(jìn)行度量，來(lái)快速簡(jiǎn)單地了解我們數(shù)據(jù)集的整體情況。我們的數(shù)據(jù)的“中心”可以是非常有價(jià)值的信息，它告訴我們數(shù)據(jù)集究竟是如何偏置的，因?yàn)閿?shù)據(jù)所圍繞的任何值本質(zhì)上都是偏置。

在數(shù)學(xué)上有兩種選擇集中趨勢(shì)的常用方法。

平均數(shù)(Mean)

平均數(shù)，也就是數(shù)據(jù)集的平均值，即整個(gè)數(shù)據(jù)圍繞其進(jìn)行散布的一個(gè)數(shù)字。在定義平均數(shù)時(shí)，所有用于計(jì)算平均數(shù)的值的權(quán)重都是相等的。

例如，計(jì)算以下5個(gè)數(shù)字的平均數(shù)：

(3 + 64 + 187 + 12 + 52)/ 5 = 63.6

平均數(shù)非常適合計(jì)算實(shí)際數(shù)學(xué)平均值，使用像Numpy這樣的Python庫(kù)計(jì)算速度也非常快。

中位數(shù)(Median)

中位數(shù)是數(shù)據(jù)集的中間值，即我們將數(shù)據(jù)從最小值排序到最大值(或從最大值到最小值)，然后取值集合中間的值：那就是中位數(shù)。

計(jì)算上一個(gè)例子中5個(gè)數(shù)字的中位數(shù)：

[3，12，52，64，187]→ 52

中值與平均數(shù)完全不同。它們沒(méi)有對(duì)錯(cuò)優(yōu)劣之分，但我們可以根據(jù)我們的情況和目標(biāo)選擇一個(gè)。

計(jì)算中位數(shù)需要對(duì)數(shù)據(jù)進(jìn)行排序——如果數(shù)據(jù)集很大，這會(huì)有點(diǎn)兒不切實(shí)際。

另一方面，免備案主機(jī)，中位數(shù)對(duì)于異常值比平均數(shù)更穩(wěn)健，因?yàn)槿绻嬖谝恍┓浅８叩漠惓Ｖ担瑒t平均值將被拉向某一個(gè)方向。

平均數(shù)和中位數(shù)可以用簡(jiǎn)單的numpy單行計(jì)算：

numpy.mean(array) numpy.median(array)

二、擴(kuò)散(Spread)

在統(tǒng)計(jì)學(xué)之下，數(shù)據(jù)的擴(kuò)散是指指數(shù)據(jù)被壓縮到一個(gè)或多個(gè)值的程度，這些值分布在更大的范圍內(nèi)。

參考下面的高斯概率分布圖——假設(shè)這些是描述真實(shí)世界數(shù)據(jù)集的概率分布。

藍(lán)色曲線的擴(kuò)散值最小，因?yàn)樗拇蟛糠謹(jǐn)?shù)據(jù)點(diǎn)都在一個(gè)相當(dāng)窄的范圍內(nèi)。紅色曲線的擴(kuò)散值最大，因?yàn)榇蠖鄶?shù)數(shù)據(jù)點(diǎn)所占的范圍要大得多。

圖例還顯示了這些曲線的標(biāo)準(zhǔn)偏差，這將在下一節(jié)中介紹。

標(biāo)準(zhǔn)偏差(Standard Deviation)

標(biāo)準(zhǔn)偏差是定量數(shù)據(jù)擴(kuò)散程度的最常見(jiàn)的方式。計(jì)算標(biāo)準(zhǔn)偏差需要5個(gè)步驟：

找到平均數(shù)。對(duì)于每個(gè)數(shù)據(jù)點(diǎn)，求其與平均值間的距離的平方。對(duì)步驟2中的值求和。除以數(shù)據(jù)點(diǎn)的數(shù)量。取平方根。

值越大，意味著我們的數(shù)據(jù)從平均數(shù)“擴(kuò)散出去”的程度越高。值越小意味著我們的數(shù)據(jù)越集中于平均數(shù)。

計(jì)算Numpy的標(biāo)準(zhǔn)偏差：numpy.std(array)

三、百分位數(shù)(Percentiles)

我們可以使用百分位數(shù)進(jìn)一步描述整個(gè)范圍內(nèi)每個(gè)數(shù)據(jù)點(diǎn)的位置。

百分位數(shù)根據(jù)數(shù)據(jù)點(diǎn)在值范圍中的位置高低來(lái)描述數(shù)據(jù)點(diǎn)的確切位置。

更正式地說(shuō)，第p百分位數(shù)是數(shù)據(jù)集中的一個(gè)值，在該值處可以將數(shù)據(jù)集分為兩部分。下半部分包含p %個(gè)數(shù)據(jù)，則稱其為第p百分位數(shù)。

例如以下11個(gè)數(shù)字的集合：

1,3,5,7,9,11,13,15,17,19,21

數(shù)字15就是是第70百分位數(shù)，因?yàn)楫?dāng)我們?cè)跀?shù)字15處將數(shù)據(jù)集分成兩部分時(shí)，有70%個(gè)數(shù)據(jù)小于15。

欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

虛擬主機(jī)

300元/年起購(gòu)

云服務(wù)器

服務(wù)器租用

服務(wù)器托管

香港服務(wù)器

美國(guó)服務(wù)器

亞洲服務(wù)器

歐洲服務(wù)器

增值服務(wù)

300元/年起購(gòu)

網(wǎng)站建設(shè)

3000元 起購(gòu)

軟件銷售

合作產(chǎn)品

大數(shù)據(jù)技術(shù)

數(shù)據(jù)科學(xué)家都應(yīng)該知道的5個(gè)統(tǒng)計(jì)學(xué)知識(shí)

夢(mèng)飛云服務(wù) - 關(guān)鍵詞 - 標(biāo)簽

3000元起購(gòu)