精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

人工智能之PCA算法

人閱讀
2018-06-18 05:53:00
相關(guān)關(guān)鍵詞
- 人工智能
- AI

前言：人工智能機(jī)器學(xué)習(xí)有關(guān)算法內(nèi)容，人工智能之機(jī)器學(xué)習(xí)主要有三大類：1）分類；2）回歸；3）聚類。今天我們重點(diǎn)探討一下PCA算法。

PCA（主成分分析）是十大經(jīng)典機(jī)器學(xué)習(xí)算法之一。PCA是Pearson在1901年提出的，后來由Hotelling在1933年加以發(fā)展提出的一種多變量的統(tǒng)計(jì)方法。

對于維數(shù)比較多的數(shù)據(jù)，首先需要做的事就是在盡量保證數(shù)據(jù)本質(zhì)的前提下將數(shù)據(jù)中的維數(shù)降低。降維是一種數(shù)據(jù)集預(yù)處理技術(shù)，往往在數(shù)據(jù)應(yīng)用在其他算法之前使用，它可以去除掉數(shù)據(jù)的一些冗余信息和噪聲，使數(shù)據(jù)變得更加簡單高效，從而實(shí)現(xiàn)提升數(shù)據(jù)處理速度的目的，節(jié)省大量的時(shí)間和成本。降維也成為了應(yīng)用非常廣泛的數(shù)據(jù)預(yù)處理方法。目前處理降維的技術(shù)有很多種，如SVD奇異值分解，主成分分析（PCA），因子分析（FA），獨(dú)立成分分析（ICA）等。今天重點(diǎn)介紹主成分分析（PCA）。

PCA（主成分分析）算法目的是在“信息”損失較小的前提下，將高維的數(shù)據(jù)轉(zhuǎn)換到低維，通過析取主成分顯出的最大的個(gè)別差異，也可以用來削減回歸分析和聚類分析中變量的數(shù)目，從而減小計(jì)算量。

PCA（主成分分析）通常用于高維數(shù)據(jù)集的探索與可視化，還可以用于數(shù)據(jù)壓縮，數(shù)據(jù)預(yù)處理等。

PCA算法概念：

PCA（PrincipalComponent Analysis）主成分分析，也稱為卡爾胡寧－勒夫變換（Karhunen－Loeve Transform），是一種用于探索高維數(shù)據(jù)結(jié)構(gòu)的技術(shù)。

PCA是一種較為常用的降維技術(shù)，PCA的思想是將維特征映射到維上，這維是全新的正交特征。這維特征稱為主元，是重新構(gòu)造出來的維特征。在PCA中，數(shù)據(jù)從原來的坐標(biāo)系轉(zhuǎn)換到新的坐標(biāo)系下，新的坐標(biāo)系的選擇與數(shù)據(jù)本身是密切相關(guān)的。第一個(gè)新坐標(biāo)軸選擇的是原始數(shù)據(jù)中方差最大的方向，第二個(gè)新坐標(biāo)軸選擇和第一個(gè)坐標(biāo)軸正交且具有最大方差的方向。該過程一直重復(fù)，重復(fù)次數(shù)為原始數(shù)據(jù)中特征的數(shù)目。大部分方差都包含在最前面的幾個(gè)新坐標(biāo)軸中。因此，可以忽略余下的坐標(biāo)軸，即對數(shù)據(jù)進(jìn)行降維處理。

PCA算法本質(zhì)：

PCA算法本質(zhì)就是找一些投影方向，使得數(shù)據(jù)在這些投影方向上的方差最大，而且這些投影方向是相互正交的。這其實(shí)就是找新的正交基的過程，計(jì)算原始數(shù)據(jù)在這些正交基上投影的方差，方差越大，就說明在對應(yīng)正交基上包含了更多的信息量。原始數(shù)據(jù)協(xié)方差矩陣的特征值越大，對應(yīng)的方差越大，在對應(yīng)的特征向量上投影的信息量就越大。反之，如果特征值較小，則說明數(shù)據(jù)在這些特征向量上投影的信息量很小，可以將小特征值對應(yīng)方向的數(shù)據(jù)刪除，從而達(dá)到了降維的目的。

PCA把可能具有相關(guān)性的高維變量合成線性無關(guān)的低維變量，稱為主成分（ principal components）。新的低維數(shù)據(jù)集會(huì)盡可能保留原始數(shù)據(jù)的變量。

簡而言之，PCA本質(zhì)上是將方差最大的方向作為主要特征，并且在各個(gè)正交方向上將數(shù)據(jù)“離相關(guān)”，也就是讓它們在不同正交方向上沒有相關(guān)性。

PCA算法中術(shù)語：

1、樣本“信息量”

樣本的“信息量”指的是樣本在特征方向上投影的方差。方差越大，則樣本在該特征上的差異就越大，因此該特征就越重要。在分類問題里，樣本的方差越大，越容易將不同類別的樣本區(qū)分開。

2、方差

希望投影后投影值盡可能分散，而這種分散程度，可以用數(shù)學(xué)上的方差來表述。在統(tǒng)計(jì)描述中，方差用來計(jì)算每一個(gè)變量（觀察值）與總體均數(shù)之間的差異。此處，一個(gè)字段的方差可以看做是每個(gè)元素與字段均值的差的平方和的均值，即：

3、協(xié)方差

對于二維降成一維的問題來說，找到使得方差最大的方向就可以了。但是對于更高維的問題，需要用到協(xié)方差來表示其相關(guān)性。即：

PCA理論基礎(chǔ)：

PCA理論基礎(chǔ)如下：

1）最大方差理論。

2）最小錯(cuò)誤理論。

3）坐標(biāo)軸相關(guān)度理論。

PCA算法流程：

1）去平均值，即每一位特征減去各自的平均值；

2）計(jì)算協(xié)方差矩陣；

3）計(jì)算協(xié)方差矩陣的特征值與特征向量；

4）對特征值從大到小排序；

5）保留最大的個(gè)特征向量；

6）將數(shù)據(jù)轉(zhuǎn)換到個(gè)特征向量構(gòu)建的新空間中。

PCA降維準(zhǔn)則： 1）最近重構(gòu)性：樣本集中所有點(diǎn)，重構(gòu)后的點(diǎn)距離原來的點(diǎn)的誤差之和最小。 2）最大可分性：樣本在低維空間的投影盡可能分開。

PCA算法優(yōu)點(diǎn)：

1）使得數(shù)據(jù)集更易使用；

2）降低算法的計(jì)算開銷；

3）去除噪聲；

4）使得結(jié)果容易理解；

5）完全無參數(shù)限制。

PCA算法缺點(diǎn)：

1）如果用戶對觀測對象有一定的先驗(yàn)知識，掌握了數(shù)據(jù)的一些特征，卻無法通過參數(shù)化等方法對處理過程進(jìn)行干預(yù)，可能會(huì)得不到預(yù)期的效果，效率也不高；

2）特征值分解有一些局限性，比如變換的矩陣必須是方陣；

3）在非高斯分布情況下，PCA方法得出的主元可能并不是最優(yōu)的。

PCA算法應(yīng)用：

PCA算法已經(jīng)被廣泛的應(yīng)用于高維數(shù)據(jù)集的探索與可視化，還可以用于數(shù)據(jù)壓縮，數(shù)據(jù)預(yù)處理等領(lǐng)域。在機(jī)器學(xué)習(xí)當(dāng)中應(yīng)用很廣，比如圖像，語音，通信的分析處理。PCA算法最主要的用途在于“降維”，去除掉數(shù)據(jù)的一些冗余信息和噪聲，使數(shù)據(jù)變得更加簡單高效，提高其他機(jī)器學(xué)習(xí)任務(wù)的計(jì)算效率。

結(jié)語：

PCA是一種常用的數(shù)據(jù)分析方法。PCA通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示，可用于識別和提取數(shù)據(jù)的主要特征分量，通過將數(shù)據(jù)坐標(biāo)軸旋轉(zhuǎn)到數(shù)據(jù)角度上那些最重要的方向（方差最大）；然后通過特征值分析，確定出需要保留的主成分個(gè)數(shù)，舍棄其他非主成分，從而實(shí)現(xiàn)數(shù)據(jù)的降維。降維使數(shù)據(jù)變得更加簡單高效，從而實(shí)現(xiàn)提升數(shù)據(jù)處理速度的目的，節(jié)省大量的時(shí)間和成本。降維也成為了應(yīng)用非常廣泛的數(shù)據(jù)預(yù)處理方法。PCA算法已經(jīng)被廣泛的應(yīng)用于高維數(shù)據(jù)集的探索與可視化，還可以用于數(shù)據(jù)壓縮，數(shù)據(jù)預(yù)處理，圖像，語音，通信的分析處理等領(lǐng)域。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI ChatGPT 機(jī)器學(xué)習(xí) 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會(huì) AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 百度AI 科大訊飛AI學(xué)習(xí)機(jī) CAICT AI手機(jī) 阿爾法蛋AI詞典筆T10 華為AI 微軟AI 松鼠AI AI+ 昇騰AI創(chuàng)新大賽 AIS Airdoc WAIC AITO 智譜AI 京東AI 阿爾法蛋AI詞典筆 AI模型 xAI SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會(huì) LIFAair AI機(jī)器人 AI應(yīng)用人工智能大會(huì) AI創(chuàng)企移動(dòng)AI時(shí)代 AI醫(yī)療浙大AIF 人工智能技術(shù) AI算力 Zain AI人才人工智能芯片 Airtag AI服務(wù)器 AI眼鏡 AI時(shí)代騰訊AI AI算法 AI投資 BrainCo AI框架 Gmail 聯(lián)想AI VAIO 人工智能計(jì)算中心 Airwallex空中云匯 AI賦能人工智能大賽 Chain AI教育 Coremail AI搜索 OPENAIGC開發(fā)者大賽谷歌人工智能 Airwheel 人工智能名片 Mirai 昇騰AI開發(fā)者創(chuàng)享日人工智能機(jī)器人阿里AI AI音樂 AI聊天機(jī)器人 BrainCo強(qiáng)腦科技人工智能+ 英偉達(dá)AI芯片阿爾法蛋AI詞典筆T20 通用人工智能 AI助手 AIOps AI計(jì)算

上一篇

人工智能之ICA算法

下一篇

智能硬件的低價(jià)“征途”

簡版
原版
投稿
回頂部

2018-06-18

人工智能之PCA算法

前言：人工智能機(jī)器學(xué)習(xí)有關(guān)算法內(nèi)容，人工智能之機(jī)器學(xué)習(xí)主要有三大類：1）分類；2）回歸；3）聚類。今天我們重點(diǎn)探討一下PCA算法。PCA（主成分分析）是十大經(jīng)典機(jī)器學(xué)習(xí)算法之一。

長按掃碼閱讀全文