關於Stata這軟體他跟R一樣是一個功能非常強大的軟體,差別在兩個地方:

  1. R軟體是免費的 http://www.r-project.org/  這是他的載點,而Stata 則是付費軟體;之前的文章中有特別提過免費軟體以及付費軟體的差異,我想在這地方就不在多加描述!
  2. R軟體需要寫程式,當然現在的R Studio以及R Commend 也有視窗的功能,當然他不及SPSS那麼方便,可使用上見仁見智;而Stata這軟體也是視窗版本,只要一隻滑鼠就可以操作,他同時可以解決多變量SEM以及HLM分析的需求,可說是一套功能強大的軟體!

如果您對這軟體有興趣,在Google打上Stata就會出現他的下載頁面 http://downloads.info/windows/science/math/stata.html

當然這是Stata12的載點,目前最新的版本是 13.0版本,鼎茂統計諮詢中心在本月27日預計在台中科技大學舉辦Stata軟體操作研習營(基礎班),如果您有興趣可以上這個網站

http://spss999.tingmao.com.tw

差幾個人他就可以開課了!

 

roven5712 發表在 痞客邦 PIXNET 留言(1) 人氣()


留言列表 (1)

發表留言
  • jimmy@yu-house.com
  • 以下個人觀點,可能有些錯誤:

    SPSS當然是很不錯的,但是價格也很高。大部分人講的SPSS應該是在IBM 將spss改為 business analytics的工具之前的情況吧,現在應該不同了吧。

    SAS價格也不便宜,如果你的資料來源是Database,大概還是SAS比較能和Database銜接。如果你是租資料公司的資料庫,或是標準的股票交易的資料庫這種,當然就用SAS最好。

    如果你的資料是自己整理出來的,例如將網路原始資料下載下來做整理,那應該是Stata比較好。

    因為你整理資料的時候,最重要的是能記錄編輯的每個步驟,也就是說:雖然你手動整理資料,但是,應記錄成一個程式檔,其他人執行這個檔以後,會產生相同的結果,這是最重要的。否則跟作弊沒甚麼兩樣。

    其實用Stata整理好資料以後,你可以用matlab來跑矩陣,搞不好才是最快的。

    因為很多的convex optimization的運算,也就是找最小值的運算(統計不就是再找最小值嗎?),其實你要考慮矩陣的特性,有很多數學定理對特殊矩陣的運算有特殊解法,例如稀疏矩陣等等。這些定理的運用大部分都只有在matlab上實現,所以跑矩陣建議還是用matlab。

    統計模型不就是矩陣的運算嗎?何必要用甚麼統計軟體?很多統計軟體都是不能做擾動分析的,例如你可以告訴我,假設資料中的一個變數紀錄時有1%上下的錯誤,對估計值有多少影響?

    這類問題很多統計軟體都做不出來,因為統計公式的估計值,很多只是一個矩陣的多項式運算的公式,而不是用數值方法推算的結果。所以沒法做這類的擾動分析。

    如果要做business analytics,你可以將資料傳至主機伺服器,用網頁的方式進行視覺化分析,也不輸給SPSS (SAS也有analytics視覺化分析也很不錯)。當然將資料視覺化圖表是指以瀏覽器來檢視,必須要開發網站,需要花個5~10萬美金請工程師開發。但應該比用SPSS划算。畢竟開發出來可以讓所有人使用,不需按人頭計費。

    SAS我覺得還是金融機構的分析才會用吧!因為金融資料比較有結構性,也比較沒有錯誤或紀錄缺失。

    如果是microeconometrics的資料,例如公司的股東股權資料,家戶的所得與消費資料,進出口貿易資料,保險的保單資料,選舉的投票資料,政府官員的發言資料,報紙新聞稿上的內容,軍事武器設備資料,網頁瀏覽次數連結次數的資料,網路社群活動的資料,通話紀錄的資料。這類的資料如果先整理存成資料庫,然後再sql取出來分析,就是在做重複的工作了。

    因為你要存成資料庫,你的資料是要很結構化的,如果是非結構化的,當你存成資料庫時,可能已經把很多不乾淨的資料剃除了。但存成資料庫的人和分析的人可能是不同人,那就無法因應分析的條件與假設來分類與剔除資料,就會做重工。

    而且非結構化的資料有時資料量是很大的,硬要把100T的資料存成單一檔案(因為整個資料庫就是一個檔案)是有問題的。一般的檔案系統(如EXT4)只能存16T,所以你的資料庫如果大於16T,等於你就要花大錢在硬體上了。

    所以重點應該是要做一個分類資料、剔除資料、推算缺失資料的的代入值的模型。而不是要討論乾淨資料怎麼分析。

    統計的價值是建立一個將原始資料變成乾淨資料的模型。而不是在分析乾淨資料。說真的誰會在乎甚麼變數和甚麼變數之間有沒有顯著的因果關係?根本不重要。那只有學術價值。

    事實上有了乾淨資料後,用甚麼模型做分析不重要,因為你可以提出報告,如果A模型就有A預測,如果B模型就有B預測。

    事實上有乾淨資料後,其實你用視覺化的方法呈現資料,基本上就可做決策判斷了。

    當然這是microeconometrics的觀點。
    從這種觀點來看,Stata可能才是最合適的工具