スタタ

スタタ
原作者ウィリアム・グールド[ 1 ]
開発者スタタコープ
初回リリース1985 (1985年
安定版リリース
19.0 / 2025年4月8日 ( 2025-04-08 )
書かれたC
オペレーティング·システムWindowsmacOSLinux
タイプ統計解析数値解析
ライセンス独自の
Webサイトwww.stata.com

Stata/ ˈ s t t ə /[ 2 ] STAY -ta、または/ ˈ s t æ t ə /、STATAと表記されることもある[ 3 ] [ 4 ])は、StataCorpが開発したデータ操作、可視化、統計、自動レポート作成のための汎用統計ソフトウェアパッケージです。生物医学経済学疫学社会学など、多くの分野の研究者に使用されています。[ 5 ]

Stataは当初、カリフォルニア州のコンピューティング・リソース・センターによって開発され、最初のバージョンは1985年にリリースされました。[ 6 ] 1993年に同社はテキサス州カレッジステーションに移転し、Stata Corporation(現在はStataCorp)に改名されました。[ 1 ] 2003年のメジャーリリースには、新しいグラフィックシステムとすべてのコマンド用のダイアログボックスが含まれていました。[ 6 ]それ以来、2年に1回新しいバージョンがリリースされています。[ 7 ]現在のバージョンはStata 19で、2025年4月にリリースされました。[ 8 ]

技術概要と用語

ユーザーインターフェース

Stataは開発当初から、統合されたコマンドラインインターフェースを採用してきました。バージョン8.0以降、Stataはメニューダイアログボックスを用いたグラフィカルユーザーインターフェースを搭載し、多くの組み込みコマンドにアクセスできます。データセットはスプレッドシート形式で表示・編集できます。バージョン11以降では、データブラウザまたはエディタを開いている間に他のコマンドも実行できます。

データ構造とストレージ

バージョン16のリリースまで、[ 9 ] Stataは一度に1つのデータセットしか開けませんでした。Stataはデータにデータ型を割り当てる柔軟性を備えています。コマンドは、情報を失うことなく、メモリ使用量の少ないデータ型にデータを自動的に再割り当てします。Stataは4バイトではなく1バイトまたは2バイトしか占有しない整数ストレージ型を使用し、浮動小数点compress数は倍精度(8バイト)ではなく単精度(4バイト)がデフォルトです。

Stata独自の出力言語はSMCLと呼ばれ、Stata Markup and Control Languageの略で「スミックル」と発音されます。[ 10 ]

Stataのデータ形式は常に形式です。Stataは表形式のデータの列を変数として参照します。

データ形式の互換性

Stataは様々な形式のデータをインポートできます。これには、ASCIIデータ形式( CSVデータバンク形式など)やスプレッドシート形式(各種Excel形式を含む)が含まれます。

Stata独自のファイル形式は時間の経過とともに変化してきましたが、すべてのStataリリースに新しいデータセット形式が含まれているわけではありません。Stataのすべてのバージョンは、古いデータセット形式をすべて読み取ることができ、saveoldコマンドを使用して、現在のデータセット形式と最新のデータセット形式の両方を書き込むことができます。[ 11 ]そのため、現在のStataリリースでは、古いバージョンで作成されたデータセットを常に開くことができますが、古いバージョンでは新しい形式のデータセットを読み込むことができません。

Stata は、 fdause コマンドfdasaveコマンド を使用して、SAS XPORT 形式のデータセットをネイティブに読み書きできます。

gretlを含む他のいくつかの計量経済学アプリケーションは、Stata ファイル形式を直接インポートできます。

歴史

Stataの開発は1984年に始まり、当初はウィリアム(ビル)・グールドによって、後にショーン・ベケッティによって開発されました。このソフトウェアは、SYSTATMicroTSPといったパーソナルコンピュータ向けの統計プログラムに対抗することを目的としていました。[ 6 ] C言語で書かれたStataは、 1985年に44個のコマンドを備えたMS-DOS版がリリースされました。 [ 6 ]その後、Linuxディストリビューション、WindowsMacOSなどのUnix系OS向けのStataのバージョンがリリースされてきました。[ 6 ] Stataファイルはすべてプラットフォームに依存しません。

Stata 1.0およびStata 1.1のコマンド
追加 ディレクター インファイル プロット スプール
ビープする入力クエリ要約する
による落とすラベル退行する表にする
捕獲消去するリスト名前を変更するテスト
確認する出口マクロ交換するタイプ
変換する拡大するマージ走る使用
相関する形式修正する保存
カウント生成するもっとセット
説明するヘルプ出力ファイル選別

Stataは1985年から2025年の間に19回のメジャーリリースを実施し、メジャーリリースの間にはコードとドキュメントの追加アップデートも行われました。[ 7 ]初期の頃は、Stataプログラムの追加セットが「キット」として販売されたり、サポートディスクとして配布されたりすることもありました。1999年のStata 6のリリース以降、updateWeb経由でユーザーに提供されるようになりました。[ 6 ]

Stataには37年の歴史の中で何百ものコマンドが追加されました。[ 12 ] [ 13 ]拡張性プラットフォームの独立性、活発なユーザーコミュニティなど、特定の開発は特に重要であることが証明されており、今日のユーザーエクスペリエンスを形作り続けています。[ 6 ]

拡張性

このprogramコマンドはStata 1.2で実装され、ユーザーは独自のコマンドを追加できるようになりました。[ 6 ] [ 14 ] Stata 2.1ではadoファイルが導入され、ユーザーが作成したプログラムを自動的にメモリにロードできるようになりました。ユーザーが作成したadoファイルの多くは、ボストンカレッジがホストする統計ソフトウェアコンポーネントアーカイブに提出されています。StataCorpは、sscコミュニティが貢献したプログラムをStata内に直接追加できるようにするコマンドを追加しました。[ 15 ] Stataの最近のエディションでは、ユーザーはコマンドを使用してPythonスクリプトを呼び出すことができるほか、Jupyter NotebookなどのPython IDEでStataコマンドをインポートすることもできます。[ 16 ] StataはRをネイティブでサポートしていませんが、StataでRスクリプトを使用するためのユーザーが作成した拡張機能があります。[ 17 ]

ユーザーコミュニティ

Stataの活発なユーザーコミュニティによって、多くの重要な開発が開始されました。[ 6 ]ユーザーが作成したコマンドを含むことが多いStata Technical Bulletinは1991年に導入され、年に6回発行されました。2001年にピアレビューされたStata Journalとして再開されました。これは、コミュニティ寄稿したコマンドの説明とStataを効果的に使用するためのヒントを含む四半期刊行物です。1994年には、コーディングと技術的な問題をユーザーが協力して解決するためのハブとしてリストサーブが開始され、2014年にウェブフォーラムになりました。1995年、Statacorpは毎年開催されるユーザーおよび開発者会議の開催を開始しました。米国で開催される年次StataカンファレンスのみがStataCorpによって主催されています。その他のユーザーグループ会議は、米国(Stataカンファレンス)、英国、ドイツ、イタリアで毎年開催されており、その他のいくつかの国でも頻度は低いですが開催されています。各国のStata販売代理店が、自国でユーザーグループ会議を主催しています。

表: Stataのリリースと開発
バージョン 発売日 新機能または強化された機能を選択する
1.01985年1月
  • 初回リリース
  • 44の命令
1.11985年2月
  • バグ修正
1.21985年5月
  • 新しいメニューシステム
  • より優れたオンラインヘルプ
  • keep
1.31985年8月
  • Stata/グラフィックス
  • program
1.41986年8月
  • 新しいドキュメント
  • フォーマット済みinfile
1.51987年2月
  • anova
  • logitprobit
2.01988年6月
  • 新しいグラフィック
  • 文字列変数
  • 生存分析:コックス法とカプランマイヤー法
  • ステップワイズ回帰
2.11990年9月
  • バイト変数
  • 因子分析
  • adoファイル
  • reshape
3.01992年3月
  • logistic、、、、、ologitoprobitclogitmlogit
  • tobit、、、、、、cnregrregqregweibullereg
  • epitab
  • pweights
3.11993年8月
  • mvreg、、、、、、suregheckmannlregaregcanon
  • nbreg
  • 制約付き線形回帰
  • ml
  • codebook
4.01995年1月
  • xtreg
  • glm
5.01996年10月
  • xtgeextprobit
  • prais、、neweyintreg
  • 調査推定コマンド
  • fracpoly
  • st延長
6.01999年1月
  • ウェブ対応
  • 新しいml
  • 時系列演算子
  • arimaarch
  • st書き直し
7.02000年12月
  • frailty
  • xtabond
  • クラスター分析
  • nlogit
  • roc
  • SMCL
8.02003年1月
  • グラフィック
  • 拡張GUI、すべてのコマンドでダイアログボックスが利用可能
  • manova
  • さらに調査
  • より多くの時系列 (VAR、SVAR)
  • GLLAMMのさらなる内在化
8.12003年7月
  • 更新ml
8.22003年10月
  • グラフィックの変更
9.02005年4月
  • mata行列プログラミング言語
  • 調査機能
  • 線形混合モデル
  • 多項プロビットモデル
9.12005年9月
9.22006年4月
10.02007年6月
  • グラフエディター
  • 複雑にネストされた誤差要素を持つロジスティックモデルとポアソンモデル
10.12008年8月
11.02009年7月
  • 因子変数
  • margins事後推定コマンド
  • 多重代入法
11.12010年6月
11.22011年3月
12.02011年7月
  • 自動メモリ管理
  • 構造方程式モデリング
12.12012年1月
13.02013年6月
  • 長い文字列
  • 治療効果
13.12013年10月
14.02015年4月
  • ユニコードサポート
  • ベイズ統計分析
14.12015年10月
14.22016年9月
15.02017年6月
  • 潜在クラス分析
  • PDFおよびWord文書
  • グラフの色の透明度または不透明度
15.12017年11月
16.02019年6月
  • フレーム(メモリ内の複数のデータセット)
  • ラッソ回帰
  • 自動レポート
  • 更新された選択モデル
16.12020年2月
17.02021年4月
  • 更新されたtablesコマンド
  • ベイズ計量経済学
18.0 2023年4月
  • ベイズモデルの平均化
  • 因果関係の媒介分析
  • 異質な差異の差異

ソフトウェア製品

Stataには、Stata/MP、Stata/SE、Stata/BE、Numerics by Stataの4つのビルドがあります。[ 18 ] Stata/MPでは特定のコマンドの並列処理が組み込まれていますが、Stata/SEとStata/BEはボトルネックがあり、1つのコアのみの使用に制限されています。[ 19 ] Stata/MPは、SEまたはBEバージョンと比較して、4つのCPUコアで並列処理を実行する場合、特定のコマンドを約2.4倍高速に実行し、理論上の最大効率の約60%を実現します。[ 19 ] Numerics by Stataでは、StataコマンドのWeb統合が可能です。

SE版とBE版では、データセットが利用できるメモリ量が異なります。Stata/MPは100億から200億の観測値と最大12万個の変数を保存できますが、Stata/SEとStata/BEはそれぞれ最大21億4000万の観測値と3万2767個の変数、2048個の変数を処理できます。モデル内の独立変数の最大数は、Stata/MPで6万5532個、Stata/SEで1万998個、Stata/BEで798個です。[ 18 ]

Stataの価格とライセンスは、ビジネス、政府機関/非営利団体、教育機関、学生など、その用途によって異なります。シングルユーザーライセンスは、年間更新または永久更新が可能です。その他のライセンスタイプには、同時使用ユーザー向けのシングルライセンス、サイトライセンス、一括購入価格のシングルユーザーライセンス、学生ラボ向けライセンスなどがあります。[ 20 ]

サンプルコード

以下のコマンドセットは単純なデータ管理を中心に展開されます。[ 21 ]

sysuse auto // 含まれている自動データセットを開くbrowse // データセットを参照する(データエディタウィンドウを開く)describe // データセットと関連する変数を説明します。summary // 数値変数に関する要約情報codebook make foreign // make(文字列)とforeign(数値)変数に関する概要情報browse if missing (rep78) // 変数 rep78 の欠損データを持つ観測値のみを参照list make if missing (rep78) // 変数 rep78 の欠損データを持つ車のメーカーをリストする

次のコマンド セットは記述統計に移ります。

summary price, detail // 変数価格の詳細な要約統計tabulate foreign // 変数 foreign の一元配置頻度表tabulate rep78 foreign, row // 変数 rep78 と foreign の二元配置頻度表summarize mpg if foreign == 1 // 車が外国車の場合の mpg に関する概要情報 (「==」記号は等価性をテストします) by foreign, sort : summarize mpg // 上記と同じですが、「by」プレフィックスを使用します。tabulate foreign, summarize (mpg) // 上記と同じですが、tabulate コマンドを使用します。

簡単な仮説検定:

ttest mpg, by (foreign) // 国産車と外国車の平均の差のt検定

データのグラフ化:

twoway (scatter mpg weight) // mpg と重量の関係を示す散布図twoway (scatter mpg weight), by (foreign, total ) // 国産車、外国車、全車の 3 つのグラフ

線形回帰:

generate wtsq = weight ^ 2 // 重量の2乗の新しい変数を作成します。regress mpg weight wtsq foreign, vce (robust) // mpgの重量、wtsq、foreignに対する線形回帰。predict mpghat // mpgの予測値を含む新しい変数を作成します。twoway (scatter mpg weight) (line mpghat weight, sort ), by (foreign) // データと近似直線をグラフ化します。
Stata 17の自動データセットからの回帰グラフ

参照

参考文献

  1. ^ a bニュートン、H. ジョセフ (2005). 「ウィリアム・グールドとの会話」 .スタタジャーナル. 5 (1): 19– 31. doi : 10.1177/1536867X0500500103 . S2CID  118322998 .
  2. ^ Cox, Nicholas J. 「Statalist FAQ」 . Statalist: The Stata Forum . 2021年4月24日閲覧
  3. ^ 「STATAデータ操作:基礎と応用7」(PDF) . Iuj.ac.jp. 2022年1月27日閲覧
  4. ^スアレス、エリック;ペレス、シンシア。ノゲラス、グラシエラ。モレノ=ゴリン、カミーユ (2016)。統計を使用した公衆衛生における生物統計
  5. ^ 「Disciplines」 . Stata: 統計とデータサイエンスのためのソフトウェア. 2021年4月21日閲覧
  6. ^ a b c d e f g h i Cox, Nicholas J. (2005). 「Stata 20周年記念の簡潔な歴史」 . The Stata Journal . 5 (1): 2– 18. doi : 10.1177/1536867X0500500102 . S2CID 118366843 . 
  7. ^ a b Gould, William W.; Cox, Nicholas J. 「Stataが最初にリリースされたのはいつですか?その後のバージョンはいつリリースされましたか?」 Stata :統計とデータサイエンスのためのソフトウェア。 2021年4月22日閲覧
  8. ^ 「Stataの新機能」 Stata :統計とデータサイエンスのためのソフトウェアStataCorp 2025年4月8日閲覧
  9. ^ 「データフレーム:メモリ内の複数のデータセット」Stata.com . 2020年8月13日閲覧
  10. ^ Stata 18 Baseリファレンスマニュアル. テキサス州カレッジステーション: Stata Press. 2023.
  11. ^ 「Stata 16の保存ヘルプStata.com
  12. ^ Stata用語集と索引:リリース17(PDF) . テキサス州カレッジステーション:Stata Press. pp.  1– 50. ISBN 1-59718-283-4
  13. ^ 「Stataの機能」 . Stata: 統計とデータサイエンスのためのソフトウェア. StataCorp . 2021年4月24日閲覧
  14. ^ 「プログラム - プログラムの定義と操作」(PDF) . Stata:統計とデータサイエンスのためのソフトウェア. Stata Press . 2021年4月24日閲覧
  15. ^ 「ssc - SSCのパッケージのインストールとアンインストール」(PDF) . Stata: 統計とデータサイエンスのためのソフトウェア. Stata Press . 2021年4月24日閲覧
  16. ^ 「Python と Stata を一緒に使用する | Stata」
  17. ^ 「StataからRへのワークフローの切り替え方法、1ビットずつ · Frederick Solt」 . Fsolt.org . 2022年1月27日閲覧
  18. ^ a b「どのStataが私にぴったりか?」 Stata :統計とデータサイエンスのためのソフトウェア。 2021年4月23日閲覧
  19. ^ a b「Parallel Stata」ハーバード・ビジネス・スクール。
  20. ^ 「Stataソフトウェアを注文する」 Stata :統計とデータサイエンスのためのソフトウェアStataCorp 2021年4月25日閲覧
  21. ^ Stata for Windows 入門(PDF) (リリース 17 版). テキサス州カレッジステーション: Stata Press. pp.  1– 19. ISBN 1-59718-334-2. 2021年4月25日閲覧

さらに読む