
天体情報科学は、天文学、データサイエンス、機械学習、情報科学、情報通信技術を組み合わせた学際的な研究分野です。[ 2 ] [ 3 ]この分野は天体統計学と密接に関連しています。
データ駆動型天文学(DDA )とは、天文学におけるデータサイエンスの活用を指します。望遠鏡による観測や天体観測から得られる様々な出力を考慮し、データマイニングやビッグデータ管理に関連するアプローチを用いてデータセットを分析、フィルタリング、正規化し、さらに高度な統計的手法、デジタル画像処理、機械学習を用いて分類、予測、異常検出を行います。これらのプロセスの出力は、天文学者や宇宙科学者が宇宙空間におけるパターン、異常、動きを研究・特定し、宇宙における理論や発見を導き出すために用いられます。
背景
天体情報科学は、主にデータ指向天文学の研究と教育のための計算科学、データサイエンス、機械学習、統計のツール、方法、アプリケーションの開発に焦点を当てています。 [ 2 ]この方向への初期の取り組みには、天文仮想天文台イニシアチブにおけるデータ検出、メタデータ標準の開発、データモデリング、天文データ辞書の開発、データアクセス、情報検索、[ 4 ] データ統合、データマイニング [ 5 ] が含まれていました。[ 6 ] [ 7 ] [ 8 ]この分野のさらなる発展は、天文学コミュニティの支持とともに、2010年の天文学と天体物理学の10年調査の天体情報科学の「専門職の現状」ポジションペーパーで2009年に米国国立研究会議に提出されました。[ 9 ]このポジションペーパーは、その後のインフォマティクスジャーナルの論文「アストロインフォマティクス:データ指向の天文学の研究と教育」でこの分野のより詳細な説明を行うための基礎となった。[ 2 ]
天体情報科学は、地理情報科学、化学情報科学、生命情報科学の分野、そしてマイクロソフト研究所のジム・グレイ(コンピューター科学者)のeサイエンス研究[ 10 ]から着想を得た独自の研究分野です。その功績はジム・グレイeサイエンス賞[ 11 ]を通じて記憶され、継承されています。
アストロインフォマティクスの主な焦点は、世界中に分散した大規模なデジタル天文データベース、画像アーカイブ、研究ツールのコレクションですが、この分野ではレガシーデータセットの重要性も認識されており、最新の技術を用いて過去の天文観測を保存・分析しています。アストロインフォマティクスの専門家の中には、過去および最近の天文観測と画像を大規模なデータベースにデジタル化し、 Webベースのインターフェースを通じて効率的に検索できるように支援する人もいます。 [ 3 ] [ 12 ]もう一つの目的は、天文学者のための新しい手法とソフトウェアの開発を支援すること、そして天文学分野における急速に増加するデータの処理と分析を促進することです。[ 13 ]
天体情報学は天文学研究の「第4のパラダイム」と呼ばれています。[ 14 ]天体情報学には、データマイニング、機械学習、統計、可視化、科学データ管理、セマンティックサイエンスなど、多くの研究分野があります。[ 7 ]データマイニングと機械学習は、「データからの知識発見」(KDD)と「データからの学習」に重点を置いているため、科学研究分野としての天体情報学において重要な役割を果たしています。[ 15 ] [ 16 ]
天文スカイサーベイから収集されるデータの量は、過去 10 年間でギガバイトからテラバイトへと増加しており、次の 10 年間には、大型シノプティックサーベイ望遠鏡で数百ペタバイト、平方キロメートルアレイでエクサバイトへと増加すると予測されています。[ 17 ]この大量の新しいデータは、効果的な天文学研究を可能にすると同時に課題ももたらしています。したがって、新しいアプローチが必要です。このこともあって、データ駆動型科学は認められた学問分野になりつつあります。その結果、天文学 (および他の科学分野) では情報集約型およびデータ集約型の下位分野が開発されており、これらの下位分野は現在 (またはすでに) 独立した研究分野および本格的な学術プログラムになりつつあります。多くの教育機関が天体情報科学プログラムを誇っていませんが、そのようなプログラムが近い将来に開発される可能性は非常に高いです。
情報科学は近年、「研究と知識創出のためのデジタルデータ、情報、および関連サービスの利用」と定義されています。しかしながら、通常、あるいは一般的に用いられている定義は、「情報科学とは、発見と意思決定支援のために、複数の情報源からのデータを整理、アクセス、統合、およびマイニングする学問分野である」というものです。したがって、天体情報科学の分野には、データモデリング、データ編成など、自然に関連する多くの専門分野が含まれます。また、データ統合と情報可視化のための変換・正規化手法、知識抽出、索引付け技術、情報検索、データマイニング手法なども含まれる場合があります。分類体系(例えば、タクソノミー、オントロジー、フォークソノミー、および/または共同タグ付け[ 18 ])と天体統計学も深く関わってきます。市民科学プロジェクト( Galaxy Zooなど)も、大規模な天文学データセットにおける価値の高い新規発見、特徴メタタグ付け、天体特性評価に貢献しています。これらすべての専門分野により、研究環境と学習環境の両方において、さまざまな大規模データ収集、共同研究、データの再利用を通じて科学的発見が可能になります。
2007年、多数の銀河の形態分類[ 20 ] [ 21 ]を目的としたGalaxy Zooプロジェクト[ 19 ]が開始されました。このプロジェクトでは、過去7年間のスローンデジタルスカイサーベイ(SDSS)[ 22 ]から取得された90万枚の画像が分類の対象となりました。課題は、銀河の各画像を調査し、楕円銀河か渦巻き銀河かに分類し、回転しているかどうかを判断することでした。オックスフォード大学のケビン・シャウィンスキー率いる天体物理学者チームがこのプロジェクトを担当し、ケビン氏と同僚のクリス・リンロット氏は、そのようなチームでは作業を完了するのに3~5年かかると算出しました[ 23 ] 。そこで彼らは、画像を分析し分類するために機械学習とデータサイエンスの手法を使用するというアイデアを思いつきました[ 24 ] 。
2012年には、アメリカ天文学会評議会に2つの立場表明[ 25 ] [ 26 ]が提出され、米国およびその他の国々の天文学専門家のための天体情報学と天体統計学の正式なワーキンググループが設立されました。[ 27 ]
アストロインフォマティクスは、教育と研究の統合のための自然な文脈を提供します。[ 28 ]研究の経験を教室内で実装することで、データの容易な再利用を通じてデータリテラシーを確立し、成長させることができます。 [ 29 ]また、アーカイブデータを新しいプロジェクトに再利用したり、文献とデータをリンクしたり、情報をインテリジェントに検索したりするなど、他の多くの用途もあります。[ 30 ]
方法論
スカイサーベイから取得されたデータは、まずデータ前処理にかけられます。この処理では、冗長性が除去され、フィルタリングされます。さらに、フィルタリングされたデータセットに対して特徴抽出が行われ、さらに処理に使用されます。[ 31 ]著名なスカイサーベイのいくつかを以下に示します
- パロマーデジタルスカイサーベイ(DPOSS)[ 32 ]
- 2ミクロン全天サーベイ(2MASS)[ 33 ]
- グリーンバンク望遠鏡(GBT)[ 34 ]
- 銀河進化探査機(GALEX)[ 35 ]
- スローンデジタルスカイサーベイ(SDSS)[ 22 ]
- スカイマッパー南天サーベイ(SMSS)[ 36 ]
- パノラマサーベイ望遠鏡および迅速対応システム(PanSTARRS)[ 37 ]
- 大型シノプティックサーベイ望遠鏡(LSST)[ 38 ]
- 平方キロメートル配列 (SKA) [ 39 ]
前述の天文観測から得られるデータのサイズは、3TBから 4.6EB近くまで 及ぶ。[ 31 ]さらに、データの管理と操作に関わるデータマイニングタスクには、分類、回帰、クラスタリング、異常検出、時系列分析といった手法が用いられる。これらの手法それぞれについて、複数のアプローチと応用がタスクの達成に関わっている。
分類
分類[ 40 ]は、スペクトル分類、測光分類、形態分類、太陽活動分類など、天文データの特定の識別と分類に使用されます。分類手法のアプローチは以下のとおりです。
- 人工ニューラルネットワーク(ANN)
- サポートベクターマシン(SVM)
- 学習ベクトル量子化(LVQ)
- 決定木
- ランダムフォレスト
- k近傍法
- ナイーブベイジアンネットワーク
- ラジアル基底関数ネットワーク
- ガウス過程
- 決定表
- 交代決定木(ADTree)
回帰分析
回帰[ 41 ]は、統計的傾向と統計的モデリングを通じて取得したデータに基づいて予測を行うために使用されます。この手法は、光度赤方偏移や恒星の物理的パラメータの測定値を取得するために様々な用途で使用されています。 [ 42 ]以下に、それらのアプローチを挙げます。
クラスタリング
クラスタリング[ 43 ]は、類似度測定基準に基づいて物体を分類することです。天文学では、分類や特殊/希少物体の検出に使用されます。以下にそのアプローチを挙げます
- 主成分分析(PCA)
- DBSCAN
- k平均法クラスタリング
- 光学
- クモの巣モデル
- 自己組織化マップ(SOM)
- 期待最大化
- 階層的クラスタリング
- AutoClass [ 44 ]
- ガウス混合モデリング(GMM)
異常検知
異常検出[ 45 ]はデータセット内の不規則性を検出するために使用されます。ただし、ここではこの技術は希少/特殊なオブジェクトを検出するために使用されます。以下のアプローチが使用されます
時系列分析
時系列分析[ 46 ]は、傾向の分析と時間の経過に伴う出力の予測に役立ちます。傾向予測と新規検出(未知のデータの検出)に使用されます。ここで使用されるアプローチは次のとおりです
- 人工ニューラルネットワーク(ANN)
- サポートベクター回帰(SVR)
- 決定木
会議
| 年 | 場所 | リンク |
|---|---|---|
| 2021 | カリフォルニア工科大学 | [1] |
| 2020 | ハーバード大学 | [2] |
| 2019 | カリフォルニア工科大学 | [3] |
| 2018 | ドイツ、ハイデルベルク | [4] |
| 2017 | 南アフリカ、ケープタウン | [5] |
| 2016 | イタリア、ソレント | [6] |
| 2015 | ドゥブロヴニク、ダルマチア | [7] |
| 2014 | チリ大学 | [8] |
| 2013 | オーストラリア国立望遠鏡施設、CSIRO | [9] |
| 2012 | マイクロソフトリサーチ | [10] 2018年10月22日、 Wayback Machineにアーカイブ |
| 2011 | イタリア、ソレント | [11] |
| 2010 | カリフォルニア工科大学 | [12] 2018年10月22日、 Wayback Machineにアーカイブ |
追加の会議と会議リスト:
| アイテム | リンク |
|---|---|
| 天文学における機械学習:可能性と落とし穴(2022年) | [13] |
| 天体統計・天体情報学ポータル(ASAIP)の会議一覧 | [14] |
| 天文データ解析ソフトウェアおよびシステム(ADASS)年次会議 | [15] |
参照
- 天文学とコンピューティング
- 天体物理学データシステム
- 天体物理学ソースコードライブラリ
- 天体統計学
- 科学技術データ委員会
- データ駆動型天文学
- 銀河動物園
- 国際天体統計協会
- 国際仮想天文台連合(IVOA)
- ミルキーウェイ@ホーム
- 仮想観測所
- ワールドワイド望遠鏡
- ズーニーバース
参考文献
- ^ 「最大の銀河原始超銀河団を発見 - ESOの超大型望遠鏡を用いた天文学者、初期宇宙に潜む巨大宇宙を発見」 www.eso.org 2018年10月18日閲覧
- ^ a b c Borne, Kirk D. (2010年5月12日). 「アストロインフォマティクス:データ指向の天文学研究と教育」.地球科学インフォマティクス. 3 ( 1–2 ): 5–17 . doi : 10.1007/s12145-010-0055-2 . S2CID 207393013 .
- ^ a b天文情報学と天文遺産のデジタル化(Wayback Machineで2017年12月26日にアーカイブ) , Nikolay Kirov. 第5回SEEDI国際会議「文化遺産と科学遺産のデジタル化」、2010年5月19~20日、サラエボ。2012年11月1日閲覧。
- ^ Borne, Kirk (2000). 「仮想天文台設計リファレンスミッションのための科学ユーザーシナリオ:データマイニングのための科学要件」. arXiv : astro-ph/0008307 .
- ^ Borne, Kirk (2008). 「天文学における科学的データマイニング」. Kargupta, Hillol他編.次世代データマイニング. ロンドン: CRC Press. pp. 91– 114. ISBN 9781420085860。
- ^ Borne, Kirk D (2003). 「国立仮想観測所における分散データマイニング」. Dasarathy, Belur V (編).データマイニングと知識発見:理論、ツール、テクノロジー V.第5098巻. pp. 211– 218. doi : 10.1117/12.487536 . S2CID 28195520
- ^ a bボーン、カーク (2013). 「仮想天文台、データマイニング、そして天体情報科学」.惑星、恒星、恒星系. pp. 403– 443. doi : 10.1007/978-94-007-5618-2_9 . ISBN 978-94-007-5617-5。
- ^ Laurino, O.; D'Abrusco, R.; Longo, G.; Riccio, G. (2011年12月21日). 「銀河とクエーサーのアストロインフォマティクス:測光赤方偏移推定のための新しい一般的な手法」 Monthly Notices of the Royal Astronomical Society . 418 (4): 2165–2195 . arXiv : 1107.3160 . Bibcode : 2011MNRAS.418.2165L . doi : 10.1111/j.1365-2966.2011.19416.x . S2CID 7115554
- ^ Borne, Kirk (2009). 「アストロインフォマティクス:21世紀の天文学へのアプローチ」. Astro2010:天文学と天体物理学の10年サーベイ. 2010 : P6. arXiv : 0909.3892 . Bibcode : 2009astro2010P...6B .
- ^ 「オンラインサイエンス」 .ジム・グレイによる講演. Microsoft Research . 2015年1月11日閲覧。
- ^ 「ジム・グレイeサイエンス賞」。マイクロソフトリサーチ。
- ^ Astroinformatics in Canada、Nicholas M. Ball、David Schade。2012年11月1日閲覧。
- ^ 「『アストロインフォマティクス』が天文学者の空の探査を支援」 Phys.org .ハイデルベルク大学. 2015年1月11日閲覧
- ^ Hey, Tony (2009年10月). 「第4のパラダイム:データ集約型科学的発見」 . Microsoft Research .
- ^ Ball, NM; Brunner, RJ (2010). 「天文学におけるデータマイニングと機械学習」. International Journal of Modern Physics D. 19 ( 7): 1049– 1106. arXiv : 0906.2173 . Bibcode : 2010IJMPD..19.1049B . doi : 10.1142/S0218271810017160 . S2CID 119277652 .
- ^ Borne, K; Becla, J; Davidson, I; Szalay, A; Tyson, J. A; Bailer-Jones, Coryn AL (2008). 「LSSTデータマイニング研究課題」. AIP Conference Proceedings . pp. 347– 351. arXiv : 0811.0167 . doi : 10.1063/1.3059074 . S2CID 118399971 .
- ^ Ivezić, Ž; Axelrod, T; Becker, A. C; Becla, J; Borne, K; Burke, D. L; Claver, C. F; Cook, K. H; Connolly, A; Gilmore, D. K; Jones, R. L; Jurić, M; Kahn, S. M; Lim, K.-T; Lupton, R. H; Monet, D. G; Pinto, P. A; Sesar, B; Stubbs, C. W; Tyson, J. A; Bailer-Jones, Coryn AL (2008). 「200億個のLSST天体のパラメータ化と分類:SDSSからの教訓」AIP会議論文集. 第1082巻. pp. 359– 365. arXiv : 0810.5155 .土井: 10.1063/1.3059076。S2CID 117914490。
{{cite book}}:|journal=無視されました (ヘルプ) - ^ Borne, Kirk. 「科学的データの発見と再利用のための共同アノテーション」 Bulletin of the ASIS&T . アメリカ情報科学技術協会. 2016年3月5日時点のオリジナルよりアーカイブ。 2016年1月11日閲覧。
- ^ 「Zooniverse」 . www.zooniverse.org . 2024年5月10日閲覧。
- ^ Cavanagh, Mitchell K.; Bekki, Kenji; Groves, Brent A. (2021-07-08). 「ディープラーニングによる銀河の形態学的分類:3方向CNNと4方向CNNの比較」 . Monthly Notices of the Royal Astronomical Society . 506 (1): 659– 676. arXiv : 2106.01571 . doi : 10.1093/mnras/stab1552 . ISSN 0035-8711 .
- ^ Goyal, Lalit Mohan; Arora, Maanak; Pandey, Tushar; Mittal, Mamta (2020-12-01). 「Conv-netsを用いた銀河の形態学的分類」 .地球科学インフォマティクス. 13 (4): 1427– 1436. doi : 10.1007/s12145-020-00526-w . ISSN 1865-0481 .
- ^ a b「スローン・デジタル・スカイ・サーベイV:先駆的なパノプティック分光法 - SDSS-V」 。 2024年5月10日閲覧。
- ^ Pati, Satavisa (2021-06-18). 「天文学におけるデータサイエンスの活用方法」 . Analytics Insight . 2024年5月10日閲覧。
- ^ Baron, Dalya (2019-04-15) 「天文学における機械学習:実践的概要」arXiv : 1904.07248
- ^ボーン、カーク. 「Astroinformatics in a Nutshell」 . asaip.psu.edu . ペンシルベニア州立大学の天体統計学・天体情報学ポータル. 2016年1月11日閲覧。
- ^フェイゲルソン、エリック. 「Astrostatistics in a Nutshell」 . asaip.psu.edu . ペンシルベニア州立大学の天体統計・天体情報学ポータル. 2016年1月11日閲覧。
- ^ Feigelson, E.; Ivezić, Ž.; Hilbe, J.; Borne, K. (2013). 「天体情報科学と天体統計学を支援する新たな組織」.天文データ解析ソフトウェアおよびシステム Xxii . 475 : 15. arXiv : 1301.3069 . Bibcode : 2013ASPC..475...15F .
- ^ Borne, Kirk (2009). 「天文学教育における革命:大衆のためのデータサイエンス」. Astro2010: 天文学と天体物理学の10年サーベイ. 2010 : P7. arXiv : 0909.3895 . Bibcode : 2009astro2010P...7B .
- ^ 「教室でのデータ活用」カールトン大学科学教育リソースセンター、国立科学デジタル図書館。 2016年1月11日閲覧。
- ^ Borne, Kirk. Astroinformatics: Data-Oriented Astronomy (PDF) . George Mason University, USA . 2015年1月21日閲覧。
- ^ a b Zhang, Yanxia; Zhao, Yongheng (2015-05-22). 「ビッグデータ時代の天文学」 . Data Science Journal . 14 : 11. Bibcode : 2015DatSJ..14...11Z . doi : 10.5334/dsj-2015-011 . ISSN 1683-1470 .
- ^ 「パロマーデジタルスカイサーベイ(DPOSS)」 . sites.astro.caltech.edu . 2024年5月10日閲覧。
- ^ 「IRSA - Two Micron All Sky Survey (2MASS)」irsa.ipac.caltech.edu . 2024年5月10日閲覧。
- ^ "GBT" . Green Bank Observatory . 2023年6月26日. 2024年5月10日閲覧。
- ^ 「GALEX - 銀河進化探査機」www.galex.caltech.edu . 2024年5月10日閲覧。
- ^ 「SkyMapper Southern Sky Survey」 . skymapper.anu.edu.au . 2024年5月10日閲覧。
- ^ 「Pan-STARRS1データアーカイブホームページ - PS1パブリックアーカイブ - STScI Outerspace」 . outerspace.stsci.edu . 2024年5月10日閲覧。
- ^望遠鏡、大規模シノプティックサーベイ。「ルビン天文台」。ルビン天文台。 2024年5月10日閲覧。
- ^ "Explore | SKAO" . www.skao.int . 2024年5月10日閲覧。
- ^ Chowdhury, Shovan; Schoen, Marco P. (2020-10-02). 「教師あり機械学習技術を用いた研究論文分類」. 2020 Intermountain Engineering, Technology and Computing (IETC) . IEEE. pp. 1– 6. doi : 10.1109/IETC47856.2020.9249211 . ISBN 978-1-7281-4291-3。
- ^ Sarstedt, Marko; Mooi, Erik (2014)、Sarstedt, Marko; Mooi, Erik (編)、「回帰分析」、市場調査の簡潔なガイド:IBM SPSS Statisticsを使用したプロセス、データ、および手法、ベルリン、ハイデルベルク:Springer、pp. 193– 233、doi : 10.1007/978-3-642-53965-7_7、ISBN 978-3-642-53965-7、 2024年5月10閲覧
{{citation}}: CS1 maint: ISBNによる作業パラメータ(リンク) - ^ "Bulletin de la Société Royale des Sciences de Liège | PoPuPS" . Bulletin de la Société Royale des Sciences de Liège (フランス語). ISSN 0037-9565
- ^ Bindra, Kamalpreet; Mishra, Anuranjan (2017年9月). 「クラスタリングアルゴリズムの詳細な研究」. 2017年 第6回信頼性、情報通信技術、最適化に関する国際会議(動向と将来動向) (ICRITO) . IEEE. pp. 371– 376. doi : 10.1109/ICRITO.2017.8342454 . ISBN 978-1-5090-3012-5。
- ^ Pizzuti, C.; Talia, D. (2003年5月). 「P-autoclass: 大規模データセットのマイニングのためのスケーラブルな並列クラスタリング」. IEEE Transactions on Knowledge and Data Engineering . 15 (3): 629– 641. Bibcode : 2003IDSO...15..629P . doi : 10.1109/TKDE.2003.1198395 . ISSN 1041-4347 .
- ^ Thudumu, Srikanth; Branch, Philip; Jin, Jiong; Singh, Jugdutt (Jack) (2020-07-02). 「高次元ビッグデータにおける異常検知技術の包括的調査」 . Journal of Big Data . 7 (1): 42. doi : 10.1186/s40537-020-00320-x . hdl : 10536/DRO/DU:30158643 . ISSN 2196-1115 .
- ^ Weiner, Irving B.編 (2003-04-15).心理学ハンドブック(第1版). Wiley. doi : 10.1002/0471264385.wei0223 . ISBN 978-0-471-17669-5。