エンロンコーパス

エンロンコーパスは、2001年12月の同社破綻までの数年間にエンロン社の従業員158名[ 1 ]が書いた60万通以上のメールを収録したデータベースです。このコーパスは、連邦エネルギー規制委員会(FERC) がその後の調査でエンロン社のメールサーバーから生成したものです。[ 2 ]このメールデータベースのコピーはその後、マサチューセッツ大学アマースト校のコンピューター科学者アンドリュー・マッカラム氏が1万ドルで購入しました。[ 3 ]マッカラム氏はこのコピーを研究者に公開し、ソーシャルネットワーキングコンピューターを介したコミュニケーションの研究に活用される膨大なデータを提供しました。

創造

エンロン社の破綻に関する法的調査では、証拠開示手続きにおいて膨大な量のデータの収集と保存が必要となり、連邦エネルギー規制委員会(FERC)はアスペン・システムズ(現ロッキード・マーティン傘下)を雇用した。電子メールは2002年5月、ヒューストンにあるエンロン本社で2週間にわたり、アスペンの訴訟支援およびデータ分析業務を請け負うジョー・バートリング氏[ 4 ]によって収集された。エンロン従業員の電子メールに加え、[ 5 ]サン・マイクロシステムズのサーバー上のオラクル・データベースにホストされていたエンロンの企業データベースシステム全体が収集・保存された。これにはオンライン電力取引プラットフォームであるEnronOnlineも含まれていた。

収集されたエンロンの電子メールは、連邦金融規制委員会(FERC)、商品先物取引委員会( CFTC) 、司法省の捜査官による調査のため、独自の電子情報開示プラットフォーム(最初はConcordance、次にiCONECT)で処理およびホストされました。調査が終了し、FERCのスタッフレポートが発行された時点で、[ 6 ]収集された電子メールと情報はパブリックドメインとみなされ、歴史研究および学術目的での使用が可能になりました。電子メールアーカイブはiCONECTを使用して24時間365日ウェブで検索可能でしたが、160GBを超える膨大な量の電子メールは使用するのが現実的ではありませんでした。収集された電子メールとデータベースのコピーはハードドライブで利用できるようにされました。

南カリフォルニア大学のJitesh ShettyとJafar Adibiは2004年にデータを処理し、MySQLバージョンをリリースしました。[ 7 ] 2010年にEDRM.netはコーパスの改訂および拡張バージョン2を公開しました。[ 8 ]これには170万を超えるメッセージが含まれており、研究者が簡単にアクセスできるようにAmazon S3で公開されています。

搾取

エンロンコーパスの電子メールネットワークの視覚化。色分けは8つのコミュニティを表しています。

このコーパスは、研究に容易に利用できる数少ない公開されている実際の電子メールの大量コレクションの1つとして評価されています。このようなコレクションは通常、秘密保持契約データサニタイズなど、多くのプライバシーおよび法的制約に縛られており、アクセスが非常に困難です。[ 3 ] ShettyとAdibiは、MySQLバージョンに基づいて、どのユーザーアカウントがどのメールを送信したかに関するリンク分析を発表しました。 [ 9 ]より最近の電子メールコーパスとの言語的比較により、英語の電子メールレジスターの変化が示されています。また、自然言語処理機械学習の研究のためのテストデータまたはトレーニングデータとしても使用されています。[ 10 ] Pileデータセットはこれを使用しています。

参考文献

  1. ^クリムト、ブライアン、イミン・ヤン(2004年)「エンロン・コーパス:電子メール分類研究のための新たなデータセット」pp.  217– 226. CiteSeerX  10.1.1.61.1645 .
  2. ^ The Enron Email Corpus Archived 2011-03-08 at the Wayback Machine」 2011年3月5日閲覧。
  3. ^ a bジョン・マークオフ「高額弁護士軍団、より安価なソフトウェアに置き換えられるニューヨーク・タイムズ、2011年3月5日、p A1。
  4. ^バートリング、ジョー(2015年9月3日)「エンロンのデータセット - それはどこから来たのか?」バートリング・フォレンジック・アンド・アドバイザリー2016年4月15日時点のオリジナルよりアーカイブ。 2015年9月3日閲覧
  5. ^ 「FERC:Industries - Enron's Energy Trading Business Process and Databases」www.ferc.gov2020年1月5日時点のオリジナルよりアーカイブ。 2015年9月2日閲覧
  6. ^ FERCスタッフレポート - 欧米市場における価格操作 - 概要アーカイブ2006年2月21日ウェイバックマシン(2003年3月26日)
  7. ^エンロン処理データベース
  8. ^ Socha, George. 「EDRM Enron Email Data Set v2が利用可能に」 EDRM.net. 2011年9月4日時点のオリジナルよりアーカイブ。 2012年9月3日閲覧
  9. ^ Shetty, Jitesh; Adibi, Jafar (2005). 「グラフエントロピーによる重要なノードの発見:エンロン社の電子メールデータベースの事例」第3回国際リンク発見ワークショップ「LinkKDD '05」の議事録. pp.  74– 81. doi : 10.1145/1134271.1134282 . ISBN 978-1595932150. S2CID  10122735 .
  10. ^フリジナル、エリック、ハーディ、ジャック (2013). 『コーパスに基づく社会言語学:学生のためのガイド』ラウトレッジ、p. 167. ISBN 978-1-136-29277-4. 2020年5月29日閲覧