タグクラウド

メーリングリストのタグクラウド[ 1 ]
Web 2.0に関連する用語のタグクラウド

タグクラウド(ビジュアルデザインではワードクラウド、あるいは重み付けリストとも呼ばれる)は、テキストデータの視覚的表現であり、ウェブサイト上のキーワードメタデータの表示や自由形式のテキストの視覚化によく使用されます。タグは通常1単語で構成され、各タグの重要度はフォントサイズや色で示されます。[ 2 ] [ 3 ]ウェブサイトのナビゲーション補助として使用する場合、タグは関連する項目へのハイパーリンクとして設定されます。

歴史

ハイジ・パリス:ジル・ドゥルーズとフェリックス・ガタリ著『千のプラトー』ドイツ語版の表紙初期稿(1991年11月14日)

視覚デザイン用語において、タグクラウド(またはワードクラウド)は「重み付けリスト」の一種であり、都市の相対的な規模を相対的な書体サイズで表すために地図上でよく用いられます。英語のキーワードの重み付けリストの初期の印刷例としては、ダグラス・クープランドの『マイクロサーフス』 (1995年)に掲載された「subconscious files」が挙げられます。ドイツ語版は1992年に登場しました。[ 4 ]

「タグ クラウド」という用語の特定の視覚形式と一般的な使用は、21 世紀の最初の 10 年間に、初期のWeb 2.0 Webサイトやブログの広範な機能として目立つようになり、主に Web サイトのコンテンツを説明するキーワード メタデータの頻度分布を視覚化するため、およびナビゲーション補助として使用されました。

著名なウェブサイトにおける最初のタグクラウドは、写真共有サイトFlickrでした。これは、Flickrの共同設立者でありインタラクションデザイナーでもあるスチュワート・バターフィールドによって2004年に作成されました。この実装は、ウェブサイトのリファラーを視覚化したジム・フラナガンのSearch Referral Zeitgeist [ 5 ]に基づいています。タグクラウドは、 Del.icio.usTechnoratiなどによっても同時期に普及しました。

タグクラウド方式の過剰使用と、ウェブナビゲーションツールとしての有用性に対する曖昧さが、これらの初期採用者の間でタグクラウドの利用率の低下につながりました。[ 6 ] Flickrは2006年の「ベストプラクティス」 Webby賞の受賞スピーチで、「タグクラウドについては申し訳ありません」と5語で述べました。 [ 7 ]

第二世代のソフトウェア開発では、テキストデータの基本的な視覚化手法として、タグクラウドのより多様な用途が発見されました。この文脈において、タグクラウドの拡張がいくつか提案されてきました。

種類

世界各国の人口を示すデータクラウド。Rのwordcloudパッケージを使用し、Country populationのデータを使用して作成しました中国インドの人口比率は半分に分割されています。

ソーシャルソフトウェアにおけるタグクラウドアプリケーションには、見た目ではなく意味によって区別される3つの主要なタイプがあります。1つ目のタイプは、各アイテムの使用頻度を示すタグです。2つ目のタイプは、すべてのアイテムとユーザーの使用頻度を集計したグローバルタグクラウドです。3つ目のタイプは、クラウドにカテゴリが含まれ、サイズはサブカテゴリの数を示します。

頻度

最初のタイプでは、サイズは単一のアイテムにタグが適用された回数を表します。[ 8 ]これは、民主的に「投票」されたアイテムに関するメタデータを表示する手段として、正確な結果が望ましくない場合に 役立ちます

2 番目は、より一般的に使用されるタイプで、サイズは、各タグの人気度を示すものとして、タグが適用されたアイテムの数を表します。

重要性

頻度の代わりに、サイズは、背景コーパス(例えば、Wikipediaの全テキストと比較)と比較した単語と単語の共起の重要性を表すために使用できます。 [ 9 ]このアプローチは単独では使用できませんが、文書の頻度を予想される分布と比較することに依存しています

分類

3つ目のタイプでは、タグはコンテンツアイテムの分類方法として使用されます。タグはクラウド内に表示され、大きなタグはそのカテゴリ内のコンテンツアイテムの数を表します

タグクラウドの代わりにタグクラスターを構築するアプローチはいくつかある。例えば、文書内のタグの共起を適用するなどである。[ 10 ]

より一般的には、同じ視覚的手法を使用して、タグ以外のデータを表示することもできます[ 11 ]。たとえば、ワードクラウドやデータクラウドなどです。

キーワードクラウドという用語は、検索エンジンマーケティング(SEM)用語として、特定のウェブサイトに関連するキーワードのグループを指すために使用されることがあります。近年、タグクラウドは、ウェブページの検索エンジン最適化の役割と、情報システム内のコンテンツを効率的にナビゲートするユーザーのサポートのために人気が高まっています。[ 12 ]ナビゲーションツールとしてのタグクラウドは、ウェブサイトのリソースをより密接に接続し、[ 13 ]検索エンジンスパイダーによってクロールされたときに、サイトの検索エンジンランクを向上させる可能性があります。ユーザーインターフェイスの観点からは、検索結果を要約して、ユーザーが特定の情報システム内のコンテンツをより迅速に見つけられるようにするためによく使用されます。[ 14 ]

視覚的な外観

タグクラウドは通常、インラインHTML要素を使用して表現されます。タグはアルファベット順、ランダム順、重み順などで表示できます。フォントサイズに加えて、フォントの色、輝度、太さなど、さらに視覚的なプロパティが操作されることもあります。[ 15 ]最も人気のあるのは、アルファベット順に並べられた長方形のタグ配置で、行ごとに順番にレイアウトされています。最適なレイアウトの決定は、予想されるユーザーの目標に基づいて行う必要があります。[ 15 ]類似のタグが互いに近くに表示されるように、タグを意味的にクラスタリングすることを好む人もいます[ 16 ] [ 17 ] [ 18 ]または、tSNEなどの埋め込み技術を使用して単語を配置します[ 9 ]エッジを追加して、タグの共起を強調し、相互作用を視覚化できます[ 9 ]目的がタグをクラスタリングすることであるかどうかにかかわらず、ヒューリスティックを使用してタグクラウドのサイズを縮小できます[ 17 ]

タグクラウドの視覚的な分類は、タグの順序付けルール(アルファベット順、重要度順、コンテキスト順、ランダム順、見た目の品質順など)、クラウド全体の形​​状(長方形、円、マップの境界線を指定した形状)、タグ境界の形状(長方形、文字本体)、タグの回転(なし、自由、制限あり)、タグの垂直方向の配置(印刷のベースラインに準拠、自由)など、いくつかの属性によって決まります。Web上のタグクラウドは、美観のモデリングと制御、タグの2次元レイアウトの構築という問題に対処する必要があり、これらすべてを不安定なブラウザプラットフォームで短時間で実行する必要があります。Web上で使用されるタグクラウドは、ロボットが読み取り可能にするためにグラフィックではなくHTMLで記述する必要があり、ブラウザで使用可能なフォントを使用してクライアント側で構築する必要があり、長方形のボックスに収まる必要があります。[ 19 ]

データクラウド

株価の変動を示すデータクラウド。色はプラスまたはマイナスの変化、フォントサイズは変化率を示します

データクラウドまたはクラウドデータは、フォントサイズや色を使用して数値を示すデータ表示です。[ 20 ]タグクラウドに似ていますが[ 21 ] 、単語数の代わりに人口や株価などのデータを表示します。

テキストクラウド

2002年のブッシュ大統領による一般教書演説と2011年のオバマ大統領による一般教書演説を比較したテキストクラウド[ 22 ]
科学関連の単語を含むマラヤーラム語のテキストクラウド

テキストクラウドまたはワードクラウドは、与えられたテキスト内の単語の頻度を重み付けされたリストとして視覚化したものです。[ 23 ]この手法は最近、政治演説の話題の内容を視覚化するためによく使用されています。[ 22 ] [ 24 ]

コロケーションクラウド

テキストクラウドの原理を拡張したコロケーションクラウドは、文書またはコーパスをより焦点を絞ったビューを提供します。文書全体を要約するのではなく、コロケーションクラウドは特定の単語の使用法を調べます。結果として得られるクラウドには、検索語と組み合わせてよく使用される単語が含まれます。これらのコロケーションは、頻度(サイズ)とコロケーションの強さ(明度)を示すようにフォーマットされています。これにより、言語をインタラクティブに閲覧および探索できます。[ 25 ]

認識

タグクラウドは、いくつかのユーザビリティ研究で調査対象となっています。以下の要約は、ローマンらによる研究結果の概要に基づいています。[ 15 ]

  • タグのサイズ: 大きいタグは小さいタグよりもユーザーの注目を集めます (効果は文字数、位置、隣接するタグなどのその他のプロパティによって影響を受けます)。
  • スキャン: ユーザーはタグ クラウドを読むのではなくスキャンします。
  • 中央揃え: クラウドの中央にあるタグは、境界付近のタグよりもユーザーの注目を集めます (効果はレイアウトによって影響されます)。
  • 位置: 左上の象限は他の象限よりもユーザーの注目を集めます (西洋の読書習慣)。
  • 探索: タグ クラウドは、特定のタグを検索するときに最適なサポートを提供しません (タグのフォント サイズが非常に大きくない場合)。

Felixら[ 26 ]は、数値をフォントサイズにマッピングする従来のタグクラウドと、色や円、棒などの追加図形を用いた代替デザインとで、人間の読解パフォーマンスがどのように異なるかを比較しました。また、単語の配置の違いがパフォーマンスにどのような影響を与えるかを比較しました。

  • フォントサイズの代わりに追加のバーや円を使用すると、数値を読み取る際の精度が向上します。
  • しかし、追加のマークが使用されていない場合、ユーザーは特定の単語をより早く見つけることができます。
  • パフォーマンスはタスクによって異なります。単語を見つけるなどの単純なタスクはデザインの選択に大きく影響されますが、タグ クラウドのトピックを識別するなどのタスクへの影響ははるかに小さくなります。

作成

閲覧数順に並べられたWikipediaの重要な記事上位1000件から作成されたタグクラウド[ 27 ]

原則として、タグクラウド内のタグのフォントサイズは、その出現頻度によって決定されます。例えば、ウェブログのようなカテゴリのワードクラウドの場合、出現頻度は、カテゴリに割り当てられたウェブログエントリの数に対応します。出現頻度が低い場合は、1から最大フォントサイズまで、フォントサイズを直接指定できます。出現頻度が大きい場合は、スケーリングを行う必要があります。線形正規化では、記述子の重みは1からfまでのサイズスケールにマッピングされます。ここで、とは利用可能な重みの範囲を指定します。 ti{\displaystyle t_{i}}t{\displaystyle t_{\min}}t最大{\displaystyle t_{\max}}

if最大titt最大t{\displaystyle s_{i}=\left\lceil {\frac {f_{\max}\cdot (t_{i}-t_{\min})}{t_{\max}-t_{\min}}}\right\rceil }for ; elsetit{\displaystyle t_{i}>t_{\min}}i1{\displaystyle s_{i}=1}
  • i{\displaystyle s_{i}}: 表示フォントサイズ
  • f最大{\displaystyle f_{\max}}: 最大フォントサイズ
  • ti{\displaystyle t_{i}}: カウント
  • t{\displaystyle t_{\min}}: 最小カウント
  • t最大{\displaystyle t_{\max}}:最大数

記述子あたりのインデックス項目数は通常、べき乗法則に従って分布するため、[ 28 ]値の範囲が広い場合は対数表現が適切です。[ 29 ]

タグ クラウドの実装には、テキスト解析と、一般的な単語、数字、句読点などの役に立たないタグの除外も含まれます。

広告やユーモラスな結果を目的として、人工的またはランダムに重み付けされたタグ クラウドを作成する Web サイトもあります。

参照

参考文献

  1. ^ワードクラウドジェネレーター(アーカイブ)
  2. ^ Martin HalveyとMark T. Keane、「タグ表示技術の評価」、Wayback Machineで2017年5月14日にアーカイブ、WWW 2007でのポスター発表、2007年
  3. ^ Helic, Denis; Trattner, Christoph; Strohmaier, Markus; Andrews, Keith (2011). 「タグクラウドはナビゲーションに役立つか?ネットワーク理論的分析」 . International Journal of Social Computing and Cyber​​-Physical Systems . 1 (1): 33. doi : 10.1504/IJSCCPS.2011.043603 . ISSN  2040-0721 .
  4. ^ジル・ドゥルーズ、フェリックス・ガタリ (1992)。タウゼント高原。資本主義と統合失調症。メルヴェ・フェルラーク。ISBN 978-3-88396-094-4
  5. ジム・フラナガンの「Search Referral Zeitgeis 」のコピーはarchive.orgで入手可能でしたが、その後ブロックされました。Wayback Machineに2006年4月26日にアーカイブされたブログ記事のコメントで、スティーブ・ミヌティロと名乗るユーザーが、このアイデアはジム・フラナガンによるものだと述べ、フラナガンのサイトには2002年にそのような表示があったと述べています
  6. ^ 「タグクラウドはRIPか?」 Readwriteweb.com. 2011年3月30日。 2012年3月19日時点のオリジナルよりアーカイブ。
  7. ^ 「Welcome to the Webby Awards」 . Webbyawards.com. 2011年10月28日. 2006年7月3日時点のオリジナルよりアーカイブ2013年7月27日閲覧。
  8. ^ Bielenberg, K. および Zacher, M., Groups in Social Software: Utilizing Tagging to Integrate Individual Contexts for Social Navigation Archived 2007-10-08 at the Wayback Machine , Masters Thesis submitted to the Program of Digital Media, Universität Bremen (2006)
  9. ^ a b c Schubert, Erich; Spitz, Andreas; Weiler, Michael; Geiß, Johanna; Gertz, Michael (2017-08-11). 「背景コーパス正規化とt分布確率的近傍埋め込みを用いたセマンティックワードクラウド」. arXiv : 1708.03569 [ cs.IR ].
  10. ^ Knautz, K., Soubusta, S., & Stock, WG (2010).タグクラスターを用いた情報検索インターフェースArchived 2011-07-17 at the Wayback Machine . Proceedings of the 43rd Annual Hawaii International Conference on System Sciences (HICSS-43), January 5–8, 2010. IEEE Computer Society Press (10ページ).
  11. ^ Aouiche, Kamel; Lemire, Daniel; Godin, Robert (2007). 「タグクラウドを用いた協調的OLAP:Web 2.0 OLAPの形式主義と実験的評価」arXiv : 0710.2156 [ cs.DB ].
  12. ^ Helic, D.; Trattner, C.; Strohmaier, M.; Andrews, K. (2011). 「タグクラウドはナビゲーションに有用か?ネットワーク理論的分析」 . International Journal of Social Computing and Cyber​​-Physical Systems . 1 (1): 33– 55. doi : 10.1504/IJSCCPS.2011.043603 .
  13. ^ Trattner, C.:ウェブ百科事典内の関連コンテンツを検索クエリタグクラウドでリンクするArchived 2012-06-15 at the Wayback Machine . IADIS International Journal on WWW/Internet, Volume 9, Issue 2, 2011
  14. ^ Tratter, C., Lin, Y., Parra, D., Yue, Z., Brusilovsky, P.:画像コレクションにおけるタグベースの情報アクセスの評価( 2012年6月15日アーカイブ、 Wayback Machine). 第23回ACMハイパーテキストおよびソーシャルメディア会議(HT 2012)の議事録。ACM、ニューヨーク、ニューヨーク州、米国、2012年
  15. ^ a b c Lohmann, S.、Ziegler, J.、Tetzlaff, L. 「タグクラウドレイアウトの比較:タスク関連のパフォーマンスと視覚的探索」Wayback Machineに2009年10月7日にアーカイブ、T. Gross他(編):INTERACT 2009、パートI、LNCS 5726、pp. 392~404、2009年。
  16. ^ Hassan-Montero, Y., Herrero-Solana, V.視覚情報検索インターフェースとしてのタグクラウドの改善Archived 2006-08-13 at the Wayback Machine . InSciT 2006: Mérida, Spain. October 25–28, 2006.
  17. ^ a b Kaser, Owen; Lemire, Daniel (2007). 「タグクラウド描画:クラウド可視化アルゴリズム」. arXiv : cs/0703109 .
  18. ^ Salonen, J. 2007.自己組織化マップベースのタグクラウド - タグ付けデータの空間的に意味のある表現の作成Archived 2008-12-24 at the Wayback Machine . Proceedings of the 1st OPAALS conference, 26–27 November 2007, Rome, Italy.
  19. ^ Marszałkowski, J.、Mokwa, D.、Drozdowski, M.、Rusiecki, L.、Narożny, H. Web タグ クラウドのオンライン構築のための高速アルゴリズム、Engineering Applications of Artificial Intelligence 64、pp. 378–390、2017。
  20. ^ Apel, Warren. 「ManyEyesの視覚化と解説:世界人口データクラウド2007年10月29日時点のオリジナルよりアーカイブ。 2007年8月26日閲覧
  21. ^ Wattenberg, Martin. 「ManyEyes Visualization: Ad cloud . 2008年2月14日時点のオリジナルよりアーカイブ。 2007年3月12日閲覧
  22. ^ a b Steinbock, Daniel (2011年3月5日). 「TagCrowdの視覚化:国家の現状」 . 2011年4月11日時点のオリジナルよりアーカイブ2011年3月5日閲覧。
  23. ^ Lamantia, Joe. 「テキストクラウド:タグクラウドの新しい形?」 2008年9月10日時点のオリジナルよりアーカイブ。 2008年9月11日閲覧{{cite web}}:CS1メンテナンス:ボット:元のURLステータス不明(リンク
  24. ^ Mehta, Chirag. 「米国大統領演説タグクラウド」 2007年10月19日時点のオリジナルよりアーカイブ2008年9月11日閲覧
  25. ^ 「Collocate cloud」 . 2008年12月5日閲覧
  26. ^ Felix, Cristian; Franconeri, Steven; Bertini, Enrico (2018年1月). 「Taking Word Clouds Apart: An Empirical Investigation of the Design Space for Keyword Summaries」. IEEE Transactions on Visualization and Computer Graphics . 24 (1): 657– 666. Bibcode : 2018ITVCG..24..657F . doi : 10.1109/TVCG.2017.2746018 . PMID 28866593. S2CID 6570943 .  
  27. ^ 「en.wikipediaの月間ウィキページヒット数」 Wikistics.falsikon.de. 2009年8月31日。2013年4月19日時点のオリジナルよりアーカイブ2013年7月27日閲覧。
  28. ^ヴォス、ヤコブ (2006)。 「ウィキペディア方式でタグ付けする共同シソーラス」。arXiv : cs/0604036
  29. ^ 「Kentbyte:タグクラウドフォント配布アルゴリズム. 2005年6月」 . Echochamberproject.com . 2013年10月2日時点のオリジナルよりアーカイブ2013年7月27日閲覧。