Uネット

U-Netは、画像セグメンテーション用に開発された畳み込みニューラルネットワークです。[ 1 ]このネットワークは、完全な畳み込みニューラルネットワーク[ 2 ]をベースにしており、そのアーキテクチャは、より少ないトレーニング画像で動作し、より正確なセグメンテーションを実現するために修正・拡張されています。U-Netアーキテクチャを用いた最新のGPU(2015年モデル)では、512×512の画像のセグメンテーションは1秒未満で完了します。[ 1 ] [ 3 ] [ 4 ] [ 5 ]

U-Netアーキテクチャは、反復的な画像ノイズ除去のための拡散モデルにも採用されています。[ 6 ]この技術は、 DALL-EMidjourneyStable Diffusionなど、多くの最新の画像生成モデルの基盤となっています。

U-Netは言語モデルにも利用されています。[ 7 ]トークン化は独立したステップではなく、モデルがスペルをより簡単に理解し、同時に高レベルの概念をベクトル化/トークン化できるようにします。

説明

U-Netアーキテクチャは、いわゆる「完全畳み込みネットワーク」に由来する。[ 2 ]

基本的なアイデアは、通常の収縮ネットワークを連続層で補完し、プーリング演算をアップサンプリング演算に置き換えることです。これにより、これらの層は出力の解像度を向上させます。そして、連続する畳み込み層は、この情報に基づいて正確な出力を組み立てることを学習します。[ 1 ]

U-Netにおける重要な変更点の一つは、アップサンプリング部に多数の特徴チャネルが存在することです。これにより、ネットワークはコンテキスト情報を高解像度層に伝播させることができます。その結果、拡張パスは縮小部とほぼ対称となり、U字型のアーキテクチャを形成します。ネットワークは、全結合層を持たず、各畳み込みの有効部分のみを使用します。 [ 2 ]画像の境界領域のピクセルを予測するために、欠落しているコンテキストは入力画像をミラーリングすることで外挿されます。このタイリング戦略は、ネットワークを大きな画像に適用する上で重要です。そうでなければ、解像度がGPUメモリによって制限されてしまうからです。最近では、医療画像セグメンテーションのための受容野ベースのU-Netモデルにも関心が寄せられています。[ 8 ]

ネットワークアーキテクチャ

このネットワークは、収縮経路と拡張経路から構成され、U字型の構造をしています。収縮経路は典型的な畳み込みネットワークであり、畳み込みを繰り返し適用し、各畳み込みの後にはReLU(Rerectified Linear Unit )と最大プーリング演算が続きます。収縮過程において、空間情報は減少し、特徴情報は増加します。拡張経路は、収縮経路から得られた高解像度の特徴量を用いて、一連のアップ畳み込みと連結を行うことで、特徴量と空間情報を結合します。[ 9 ]

これは、256 x 256 の RGB 画像に対して k 個の 256 x 256 画像マスクを生成するための U-Net のアーキテクチャの例です。

アプリケーション

U-Netは、脳画像のセグメンテーション(「BRATS」[ 10 ])や肝臓画像のセグメンテーション(「siliver07」[ 11 ])のほか、タンパク質結合部位の予測など、生物医学画像のセグメンテーションに多くの応用があります。 [ 12 ] U-Netの実装は、物質の顕微鏡写真の分析など、物理科学でも使用されています。[ 13 ] [ 14 ] [ 15 ] U-Netのバリエーションは、医療画像の再構成にも適用されています。[ 16 ] U-Netのいくつかのバリエーションとアプリケーションは次のとおりです。

  1. U-Netを用いたピクセル単位の回帰とパンシャープンへの応用[ 17 ]
  2. 3D U-Net: 疎な注釈から高密度ボリュームセグメンテーションを学習する; [ 18 ]
  3. TernausNet: 画像セグメンテーションのためにImageNetで事前学習されたVGG11エンコーダを搭載したU-Net。[ 19 ]
  4. 蛍光染色を推定するための画像間変換[ 20 ]
  5. タンパク質構造の結合部位予測において。[ 12 ]

歴史

U-Netは、Olaf Ronneberger、Philipp Fischer、Thomas Broxによって2015年に開発され、「U-Net:バイオメディカル画像セグメンテーションのための畳み込みネットワーク」という論文で報告されました。[ 1 ]これは、FCN(Evan Shelhamer、Jonathan Long、Trevor Darrell (2014)による「セマンティックセグメンテーションのための完全畳み込みネットワーク」)の改良・発展です。[ 2 ]

参考文献

  1. ^ a b c d Ronneberger O, Fischer P, Brox T (2015). 「U-Net: バイオメディカル画像セグメンテーションのための畳み込みネットワーク」. arXiv : 1505.04597 [ cs.CV ].
  2. ^ a b c d Shelhamer E, Long J, Darrell T (2014年11月). 「セマンティックセグメンテーションのための完全畳み込みネットワーク」. IEEE Transactions on Pattern Analysis and Machine Intelligence . 39 (4): 640– 651. arXiv : 1411.4038 . doi : 10.1109/TPAMI.2016.2572683 . PMID 27244717. S2CID 1629541 .  
  3. ^ Nazem, Fatemeh; Ghasemi, Fahimeh; Fassihi, Afshin; Mehri Dehnavi, Alireza (2021). 「3D U-Net:タンパク質構造の結合部位予測におけるボクセルベースの手法」. Journal of Bioinformatics and Computational Biology . 19 (2). doi : 10.1142/S0219720021500062 . PMID 33866960 . 
  4. ^ Nazem, Fatemeh; Ghasemi, Fahimeh; Fassihi, Afshin; Mehri Dehnavi, Alireza (2023). 「リガンド–タンパク質結合原子を予測するGUネットベースのアーキテクチャ」 . Journal of Medical Signals & Sensors . 13 (1): 1– 10. doi : 10.4103/jmss.jmss_142_21 . PMC 10246592. PMID 37292445 .  
  5. ^ Nazem, Fatemeh; Ghasemi, Fahimeh; Fassihi, Afshin; Mehri Dehnavi, Alireza (2024). 「リガンド-タンパク質結合部位を特定するためのディープアテンションネットワーク」. Journal of Computational Science . 81 102368. doi : 10.1016/j.jocs.2024.102368 .
  6. ^ Ho, Jonathan (2020). 「拡散確率モデルのノイズ除去」. arXiv : 2006.11239 [ cs.LG ].
  7. ^ Videau, Mathurin; Badr Youbi Idrissi; Leite, Alessandro; Schoenauer, Marc; Teytaud, Olivier; Lopez-Paz, David (2025). 「バイトからアイデアへ:自己回帰U-Netによる言語モデリング」. arXiv : 2506.14761 [ cs.CL ].
  8. ^ Loos, Vincent; Pardasani, Rohit; Awasthi, Navchetan (2024-10-29). 「医用画像セグメンテーションにおけるU-Netモデルにおける受容野サイズの影響を解明する」 . Journal of Medical Imaging . 11 (5). doi : 10.1117/ 1.jmi.11.5.054004 . ISSN 2329-4302 . PMC 11520766. PMID 39478790 .   
  9. ^ 「U-Netコード」
  10. ^ 「MICCAI BraTS 2017: スコープ | 生物医学画像解析セクション (SBIA) | ペンシルバニア大学ペレルマン医学大学院」 www.med.upenn.edu . 2018年12月24日閲覧
  11. ^ 「SLIVER07 : ホーム」 . www.sliver07.org . 2018年12月24日閲覧
  12. ^ a b Nazem F, Ghasemi F, Fassihi A, Dehnavi AM (2021年4月). 「3D U-Net:タンパク質構造の結合部位予測におけるボクセルベースの手法」. Journal of Bioinformatics and Computational Biology . 19 (2): 2150006. doi : 10.1142/S0219720021500062 . PMID 33866960. S2CID 233300145 .  
  13. ^陳、福祥六道;リン・チアユー。シャオ、フイイン。ジャン・チェンユアン;ヤン・ヨンチェン;リン・チュンリャン(2023-02-14)。「深層学習ベースの二次元材料用原子欠陥検出フレームワーク」科学的データ10 (1): 91。ビブコード: 2023NatSD..10...91C土井: 10.1038/s41597-023-02004-6ISSN 2052-4463PMC 9929095PMID 36788235   
  14. ^ Shi, Peng; Duan, Mengmeng; Yang, Lifang; Feng, Wei; Ding, Lianhong; Jiang, Liwu (2022-06-22). 「改良型U-Net画像セグメンテーション法と金属粒径統計への応用」 . Materials . 15 (13): 4417. Bibcode : 2022Mate...15.4417S . doi : 10.3390/ ma15134417 . ISSN 1996-1944 . PMC 9267311. PMID 35806543 .   
  15. ^ Patrick, Matthew J; Eckstein, James K; Lopez, Javier R; Toderas, Silvia; Asher, Sarah A; Whang, Sylvia I; Levine, Stacey; Rickman, Jeffrey M; Barmak, Katayun (2023-11-15). 「U-Netを用いた明視野透過型電子顕微鏡画像における自動粒界検出」 . Microscopy and Microanalysis . 29 (6): 1968– 1979. arXiv : 2312.09392 . doi : 10.1093/micmic/ozad115 . ISSN 1431-9276 . PMID 37966960 .  
  16. ^ Andersson J, Ahlström H, Kullberg J (2019年9月). 「畳み込みニューラルネットワークを用いた全身グラディエントエコースキャンにおける水と脂肪の信号の分離」 . Magnetic Resonance in Medicine . 82 (3): 1177– 1186. doi : 10.1002/mrm.27786 . PMC 6618066. PMID 31033022 .  
  17. ^ Yao W, Zeng Z, Lian C, Tang H (2018-10-27). 「U-Netを用いたピクセル単位の回帰とパンシャープンへの応用」. Neurocomputing . 312 : 364–371 . doi : 10.1016/j.neucom.2018.05.103 . ISSN 0925-2312 . S2CID 207119255 .  
  18. ^チチェク Ö、アブドゥルカディル A、リーンカンプ SS、ブロックス T、ロンネベルガー O (2016)。 「3D U-Net: 疎な注釈からの密な体積セグメンテーションの学習」。arXiv : 1606.06650 [ cs.CV ]。
  19. ^ Iglovikov V, Shvets A (2018). 「TernausNet: ImageNetで事前学習済みのVGG11エンコーダーを搭載したU-Netによる画像セグメンテーション」. arXiv : 1801.05746 [ cs.CV ].
  20. ^ Kandel ME, He YR, Lee YJ, Chen TH, Sullivan KM, Aydin O, et al. (2020年12月). 「細胞内コンパートメントにおける乾燥質量変化の測定のための計算特異性を備えた位相イメージング(PICS)」 . Nature Communications . 11 (1) 6256. arXiv : 2002.08361 . Bibcode : 2020NatCo..11.6256K . doi : 10.1038 / s41467-020-20062-x . PMC 7721808. PMID 33288761 .  

実装