Googleが開発した画像分類タスクが可能な機械学習モデル「Vision Transformers」の仕組みとは？ │ まとメディア

1. Googleが開発した画像分類タスクが可能な機械学習モデル「Vision Transformers」の仕組みとは？

Googleが開発した画像分類タスクが可能な機械学習モデル「Vision Transformers」の仕組みとは？

Googleの機械学習モデル「Transformer」は、データを時系列に処理しなくても、自然言語などのデータを翻訳やテキスト要約することが可能で、ChatGPTなどの自然な会話が可能なチャットAIのベースとなっています。また、Transformerの手法を画像分野に応用したモデルが「Vision Transformer」です。ソフトウェアエンジニアのデニス・タープ氏が、「Vision Transformer」のコンポーネントがどのように機能し、データはどのような流れをたどるのか、ビジュアル化して解説していますA Visual Guide to Vision Transformers | MDTURPhttps://blog.mdturp.ch/posts/2024-04-05-visual_guide_to_vision_transformer.html0：はじめに前提として、Transformerの仕組みと同様、Vision Transformerも教師ありトレーニングがなされています。つまり、モデルが画像とそれに対応するラベルのデータセットでトレーニングされているというわけです。

続きを読む…

続きを見る