早稲田大学大学院創造理工学研究科博士後期課程および株式会社ZOZO NEXTの研究開発組織、ZOZO研究所に在籍する清水良太郎、早稲田大学理工学術院 教授の後藤正幸、およびZOZO研究所の中村拓磨による研究グループは、ファッションへのイメージを自動的に学習・解釈し、ユーザーからの曖昧な問いに対する回答を得るための「Fashion Intelligence System」の精度を向上させた上で、新たな機能を実現するための機械学習モデルを開発した。今回開発したモデルでは、「この服装の上半身(下半身、靴など)はどのくらいカジュアルか」「この服装の上半身をもう少しビジネスカジュアルにするとどのような服装になるか」などのユーザーからのより詳細な質問への回答を得ることができる。
研究の背景には、ファッションを説明する際に、通常「カジュアル」「フォーマル」「かわいい」といった曖昧な表現が用いられるため、専門家でないユーザーがファッションを理解・解釈することは容易ではなく、このようなファッション分野特有の曖昧性がファッションへの苦手意識に繋がり、新しいジャンルの服装に挑戦することを困難にするなど、ファッションへの興味を深めることの妨げとなる可能性があることから始まった。
この問題を解決するために、以前本研究グループでは「Fashion Intelligence System」という技術を開発。この技術により、例えば、「この服装をもう少しフォーマルにしたらどんな服装になるか?」「この服装はどれくらいカジュアルか?」「この服装をカジュアルにしている要素は何か?」といった問いへの回答を得ることが可能となっていた。
しかし従来のFashion Intelligence System では、全身の服装の画像を一括で学習しており、その中に含まれる個別のアイテム(Tシャツ、パンツ、スカートなど)に関する詳細な質問への回答を得る機能を有していなかった。
本研究では、Fashion Intelligence Systemの機能を強化し、先の3つの質問に加え、「この服装の上半身(下半身、靴など)のカジュアル度はどのくらいか」「この服装の上半身をもう少しビジネスカジュアルにするとどんな服装になるか」など、服装に含まれる個別のアイテムに注目した詳細な質問への回答も可能にしようと試みた。
研究の結果、Fashion Intelligence Systemが回答可能な質問の範囲が広がり、ユーザーのより詳細な質問に回答することが可能に。これにより、ファッション特有の曖昧性を軽減し、ファッションに関するユーザーのあらゆる(着る服や購入するアイテムなどの)選択・行動を支援することが期待される。
本研究成果は、オランダのエルゼビア社が発行する『Knowledge-Based Systems』(論文名:Partial visual-semantic embedding: Fine-grained outfit image representation with massive volumes of tags via angular-based contrastive learning)にて2023年7月28日(現地時間)にVersion of Record(最終公開版)としてオンラインで掲載されました。