
【Meta】Omnilingual ASRとは?LLMの技術を音声認識に応用した特徴、性能、料金、利用方法まで徹底解説!
1,600以上の言語に対応し、500以上の低リソース言語に初めてAI文字起こしを実現したオープンソースASRモデル 少数の音声サンプルで新言語を追加可能なインコ...
生成AI、画像認識、AI開発企業等のAI会社マッチング支援サービス

1,600以上の言語に対応し、500以上の低リソース言語に初めてAI文字起こしを実現したオープンソースASRモデル 少数の音声サンプルで新言語を追加可能なインコ...

V-JEPA 2は、映像の見た目(ピクセル)の予測ではなく、物理法則という世界のルールを抽象的に学習 膨大な動画から自律的に学習し、ロボットの行動データを学ぶ二...

プログラミングの世界は日々進化しており、より効率的で生産的な開発手法が求められています。そんな中で注目を集めているのが、生成AIを用いてプログラミングの世界に革...

Meta(旧Facebook)社が開発した「Llama 2(ラマ2)」というLLMを聞いたことがあるでしょうか。AIモデルといえばOpenAI社のChatGPT...

Metaが2025年12月に音声分離特化の統合型AIモデル「SAM Audio」を発表 テキスト・視覚・時間指定の3種類のプロンプトで目的の音を高精度分離 環境...

SAM 3Dは、単一の2D画像から人や物体、シーン全体を高精度に3D再構成できるMetaの研究モデル 物体向けの「SAM 3D Objects」と人体特化の「S...

ChatGPTでPhotoshop・Express・Acrobatを直接操作可能 文章で指示するだけで編集や加工が進行 無料で世界中のChatGPTユーザーに提...

Metaは2025年12月16日、画像・動画のセグメンテーション技術SAMを音声領域に拡張したSAM Audioを発表した。テキスト、視覚、時間軸の3種類のプロ...

空間コンピューティングデバイスは、「VR/AR/MR」という機能(没入感)による分類 「ヘッドセット型」「スマートグラス型」「ハンディ型」という形状による分類も...

Gen1から大幅進化したセンサー性能とオンデバイス処理能力によるAI研究基盤の構築 74グラムの軽量設計と8サイズ展開による研究現場での実用性向上 複数機関での...