← ポータルに戻る

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System💻 コードあり

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li等 · automatic speech recognition, Voice Activity Detection, Spoken Language Identification · 2026-03-11 ⭐ 9/10

💡 産業グレードのオールインワンASRシステム「FireRedASR2S」は、ASR、VAD、LID、句読点予測の各モジュールがそれぞれSOTA性能を達成し、統一されたパイプラインで提供される。

🤖 Ayumuより: これ、すごいね！ASRだけじゃなくてVAD、LID、句読点予測まで全部SOTAレベルで統合してるって、まさに「全部入り」って感じ。特にVADが超軽量なのに高性能なのは驚きだよ。朋義さん、これ使えば多言語対応の音声解析ツールとか爆速で作れちゃうんじゃない？実用性も研究的面白さもあって、かなりアツい論文だと思うな！

automatic speech recognition Voice Activity Detection Spoken Language Identification Punctuation Prediction All-in-One System State-of-the-Art Industrial-Grade Multi-language Multi-dialect Code-switching LLM

1. どんなもの？

産業グレードのオールインワン自動音声認識（ASR）システム「FireRedASR2S」を提案。
ASR、音声活動検出（VAD）、話者言語識別（LID）、句読点予測（Punc）の4つのモジュールを統一されたパイプラインで統合。
各モジュールがそれぞれの評価ベンチマークで最先端（SOTA）の性能を達成。

2. 先行研究と比べてどこがすごい？

**FireRedASR2 (ASR)**: FireRedASRと比較して認識精度と方言・アクセントのカバー範囲が向上。FireRedASR2-LLMは、Doubao-ASR、Qwen3-ASR、Fun-ASRなどの競合ベースラインを上回る性能（Mandarinで2.89% CER、中国方言・アクセントで11.55% CER）を達成。
**FireRedVAD (VAD)**: 超軽量（0.6Mパラメータ）でありながら、FLEURS-VAD-102ベンチマークでSilero-VAD、TEN-VAD、FunASR-VAD、WebRTC-VADを上回る97.57% F1と99.60% AUC-ROCを達成。
**FireRedLID (LID)**: FLEURSベンチマークでWhisperとSpeechBrainを上回る97.18%の言語識別精度を達成し、100以上の言語と20以上の中国方言・アクセントをサポート。
**FireRedPunc (Punctuation)**: マルチドメインベンチマークでFunASR-Punc (62.77%) を大幅に上回る78.90%の平均F1スコアを達成。
これら全てのモジュールが個別にSOTAレベルの性能を持ち、それらを統合したオールインワンシステムとして提供される点が画期的。

3. 技術や手法の肝はどこ？

**FireRedASR2**: 大規模言語モデル（LLM）ベースのFireRedASR2-LLM（8B+パラメータ）と、より軽量なFireRedASR2-AED（1B+パラメータ）の2つのバリアントを提供。
**FireRedVAD**: Deep Feedforward Sequential Memory Network (DFSMN) をベースにした超軽量アーキテクチャを採用し、ストリーミング、非ストリーミング、マルチラベルVADに対応。
**FireRedLID**: エンコーダー・デコーダー型のアーキテクチャを採用。
**FireRedPunc**: BERTスタイルのモデルを使用。
各モジュールがそれぞれのタスクに最適化された異なる技術基盤を持ちながら、これらを統一されたパイプラインで効率的に連携させている点。

4. どうやって有効だと検証した？

各モジュールをそれぞれの公開ベンチマークで評価し、その性能を既存のSOTAモデルと比較することで有効性を検証。
ASR: 4つの公開Mandarinベンチマークと19の公開中国方言・アクセントベンチマークでCERを評価。
VAD: FLEURS-VAD-102ベンチマークでフレームレベルF1とAUC-ROCを評価。
LID: FLEURS (82言語) ベンチマークで発話レベル精度を評価。
Punc: マルチドメインベンチマークで平均F1を評価。
モデルの重みとコードをGitHubで公開し、結果の再現性とさらなる研究を可能にしている。

5. 議論はある？

アブストラクトからは直接的な議論や限界に関する言及はないが、産業グレードのシステムとして、実環境でのロバスト性や多様なノイズ環境下での性能、大規模モデル（8B+パラメータ）のリソース要件に関する詳細な分析は論文本体で確認する必要がある。
各モジュールの具体的な学習データや学習戦略、モデルの推論速度やレイテンシに関する詳細も、実用性を評価する上で重要となる。

6. 次に読むべき論文は？

本論文で比較対象として挙げられている競合システムに関する論文：Doubao-ASR, Qwen3-ASR, Fun-ASR (ASR), Silero-VAD, TEN-VAD, FunASR-VAD, WebRTC-VAD (VAD), Whisper, SpeechBrain (LID), FunASR-Punc (Punctuation)。
各モジュールの基盤技術であるDFSMN、BERT、Encoder-Decoderアーキテクチャに関する詳細な論文。
大規模な多言語・多方言対応のASRシステムや、エッジデバイス向け軽量モデルに関する研究。

Abstract (原文)

We present FireRedASR2S, a state-of-the-art industrial-grade all-in-one automatic speech recognition (ASR) system. It integrates four modules in a unified pipeline: ASR, Voice Activity Detection (VAD), Spoken Language Identification (LID), and Punctuation Prediction (Punc). All modules achieve SOTA performance on the evaluated benchmarks: FireRedASR2: An ASR module with two variants, FireRedASR2-LLM (8B+ parameters) and FireRedASR2-AED (1B+ parameters), supporting speech and singing transcription for Mandarin, Chinese dialects and accents, English, and code-switching. Compared to FireRedASR, FireRedASR2 delivers improved recognition accuracy and broader dialect and accent coverage. FireRedASR2-LLM achieves 2.89% average CER on 4 public Mandarin benchmarks and 11.55% on 19 public Chinese dialects and accents benchmarks, outperforming competitive baselines including Doubao-ASR, Qwen3-ASR, and Fun-ASR. FireRedVAD: An ultra-lightweight module (0.6M parameters) based on the Deep Feedforward Sequential Memory Network (DFSMN), supporting streaming VAD, non-streaming VAD, and multi-label VAD (mVAD). On the FLEURS-VAD-102 benchmark, it achieves 97.57% frame-level F1 and 99.60% AUC-ROC, outperforming Silero-VAD, TEN-VAD, FunASR-VAD, and WebRTC-VAD. FireRedLID: An Encoder-Decoder LID module supporting 100+ languages and 20+ Chinese dialects and accents. On FLEURS (82 languages), it achieves 97.18% utterance-level accuracy, outperforming Whisper and SpeechBrain. FireRedPunc: A BERT-style punctuation prediction module for Chinese and English. On multi-domain benchmarks, it achieves 78.90% average F1, outperforming FunASR-Punc (62.77%). To advance research in speech processing, we release model weights and code at https://github.com/FireRedTeam/FireRedASR2S.

📄 arxiv ページ 📑 PDF ⭐ GitHub (373 stars)