v3ucn
diff --git a/‎argparse_tools.py‎
Lines changed: 83 additions & 0 deletions b/‎argparse_tools.py‎
Lines changed: 83 additions & 0 deletions
diff --git a/‎requirements.txt‎
Lines changed: 2 additions & 0 deletions b/‎requirements.txt‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎short_audio_transcribe_ali.py‎
Lines changed: 33 additions & 15 deletions b/‎short_audio_transcribe_ali.py‎
Lines changed: 33 additions & 15 deletions
diff --git a/‎short_audio_transcribe_bcut.py‎
Lines changed: 36 additions & 13 deletions b/‎short_audio_transcribe_bcut.py‎
Lines changed: 36 additions & 13 deletions
@@ -0,0 +1,83 @@
+import argparse
+from pathlib import Path
+
+import yaml
+import sys
+
+
+class ArgumentParser(argparse.ArgumentParser):
+    """Simple implementation of ArgumentParser supporting config file
+
+    This class is originated from https://github.com/bw2/ConfigArgParse,
+    but this class is lack of some features that it has.
+
+    - Not supporting multiple config files
+    - Automatically adding "--config" as an option.
+    - Not supporting any formats other than yaml
+    - Not checking argument type
+
+    """
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        self.add_argument("--config", help="Give config file in yaml format")
+
+    def parse_known_args(self, args=None, namespace=None):
+        # Once parsing for setting from "--config"
+        _args, _ = super().parse_known_args(args, namespace)
+        if _args.config is not None:
+            if not Path(_args.config).exists():
+                self.error(f"No such file: {_args.config}")
+
+            with open(_args.config, "r", encoding="utf-8") as f:
+                d = yaml.safe_load(f)
+            if not isinstance(d, dict):
+                self.error("Config file has non dict value: {_args.config}")
+
+            for key in d:
+                for action in self._actions:
+                    if key == action.dest:
+                        break
+                else:
+                    self.error(f"unrecognized arguments: {key} (from {_args.config})")
+
+            # NOTE(kamo): Ignore "--config" from a config file
+            # NOTE(kamo): Unlike "configargparse", this module doesn't check type.
+            #   i.e. We can set any type value regardless of argument type.
+            self.set_defaults(**d)
+        return super().parse_known_args(args, namespace)
+
+
+def get_commandline_args():
+    extra_chars = [
+        " ",
+        ";",
+        "&",
+        "(",
+        ")",
+        "|",
+        "^",
+        "<",
+        ">",
+        "?",
+        "*",
+        "[",
+        "]",
+        "$",
+        "`",
+        '"',
+        "\\",
+        "!",
+        "{",
+        "}",
+    ]
+
+    # Escape the extra characters for shell
+    argv = [
+        arg.replace("'", "'\\''")
+        if all(char not in arg for char in extra_chars)
+        else "'" + arg.replace("'", "'\\''") + "'"
+        for arg in sys.argv
+    ]
+
+    return sys.executable + " " + " ".join(argv)
@@ -156,3 +156,5 @@ xxhash==3.4.1
 yapf==0.40.2
 yarl==1.9.4
 zipp==3.17.0
+faster-whisper
+moviepy
@@ -1,6 +1,7 @@
 import os
 import argparse
-
+import whisper
+import torch
 
 from tqdm import tqdm
 import sys
@@ -16,6 +17,8 @@
 from common.log import logger
 from common.stdout_wrapper import SAFE_STDOUT
 
+import re
+
 # 指定本地目录
 local_dir_root = "./models_from_modelscope"
 model_dir = snapshot_download('damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch', cache_dir=local_dir_root)
@@ -27,7 +30,7 @@
 
 model_dir_en = snapshot_download('damo/speech_UniASR_asr_2pass-en-16k-common-vocab1080-tensorflow1-offline', cache_dir=local_dir_root)
 
-
+device = "cuda:0" if torch.cuda.is_available() else "cpu"
 
 
 
@@ -69,6 +72,9 @@
 )
 
 
+model = whisper.load_model("medium",download_root="./whisper_model/")
+
+
 
 lang2token = {
             'zh': "ZH|",
@@ -79,6 +85,12 @@
 
 def transcribe_one(audio_path,language):
 
+    audio = whisper.load_audio(audio_path)
+    audio = whisper.pad_or_trim(audio)
+    mel = whisper.log_mel_spectrogram(audio).to(model.device)
+    _, probs = model.detect_language(mel)
+    language = max(probs, key=probs.get)
+
     if language == "zh":
 
         rec_result = inference_pipeline(audio_in=audio_path, param_dict=param_dict)
@@ -89,7 +101,7 @@ def transcribe_one(audio_path,language):
 
     print(rec_result["text"])
 
-    return rec_result["text"]
+    return rec_result["text"],language
 
 
 if __name__ == "__main__":
@@ -127,22 +139,28 @@ def transcribe_one(audio_path,language):
     ]
 
 
-    if language == "ja":
-        language_id = Languages.JP
-    elif language == "en":
-        language_id = Languages.EN
-    elif language == "zh":
-        language_id = Languages.ZH
-    else:
-        raise ValueError(f"{language} is not supported.")
-
     with open("./esd.list", "w", encoding="utf-8") as f:
         for wav_file in tqdm(wav_files, file=SAFE_STDOUT):
             file_name = os.path.basename(wav_file)
 
-            text = transcribe_one(f"{input_file}"+wav_file,language)
-
-            f.write(file_pos+f"{file_name}|{speaker_name}|{language_id}|{text}\n")
+            text,lang = transcribe_one(f"{input_file}"+wav_file,language)
+
+            # 使用正则表达式提取'deedee'
+            match = re.search(r'(^.*?)_.*?(\..*?$)', wav_file)
+            if match:
+                extracted_name = match.group(1) + match.group(2)
+            else:
+                print("No match found")
+                extracted_name = "sample"
+
+            if lang == "ja":
+                language_id = "JA"
+            elif lang == "en":
+                language_id = "EN"
+            elif lang == "zh":
+                language_id = "ZH"
+
+            f.write(file_pos+f"{file_name}|{extracted_name.replace('.wav','')}|{language_id}|{text}\n")
 
             f.flush()
     sys.exit(0)
 
@@ -13,6 +13,17 @@
 from bcut_asr import BcutASR
 from bcut_asr.orm import ResultStateEnum
 
+import whisper
+import torch
+
+import re
+
+
+device = "cuda:0" if torch.cuda.is_available() else "cpu"
+
+
+model = whisper.load_model("medium",download_root="./whisper_model/")
+
 
 
 lang2token = {
@@ -24,6 +35,12 @@
 
 def transcribe_one(audio_path):
 
+    audio = whisper.load_audio(audio_path)
+    audio = whisper.pad_or_trim(audio)
+    mel = whisper.log_mel_spectrogram(audio).to(model.device)
+    _, probs = model.detect_language(mel)
+    language = max(probs, key=probs.get)
+
     asr = BcutASR(audio_path)
     asr.upload() # 上传文件
     asr.create_task() # 创建任务
@@ -52,9 +69,9 @@ def transcribe_one(audio_path):
         print(text)
 
         # 输出srt格式
-        return text
+        return text,language
     else:
-        return "必剪无法识别"
+        return "必剪无法识别",language
 
 
 
@@ -91,22 +108,28 @@ def transcribe_one(audio_path):
     ]
 
 
-    if language == "ja":
-        language_id = Languages.JP
-    elif language == "en":
-        language_id = Languages.EN
-    elif language == "zh":
-        language_id = Languages.ZH
-    else:
-        raise ValueError(f"{language} is not supported.")
-
     with open("./esd.list", "w", encoding="utf-8") as f:
         for wav_file in tqdm(wav_files, file=SAFE_STDOUT):
             file_name = os.path.basename(wav_file)
+
+            # 使用正则表达式提取'deedee'
+            match = re.search(r'(^.*?)_.*?(\..*?$)', wav_file)
+            if match:
+                extracted_name = match.group(1) + match.group(2)
+            else:
+                print("No match found")
+                extracted_name = "sample"
 
-            text = transcribe_one(f"{input_file}"+wav_file)
+            text,lang = transcribe_one(f"{input_file}"+wav_file)
+
+            if lang == "ja":
+                language_id = "JA"
+            elif lang == "en":
+                language_id = "EN"
+            elif lang == "zh":
+                language_id = "ZH"
 
-            f.write(file_pos+f"{file_name}|{speaker_name}|{language_id}|{text}\n")
+            f.write(file_pos+f"{file_name}|{extracted_name.replace('.wav','')}|{language_id}|{text}\n")
 
             f.flush()
     sys.exit(0)