add txt render

2024-11-13 19:29:40 +08:00 · 2024-11-13 19:29:40 +08:00 · 742340971b
commit 742340971b
parent b3bbf40d95
3 changed files with 8 additions and 2 deletions
--- a/human/audio_inference_handler.py
+++ b/human/audio_inference_handler.py
@ -88,9 +88,11 @@ class AudioInferenceHandler(AudioHandler):
                # print('origin mel_batch:', len(mel_batch))
                is_all_silence = True
                audio_frames = []
+                current_text = ''
                for _ in range(batch_size * 2):
                    frame, type_ = self._audio_queue.get()
                    # print('AudioInferenceHandler type_', type_)
+                    current_text = frame[1]
                    audio_frames.append((frame, type_))
                    if type_ == 0:
                        is_all_silence = False
@ -107,7 +109,7 @@ class AudioInferenceHandler(AudioHandler):
                                            0)
                        index = index + 1
                else:
-                    logger.info('infer=======')
+                    logger.info(f'infer======= {current_text}')
                    t = time.perf_counter()
                    img_batch = []
                    # for i in range(batch_size):
--- a/human/human_render.py
+++ b/human/human_render.py
@ -50,7 +50,7 @@ class HumanRender(AudioHandler):
            # t = time.time()
            self._run_step()
            # delay = time.time() - t
-            delay = 0.03805 # - delay
+            delay = 0.038 # - delay
            # print(delay)
            # if delay <= 0.0:
            #     continue
--- a/render/voice_render.py
+++ b/render/voice_render.py
@ -16,6 +16,7 @@ class VoiceRender(BaseRender):
    def __init__(self, play_clock, context):
        self._audio_render = AudioRender()
        super().__init__(play_clock, context, 'Voice')
+        self._current_text = ''

    def render(self, frame, ps):
        self._play_clock.update_display_time()
@ -24,6 +25,9 @@ class VoiceRender(BaseRender):
        for audio_frame in frame:
            frame, type_ = audio_frame
            chunk, txt = frame
+            if txt != self._current_text:
+                self._current_text = txt
+                logging.info(f'VoiceRender: {txt}')
            chunk = (chunk * 32767).astype(np.int16)

            if self._audio_render is not None: