PYTHON 幫助

在 Python 中使用 WhisperX 進行轉錄

坎納帕特·烏頓潘

2024年7月1日

Python 已經確立了其作為世界上最通用和強大的程式語言之一的地位，這主要是由於其廣泛的函式庫和框架生態系統。在機器學習和自然語言處理領域掀起波瀾的其中一個庫(自然語言處理)空間是WhisperX。在本文中，我們將探討什麼是WhisperX、其主要功能，以及如何在各種應用中使用它。此外，我們將介紹 IronPDF，另一個強大的 Python 函式庫，並透過實際程式碼範例展示如何與 WhisperX 一起使用。

什麼是WhisperX？

WhisperX 是一個為語音識別和自然語言處理任務設計的先進 Python 庫。它利用最先進的機器學習模型將口語轉換為書面文字，並具有高準確度的語言檢測和時間準確的語音轉寫。 WhisperX 特別適用於即時翻譯至關重要的應用程式中，例如虛擬助手、自動化客戶服務系統和轉錄服務。

WhisperX的關鍵功能

高準確性：WhisperX 使用尖端算法和大型數據集訓練其模型，以確保語音識別的高準確性。
即時處理：該庫經過優化以實現即時處理，非常適合需要立即轉錄和響應的應用程式。
語言支持：WhisperX 支持多種語言，滿足全球受眾和多樣化使用案例的需求。
輕鬆整合：WhisperX 擁有完善的 API 文件，可以輕鬆地整合到現有的 Python 應用程序中。
自訂：使用者可以微調模型，以更好地適應特定的口音、方言和術語。

WhisperX 入門

要開始使用WhisperX，您需要安裝該庫。這可以透過 Python 的套件安裝工具 pip 來完成。假設您已安裝 Python 和 pip，您可以使用以下命令安裝 WhisperX：

pip install whisperx

WhisperX的基本使用 - 快速自動語音識別

以下是一個展示如何使用WhisperX轉錄音頻文件的基本範例：

import whisperx

# Initialize the WhisperX recognizer
recognizer = whisperx.Recognizer()

# Load your audio
audio_file = "path_to_your_audio_file.wav"

# Perform transcription
transcription = recognizer.transcribe(audio_file)

# Print the transcription
print("Transcription:", transcription)

import whisperx

# Initialize the WhisperX recognizer
recognizer = whisperx.Recognizer()

# Load your audio
audio_file = "path_to_your_audio_file.wav"

# Perform transcription
transcription = recognizer.transcribe(audio_file)

# Print the transcription
print("Transcription:", transcription)

PYTHON

此簡單範例展示如何初始化WhisperX識別器、載入音訊並執行轉錄，以高準確度將語音轉換為文字。

WhisperX Python（開發者如何使用）：圖1 - 檢測語言輸出

WhisperX 的進階功能

WhisperX 也提供進階功能，如說話者識別，這在多說話者環境中可能至關重要。以下是如何使用此功能的一個範例：

import whisperx

# Initialize the WhisperX recognizer with speaker identification enabled
recognizer = whisperx.Recognizer(speaker_identification=True)

# Load your audio file
audio_file = "path_to_your_audio_file.wav"

# Perform transcription with speaker identification
transcription, speakers = recognizer.transcribe(audio_file)

# Print the transcription with speaker labels
for i, segment in enumerate(transcription):
    print(f"Speaker {speakers[i]}: {segment}")

import whisperx

# Initialize the WhisperX recognizer with speaker identification enabled
recognizer = whisperx.Recognizer(speaker_identification=True)

# Load your audio file
audio_file = "path_to_your_audio_file.wav"

# Perform transcription with speaker identification
transcription, speakers = recognizer.transcribe(audio_file)

# Print the transcription with speaker labels
for i, segment in enumerate(transcription):
    print(f"Speaker {speakers[i]}: {segment}")

PYTHON

在此範例中，WhisperX 不僅會轉錄音訊，還會識別不同的說話者，並相應地標註每個段落。

IronPDF for Python

雖然WhisperX負責將音訊轉錄為文字，但通常需要以結構化和專業的格式呈現這些數據。這就是 IronPDF for Python 發揮作用的地方。 IronPDF 是一個強大的庫，用於以程式化方式生成、編輯和操作 PDF 文件。它使開發人員能夠從頭生成 PDF、將 HTML 轉換為 PDF 等。

安裝 IronPDF

IronPDF 可以使用 pip 安裝：

pip install ironpdf

WhisperX Python（它如何為開發人員工作）：圖2 - IronPDF

結合WhisperX和IronPDF

現在讓我們建立一個實用範例，演示如何使用WhisperX轉錄音頻文件，然後使用IronPDF生成包含轉錄內容的PDF文件。

import whisperx
from ironpdf import IronPdf

# Initialize the WhisperX recognizer
recognizer = whisperx.Recognizer()

# Load your audio file
audio_file = "path_to_your_audio_file.wav"

# Perform transcription
transcription = recognizer.transcribe(audio_file)

# Create a PDF document using IronPDF
renderer = IronPdf.ChromePdfRenderer()
pdf_from_html = renderer.RenderHtmlAsPdf(f"<h1>Transcription</h1><p>{transcription}</p>")

# Save the PDF to a file
output_file = "transcription_output.pdf"
pdf_from_html.save(output_file)
print(f"Transcription saved to {output_file}")

import whisperx
from ironpdf import IronPdf

# Initialize the WhisperX recognizer
recognizer = whisperx.Recognizer()

# Load your audio file
audio_file = "path_to_your_audio_file.wav"

# Perform transcription
transcription = recognizer.transcribe(audio_file)

# Create a PDF document using IronPDF
renderer = IronPdf.ChromePdfRenderer()
pdf_from_html = renderer.RenderHtmlAsPdf(f"<h1>Transcription</h1><p>{transcription}</p>")

# Save the PDF to a file
output_file = "transcription_output.pdf"
pdf_from_html.save(output_file)
print(f"Transcription saved to {output_file}")

PYTHON

合併代碼範例的說明

使用 WhisperX 進行轉錄：
- 初始化 WhisperX 語音識別器並載入音訊檔案。
- transcribe 方法處理音頻並返回文字記錄。
使用 IronPDF 創建 PDF：
- 創建 IronPdf.ChromePdfRenderer 的實例。
- 使用 RenderHtmlAsPdf 方法，將包含轉錄文本的 HTML 格式字串新增到 PDF。
- save 方法將 PDF 寫入檔案。
這個綜合範例展示了如何利用WhisperX和IronPDF的優勢，創建一個轉錄音頻並生成包含轉錄內容的PDF文件的完整解決方案。

結論

WhisperX 是一個強大的工具，適合希望在應用程式中實現語音識別、說話者分辨和轉錄的任何人。其高精確度、即時處理能力和對多語言的支持，使其成為自然語言處理領域中的寶貴資產。另一方面，IronPDF 提供了一種以編程方式創建和操作 PDF 文檔的無縫方法。透過結合WhisperX和IronPDF，開發人員可以創建完整的解決方案，不僅可以轉錄音頻，還可以以精緻、專業的格式呈現轉錄內容。

無論您是在建立虛擬助理、客服聊天機器人，還是轉錄服務，WhisperX 和 IronPDF 提供必要的工具以增強應用程式的功能，並為您的用戶提供高質量的結果。

如需獲取有關IronPDF授權的更多詳細資訊，請造訪IronPDF授權頁面。此外，我們還提供了詳細的 HTML 轉 PDF 轉換教學，供進一步探索。

坎納帕特·烏頓潘

立即與工程團隊聊天

軟體工程師

在成為軟體工程師之前，Kannapat 在日本北海道大學完成了環境資源博士學位。在攻讀學位期間，Kannapat 也成為了車輛機器人實驗室的成員，該實驗室隸屬於生物生產工程學系。2022 年，他利用自己的 C# 技能，加入了 Iron Software 的工程團隊，專注於 IronPDF 的開發。Kannapat 珍視這份工作，因為他可以直接向負責撰寫大部分 IronPDF 程式碼的開發人員學習。除了同儕學習外，Kannapat 還享受在 Iron Software 工作的社交方面。當他不在撰寫程式碼或文件時，Kannapat 通常會在 PS5 上玩遊戲或重看《最後生還者》。

< 上一頁
xml.etree Python（開發者指南）

下一個 >
在 Python 中使用 PyCryptodome 進行加密