pydominoで日本語音声データの強制アライメントをやってみた

 日本語のテキストと音声を音素レベルで対応をとる強制アライメントツールpydominoを使ってみました。pydominoのインストールから使い方、音素対応表の紹介を行っています。また、実際に母音や子音を含む音声データを波形やスペクトログラムで可視化しながら結果の検証を行いました。

続きを読む

PyTorchで始める手書き文字認識(MNIST)学習・検証コード

 機械学習を活用したアプリ開発を学ぶ第一歩として、PyTorchを使った手書き文字認識(MNIST)に挑戦します。本記事では、モデルの学習から検証までのコードを習得しましょう。MNISTの学習ができるようになれば、自分のデータで学習モデルを作成することもできるようになります。

続きを読む

PyQt5で録音機能付きwav音声分析ソフトをつくってみた

 PythonでGUIアプリを作成できるPyQt5を使って、WATLABブログでは幾度も挑戦してきた音声分析ソフトをつくってみます。今回はChatGPTのヘルプももらってドラッグ操作やダブルクリック操作の実装、マルチウィンドウ機能といった本格的なGUIアプリにしてみました。

続きを読む

ラズパイのPythonを最新にしてvenvとVSCodeを使う時のメモ

 ラズパイ(Raspberry Pi)には最初からPythonが入っていますが、もともと入っているPythonはそのまま残して最新のPythonをインストールする方法をまとめます。さらに、venvを使った仮想環境の準備やVSCodeの準備も含め、一般的なPythonプログラミングができる環境を整えるところまでを紹介します。

続きを読む

Pythonで録音した音声をリアルタイムにスペクトログラム表示する

 FFTの応用であるSTFTを使ったスペクトログラムは周波数波形の時間変化がわかるため、音声解析でよく使われます。これまでWATLABブログではwavファイルや生成した波形からスペクトログラムをつくっていましたが、この記事ではリアルタイムにスペクトログラムを計算する方法を紹介します。

続きを読む

PyAudio/threading/Matplotlibでリアルタイム音声処理

 Pythonを使えば、リアルタイムの音声録音と解析も簡単に行えます。まずPyAudioで音声を録音し、次にScipyでFFT(高速フーリエ変換)を使って解析を行います。しかし、これをスムーズに行うには並列処理が欠かせません。ここでは、Pythonのthreadingモジュールを駆使して、リアルタイムで音声を録音しながらFFT結果を表示する方法を紹介します。

続きを読む

PandocとPythonで画像付きWord文書をMarkdownに変換する

MS-Wordは多くの企業で使われている文書ファイル作成ソフトですが、様々なプラットフォーム間で文書のやり取りをする場合に不便です。対してMarkdownはフリーでわかりやすく、多くのエンジニアに愛されています。ここではPandocとPythonを使って.docxをMarkdownに変換する方法を紹介します。

続きを読む