72言語対応! 英語と中国語を試してみた
ライン入力で英語の映画で試してみた
日本語の文字起こし機能だけで、筆者には十分神アイテムなのですが、実はオートメモ Sは72言語の文字起こしに対応しています。ただし翻訳機能はありません。また、テキスト化する言語を先に選択しておく必要があるので、複数の言語が混じっている場合には対応できないそうです。
言語は日本語、英語(米国)、英語(英国)、中国語(簡体字)、中国語(繁体字)などはもちろん、バスク語やマラヤーラム語などにも対応。
オートメモ Sは、3.5mm/3極のマイクジャック入力に対応しているので、英語の映画を再生し、その音声をどの程度テキスト化することができるのかをみながら、英語字幕と比べてみました。
その結果、音声データのかなり部分はテキスト化されており、ある程度の意味は分かりました。
筆者にとってのメリットは、まったくリスニングできない言語がテキスト化されること。今回はどの程度合っているかをチェックするために英語字幕のある映画の音声で実験しましたが、字幕がない動画や音声も、オートメモSでテキスト化さえできれば、そこから翻訳などを行う方法はいろいろとあるので、さまざまな使い道が考えられるのではないでしょうか。
言語は日本語、英語(米国)、英語(英国)、中国語(簡体字)、中国語(繁体字)などはもちろん、バスク語やマラヤーラム語などにも対応。
オートメモ Sは、3.5mm/3極のマイクジャック入力に対応しているので、英語の映画を再生し、その音声をどの程度テキスト化することができるのかをみながら、英語字幕と比べてみました。
その結果、音声データのかなり部分はテキスト化されており、ある程度の意味は分かりました。
筆者にとってのメリットは、まったくリスニングできない言語がテキスト化されること。今回はどの程度合っているかをチェックするために英語字幕のある映画の音声で実験しましたが、字幕がない動画や音声も、オートメモSでテキスト化さえできれば、そこから翻訳などを行う方法はいろいろとあるので、さまざまな使い道が考えられるのではないでしょうか。
3.5mm/3極マイクジャック入力に対応しているので、パソコンやテレビなどからも音声入力が可能。動画のテキスト化などさまざまな使い方ができます
中国人である妻の会話を文字起こし
英語に続いて、中国語もどの程度文字起こしできるのか? 同じように試してみました。実は筆者の妻は中国人。そして、妻はかなり頻繁に実家と音声通話を行っています。リアルな中国語会話がどこまで文字起こしできるのか? 妻たちの日常会話を録音して文字起こししてみました。おそらく中国の東北なまりがあるうえに、かなりブロークンなので、難易度は高いでしょう。
録音したファイルを文字起こししたテキストを妻にみてもらいました。自分が家族と話している様子をテキスト化されるのは、結構恥ずかしいようで、苦笑いをしながら眺めていました。そして「さすがに日本のメーカーのAIだからなのか? あまり中国語は得意ではないのかも」と言い出したのです。
妻と実家との音声会話は、筆者が近くで話している妻の音声を録音したので、スピーカーモードになっているとはいえ、相手側の声が小さく、妻のひとり言のようになっている部分もありました。そのためか、妻が指摘するように、さほど中国がうまくない私の目から見ても、日本語ほど上手にテキスト化されているようには感じませんでした。
妻は普段から、日本語の学習のため、中国語で話しかけた言葉をテキスト化し、さらに日本語や英語に翻訳する中国のアプリを使用しています。それに比べると「日本語の認識能力は高いけれど、中国語の精度はいまひとつ」といいます。単純に中国語ベースで開発されたアプリと日本語ベースで開発されたアプリの違いなら仕方ない気もしますが、AIの開発競争で中国語が強い力を持っているのかもしれません。
「文字起こしサービス」の無料お試しキャンペーンのサイトでは日本語以外の言語の文字起こしもお試しできるので、興味のある方は、ぜひ試してみてはどうでしょうか。
録音したファイルを文字起こししたテキストを妻にみてもらいました。自分が家族と話している様子をテキスト化されるのは、結構恥ずかしいようで、苦笑いをしながら眺めていました。そして「さすがに日本のメーカーのAIだからなのか? あまり中国語は得意ではないのかも」と言い出したのです。
妻と実家との音声会話は、筆者が近くで話している妻の音声を録音したので、スピーカーモードになっているとはいえ、相手側の声が小さく、妻のひとり言のようになっている部分もありました。そのためか、妻が指摘するように、さほど中国がうまくない私の目から見ても、日本語ほど上手にテキスト化されているようには感じませんでした。
妻は普段から、日本語の学習のため、中国語で話しかけた言葉をテキスト化し、さらに日本語や英語に翻訳する中国のアプリを使用しています。それに比べると「日本語の認識能力は高いけれど、中国語の精度はいまひとつ」といいます。単純に中国語ベースで開発されたアプリと日本語ベースで開発されたアプリの違いなら仕方ない気もしますが、AIの開発競争で中国語が強い力を持っているのかもしれません。
「文字起こしサービス」の無料お試しキャンペーンのサイトでは日本語以外の言語の文字起こしもお試しできるので、興味のある方は、ぜひ試してみてはどうでしょうか。
電話での通話をそのままマイクで録音したので、妻の声が大きく、相手側の声が小さくなってしまったようです
まったく知らない言語もテキスト化できれば、なんとかなる?
日本人なら、誰でも少しは習ったことのある英語や、漢字をある程度共用している中国語などは、取りつく島が多少あるかもしれません。しかし、何語かくらいはわかる程度の言語の音声からは、情報をまったく取り出せない状況もあります。
そんなときにもオートメモ Sなら、なんとかテキスト化は可能。そのテキストをパソコンなどに取り込み、テキストの翻訳サービスなどを使用すれば、まったく知らない言語でも意思の疎通程度はできるでしょう。そういう意味ではオートメモ Sは本当に便利なツールです。
ただし、気を付けておきたいのは、リアルタイムな文字起こし機能はないこと。録音したファイルをWi-Fiでクラウドにアップ、1時間ほどの音声データが20分ほどでテキストデータ化されます。そのためリアルタイムでの翻訳機としては、同じソースネクストの「ポケトーク」などのほうが便利だと思います。
そんなときにもオートメモ Sなら、なんとかテキスト化は可能。そのテキストをパソコンなどに取り込み、テキストの翻訳サービスなどを使用すれば、まったく知らない言語でも意思の疎通程度はできるでしょう。そういう意味ではオートメモ Sは本当に便利なツールです。
ただし、気を付けておきたいのは、リアルタイムな文字起こし機能はないこと。録音したファイルをWi-Fiでクラウドにアップ、1時間ほどの音声データが20分ほどでテキストデータ化されます。そのためリアルタイムでの翻訳機としては、同じソースネクストの「ポケトーク」などのほうが便利だと思います。
まったく知らない言語でも、何語かさえわかればテキスト化できるのが、とてもおもしろい。字幕のない動画などから音声をテキスト化するのもおもしろいでしょう
「完璧」ではなく「実用」を求めるならお勧め
話すスピードによっても異なりますが、1時間のインタビューで話す言葉を文字数にすると、日本語で2万字程度になるといわれているそうです。2時間だと約4万字。これに対して一般的な社会人が1分間で読める文字数は約600字といわれており、普段から文字を読み慣れている方なら約1000文字だと言われています。
つまり、4万字なら普通の社会人で約66分、文字を読み慣れている方なら約40分で読めます。しかも音声データと違って、テキストをスクロールして簡単に重要な部分を再確認できますし、文字検索なども利用できるわけです。
ただし、音声データから文字起こしを行うには、慣れた人で1時間分を起こすのに約4時間、初心者なら約6時間近く掛かるといわれており、時間もコストも掛かるわけです。
しかしオートメモ Sを使えば、人が行うよりも精度が落ちるものの、約20分で完成。しかも、外注や人件費に比べるとコストも圧倒的に安いわけです。
筆者は当初、インタビュー記事の文字起こしを省力化するために導入を考えたのですが、実際に使っているうちに、ちょっと重要な打ち合わせは録音してテキスト化するようにしています。必要なときに読み直すと、細かくテキスト化はされていないクライアントの希望などを再認識したり、意思疎通の齟齬を減らしたりする効果が得られています。
ちなみに筆者は過去の記事「「音声入力」と「ミニキーボード」で、子どもを抱いたままの書類作成が可能に」でGoogle ドキュメントの音声入力を絶賛しています。しかし、インタビューのように音声入力機器が脇役となり、話が人間同士でどんどん進むタイプのシチュエーションにはGoogle ドキュメントはリアルタイムで文字起こしを行うためか、話についていけないことも多く、向いていないと感じています。
一方、音声入力で原稿を書くシーンでは筆者はいまもGoogle ドキュメントを使用しています。これはパソコンなどの処理速度に合わせて、文章に近い形式で話しかけて文章を入力するならGoogle ドキュメントのほうが向いていると感じているためです。ただし、インタビューの仕事では圧倒的にオートメモ Sが優秀なわけです。
議事録の作成はもちろん、インタビューや取材、クライアントとの打ち合わせが多い方は1台持っておいて損はないでしょう。非常におすすめです。
つまり、4万字なら普通の社会人で約66分、文字を読み慣れている方なら約40分で読めます。しかも音声データと違って、テキストをスクロールして簡単に重要な部分を再確認できますし、文字検索なども利用できるわけです。
ただし、音声データから文字起こしを行うには、慣れた人で1時間分を起こすのに約4時間、初心者なら約6時間近く掛かるといわれており、時間もコストも掛かるわけです。
しかしオートメモ Sを使えば、人が行うよりも精度が落ちるものの、約20分で完成。しかも、外注や人件費に比べるとコストも圧倒的に安いわけです。
筆者は当初、インタビュー記事の文字起こしを省力化するために導入を考えたのですが、実際に使っているうちに、ちょっと重要な打ち合わせは録音してテキスト化するようにしています。必要なときに読み直すと、細かくテキスト化はされていないクライアントの希望などを再認識したり、意思疎通の齟齬を減らしたりする効果が得られています。
ちなみに筆者は過去の記事「「音声入力」と「ミニキーボード」で、子どもを抱いたままの書類作成が可能に」でGoogle ドキュメントの音声入力を絶賛しています。しかし、インタビューのように音声入力機器が脇役となり、話が人間同士でどんどん進むタイプのシチュエーションにはGoogle ドキュメントはリアルタイムで文字起こしを行うためか、話についていけないことも多く、向いていないと感じています。
一方、音声入力で原稿を書くシーンでは筆者はいまもGoogle ドキュメントを使用しています。これはパソコンなどの処理速度に合わせて、文章に近い形式で話しかけて文章を入力するならGoogle ドキュメントのほうが向いていると感じているためです。ただし、インタビューの仕事では圧倒的にオートメモ Sが優秀なわけです。
議事録の作成はもちろん、インタビューや取材、クライアントとの打ち合わせが多い方は1台持っておいて損はないでしょう。非常におすすめです。
齋藤 千歳
フォトグラファー・ライター
北海道千歳市在住・千歳市生まれのフォトグラファー/ライター。キャンピングカーの「方丈号」から各種アウトドア、カメラ、レンズ、ガジェットに関する情報を発信したり、家族3人で北海道一周などしたりを楽しんでいる。