論文

Deep learning approach for singer classification on Vietnamese popular music

Pham Van Toan - Tran Ngo Quang Ngoc - Ta Minh Thanh SoICT 2019 - The 10th international symposium on information and communication technology https://soict.org/

Techinical: Speech Separation, Vocal Segmentation, Singer Classification, Deep Neural Network

歌手の音声分類は、デジタル時代の重要な課題です。 現在の膨大な数の歌では、歌手を識別することは、音楽情報の検索、音楽プロパティのインデックス作成などに非常に役立ちます。 本論文では、ベトナムの人気のある音楽における歌手の名前を識別する方法を提案します。 プリプロセッシングステップとして、声節検出と歌声分離を使用します。 これらの手順の目的は、混合音から歌手の声を抽出することです。 歌手分類システムを構築するために、ボーカルから抽出された入力特徴としてMel Frequency Cepstral Coefficient (MFCC)で動作するニューラルネットワークアーキテクチャを提案します。

Self Attention based for Recommendation System

Pham Hoang Anh SoICT 2019 - The 10th international symposium on information and communication technology https://soict.org/

Techinical: Self Attention, Recommendation System, Deep Neural Network

本論文はTransformerの文字列操作機能を利用して、セッションベースのレコメンデーションシステムのためのニューラルネットワークアーキテクチャを提案します。この調査では、レコメンデーションシステムに最適なコンポーネントをいくつか変更し、Transformerに追加しました。また、個別にトレーニングされた2つのTransformerコンポーネントを組み合わせたモデルも調査します。各コンポーネントには独自の仕事があります。 最初のコンポーネントはユーザーのシーケンシャル動作の特徴を抽出し、もう1つのコンポーネントは現在のセッションの主な目的をキャプチャします。

Building a Vietnamese speech synthesis system using Tacotron 2

Pham Huu Quang International workshop on Vietnamese Language and Speech Processing (VLSP 2019) http://vlsp.org.vn/

Techinical: Text-to-Speech, Vietnamese speech synthesis, Deep learning, Tacotron, Tacotron2, Signal Processing, Transfer learning, Fine-tuning

従来の音声合成システムを構築するには、多くの場合、音響学と音声処理の分野の多くの専門家が必要です。 本論文では、ディープラーニング技術に基づいたベトナム語音声合成システム(TTS)の構築方法について説明します。 VLSP 2019の音声合成タスクで、BigCorpus(MOS 3.32)とSmallCorpus(MOS 4.11)を使用して、2つの音声合成システムの構築を完了しました。

Automated Hate Speech Detection on Vietnamese Social Networks

Pham Huu Quang - Pham Hoang Anh - Nguyen Trung Son International workshop on Vietnamese Language and Speech Processing (VLSP 2019) http://vlsp.org.vn/

Techinical: Vietnamese Hate Speech Detection, Natural Language Processing, Text Mining, Supervised Learning, Social Networks, Feature engineering, Text Processing

"FacebookやTwitterなどのソーシャルネットワークサイト(SNS)では、オンラインでの虐待や嫌がらせの脅威により、多くのSNSユーザーは自分自身を表現したり、さまざまな意見を出したりしなくなって来ます。この問題は簡単に対処することができません。例えば、問題を解決するために、SNSは「クリーンでない」コンテンツを作る一部のコミュニティでユーザーの投稿/コメント機能を制限または完全にシャットダウンするという共通の行為を行っています。しかし、これはこれで同じコミュニティによって作成された「クリーン」なコンテンツもブロッキングされるという問題が発生します。 本論文では、SNSでのヘイトコンテンツを検出する問題を解決し、SNSでのより効果的な会話をサポートします。このタスクでは、ヘイトコンテンツは失礼なコンテンツ、または他の人が読むときに不快に感じる可能性があるコンテンツとして定義されます。 コンテンツを3つのラベル(HATE、OFFENSIVE、CLEAN)に分類するマルチクラス分類モデルによってこの問題を解決する新しい方法を提案しました。ベトナムのコンテストVLSP-SHARED Taskのデータセットにより、実験結果はコンテストで一位を取りました。"

Simultaneous convolutional neural network for highly efficient image steganography

Pham Van Toan - Hoang Dinh Thoi - Do Hoang Thai Duong - Ta Minh Thanh 2019 19th International Symposium on Communications and Information Technologies (ISCIT) http://iscit2019.org

Techinical: Information Security, Image Steganography, Secure Data Transmission, Deep Convolutional Neural Network

本論文では、ディープラーニングモデルで画像ステガノグラフィの問題を解決することに集中しました。主な仕事は、同じサイズの別の画像(カバー写真)の中に画像(秘密の画像)を隠すことです。私達のテストによると、この方法が最適性能を提供することが証明されました。 グーグルリサーチと上海大学の研究と比較した結果は、この方法が類似の研究より優れた利点を持つことを示した。

Deep Neural Networks based Invisible Steganography for Audio-into-Image Algorithm

Pham Huu Quang - Hoang Dinh Thoi - Pham Van Toan - Ta Minh Thanh 2019 IEEE 8th Global Conference on Consumer Electronics (GCCE 2019) http://www.ieee-gcce.org/2019

Techinical: Information Security, Steganography, Secure Data Transmission, Deep Convolutional Neural Network.

本論文では、秘密の音をデジタル画像に隠すためにディープラーニング技術を使用することを提案します。実験は24,000画像のデータセットとVIVOS Corpusという音声データセットで行われました。 テスト結果によると、私達の方法が従来の方法より効果的であることを証明されました。隠された音の長さが大幅に増加しながら、画像と音の両方の整合性はほぼ完璧に維持されています。

Proposal of feature matching technique using similarity featuresfiltering for image alignment

Pham Van Toan, Ta Minh Thanh, Nguyen Thanh Trung, Pham Thi Hong Anh Proceedings of the ISSAT International Conference on Data Science in Business, Finance and Industry (DSBFI 2019) https://www.researchgate.net/publication/332696653_Proposal_of_Feature_Matching_Technique_Using_Similarity_Features_Filtering_for_Image_Alignment

Techinical: Image alignment, similarity features filtering, feature matching, feature-extraction.

本論文では、画像アライメントの時の精度を改善するために、類似性特徴フィルタリングと呼ばれる特徴マッチング法と、請求書などの画像の前処理に適用するいくつかの新しい技術を提案しています。 実験結果は、提案した方法が他の特徴ベースの方法よりも良い結果を達成できることを示しました。

Improving Phonetic Recognition with Sequence-length Standardized MFCC Features and Deep Bi-directional LSTM

Pham Van Toan, Nguyen Thanh Hau and Ta Minh Thanh 2018 5th NAFOSTED Conference on Information and Computer Science (NICS) https://www.researchgate.net/publication/329705993_Improving_Phonetic_Recognition_with_Sequence-length_Standardized_MFCC_Features_and_Deep_Bi-Directional_LSTM

Techinical: Natural language processing, audio processing with MFCC, sequence length, recurrent neural network with tensorflow.

本論文では、音声認識の問題に取り組むためにディープラーニングを用いた新しいアプローチを提案しています。 具体的には、音声の音響特徴を提示し、音声分類に異なるRNNアーキテクチャを使用するための MFCC法(Mel Frequency Cepstral Coefficients) についてです。 そのうえ、よく知られているTIMITデータセットは、トレーニングフェーズと評価フェーズの両方で使用されています。 現在、双方向LSTMを使用することで最小のエラー率(13.05%PER)を達成しており、TIMITにおいて最良の結果となりました。 TIMITデータセットにおいて、既存の最高の結果と比較しても約3.5%の減少を達成しました。

Large scale fashion search system with deep learning and quantization indexing

Pham Van Toan, Hoang Dinh Thoi, Pham Hoang Anh, Nguyen Thanh Hau, Ta Minh Thanh Proceedings of the Ninth International Symposium on Information and Communication Technology. ACM, 2018. https://dl.acm.org/citation.cfm?id=3287964

Techinical: Object detection with SSD MobilenetV2, Triplet loss,Quantization indexing, Similarity learning, image retrieval.

本論文では、服装を自動的に認識し、類似した服装アイテムを即時的におすすめする、検索システムを提案しています。 私たちのシステムの情報検索が、大規模な実験を通して既存の全ての検索システムよりも高速であることが検証されています。

A Practical Solution to the ACM RecSys Challenge 2018

Pham Thi Hong Anh ACM RecSys challenge 2018 https://www.researchgate.net/publication/330304128_A_Practical_Solution_to_the_ACM_RecSys_Challenge_2018

Techinical: Recommendation with Colaborative Filtering and SVD, Matrix Factorization, Content based learning.

ACM RecSys チャレンジ 2018において、自動的にユーザの好みにあった曲をおすすめできるシステムを構築することを目指しました。Spotifyによって提供されたデータセットを用いながら、異なるアルゴリズムとテクニックを採用することで、私たちのシステムは、本チャレンジにおいて、ベスト15の結果を獲得しました。

Deep learning ASR-based approach to non-native learner mispronunciation detection

Pham Van Toan - Ta Minh Thanh - Nguyen Thanh Hau The 2018 Vietnam joint Conference on Artificial Intelligence for Life (AI4Life-2018) https://ai4life.uet.vnu.edu.vn

Techinical: Speech Recognition, Mispronunciation Evaluation, Goodness of Pronunciation Estimation.

本論文では、いくつかのCNNやRNNのようなディープラーニングモデルを試して、音声分類のためのそれらを組み合わせしました。この研究は、日本語学習者の発音の誤りを検出出来るモバイルアプリケーションTalky Birdに適用されています。

Aggregation of non linear features LASSO in real estate pricing

Pham Van Toan, Nguyen Hoang Huy Vietnam Mathematics and Applications 2016 http://www1.vnua.edu.vn/tapchi/Upload/9-2016-cntt.pdf

Techinical: Lasso Regression, Combine Features, Feature Extraction for Real Estate data.

本論文では、ベトナムのLong Bien地区とカナダのモントリオール地区における不動産価格を、予測する新しい方法を提案しています。実験結果によると、提案した方法が、従来の線形回帰アルゴリズムや、サポートベクターマシン(SVM)よりも、正確な不動産価格の予測を生成できることを証明しています。

Vietnamese Text Classification based on BoW and Keywords Extraction with Neural Network

Pham Van Toan, Ta Minh Thanh The 21st Asia Pacific Symposium on Intelligent and Evolutionary Systems Conference 2017 https://ieeexplore.ieee.org/document/8233559

Techinical: Bag of Word, Keywords Extraction, Neural Network, Text Classification.

本論文では、ベトナムのニュースを分類するために、Bag of Words(BoW)、キーワード抽出手法、およびニューラルネットワークアプローチを採用することを提案してます。テキスト分類は、自然言語処理の分野における主要なアプリケーションの一つになっており、 現在までに、この問題に対処するための多くのアプローチが提案されています。しかし、それらのアプローチのほとんどは英語で書かれた文書にのみの対応可能でした。また、今回の実験的評価によると、その精度は99.75%であると報告されています。