PUBLICATIONS

Deep learning approach for singer classification on Vietnamese popular music

Pham Van Toan - Tran Ngo Quang Ngoc - Ta Minh Thanh SoICT 2019 - The 10th international symposium on information and communication technology https://soict.org/

Techinical: Speech Separation, Vocal Segmentation, Singer Classification, Deep Neural Network

Phân loại giọng hát của ca sĩ là một nhiệm vụ có ý nghĩa trong kỷ nguyên kỹ thuật số. Với một số lượng lớn các bài hát trên thị trường âm nhạc hiện nay, việc xác định một ca sĩ rất hữu ích cho việc truy xuất thông tin âm nhạc, đánh index tự động cho các bài hát thông qua đặc trưng, v.v. Trong bài báo này, chúng tôi đề xuất một phương pháp để xác định tên của ca sĩ tại Việt Nam. Chúng tôi sử dụng việc phát hiện phân đoạn giọng hát và tách giọng hát trong khâu tiền xử lý dữ liệu. Mục đích của các bước này là trích xuất giọng của ca sĩ từ âm thanh hỗn hợp. Để xây dựng một trình phân loại ca sĩ, chúng tôi đề xuất một kiến trúc mạng thần kinh làm việc với Mel Frequency Cepstral Coefficient (MFCC) như các tính năng đầu vào được trích xuất từ giọng hát.

Self Attention based for Recommendation System

Pham Hoang Anh SoICT 2019 - The 10th international symposium on information and communication technology https://soict.org/

Techinical: Self Attention, Recommendation System, Deep Neural Network

Thiết kế một mạng neuron dành cho bài toán Recommendation dựa trên Session của người dùng nhờ việc tận dụng khả năng của Transformer đối với việc xử lý chuỗi. Trong nghiên cứu, chúng tôi đã thay đổi và bổ sung một số thành phần vào Transformer để phù hợp nhất với bài toán Recommendation. Ngoài ra, chúng tôi kết hợp 2 Transformer riêng biệt để hướng tới 2 mục đích khác nhau đó là vừa lấy ra được mục đích chính của Session hiện tại, vừa ghi lại được những đặc tính cơ bản của chuỗi đó.

Building a Vietnamese speech synthesis system using Tacotron 2

Pham Huu Quang International workshop on Vietnamese Language and Speech Processing (VLSP 2019) http://vlsp.org.vn/

Techinical: Text-to-Speech, Vietnamese speech synthesis, Deep learning, Tacotron, Tacotron2, Signal Processing, Transfer learning, Fine-tuning

Xây dựng một hệ thống tồng hợp tiếng nói truyền thống thường đòi hỏi rất nhiều chuyên gia trong lĩnh vực âm học và xử lý ngôn ngữ để có thể đưa ra nhiều kỹ thuật cải tiến, thiết kế đặc biệt cho từng ngôn ngữ. Trong bài viết này, chúng tôi mô tả cách mà chúng tôi xây dựng một hệ thống tổng hợp tiếng nói cho tiếng Việt dựa trên các kỹ thuật Deep learning. Chúng tôi đã hoàn thành việc xây dựng hai hệ thống tổng hợp tiếng nói với một tập dữ liệu lớn(gồm 22 giờ dữ liệu huấn luyện, đạt độ tự nhiên là 3.47 trên 4.3) và tập dữ liệu nhỏ(gồm 45 phút dữ liệu huấn luyện, đạt độ tự nhiên là 4.13 trên 4.58) trong nhiệm vụ text-to-speech của VLSP 2019.

Automated Hate Speech Detection on Vietnamese Social Networks

Pham Huu Quang - Pham Hoang Anh - Nguyen Trung Son International workshop on Vietnamese Language and Speech Processing (VLSP 2019) http://vlsp.org.vn/

Techinical: Vietnamese Hate Speech Detection, Natural Language Processing, Text Mining, Supervised Learning, Social Networks, Feature engineering, Text Processing

Trên các trang mạng xã hội(SNSs) như Facebook, Twitter, "hate speech" được định nghĩa là nội dung thô lỗ, thiếu tôn trọng hoặc có khả năng khiến ai đó rời khỏi cuộc thảo luận hoặc cảm thấy khó chịu khi đọc chúng. Trong nhiệm vụ lần này, chúng tôi hướng đến giải quyết vấn đề phát hiện các nội dung "hate speech" trên SNS để hỗ trợ các cuộc hội thoại hiệu quả hơn. Chúng tôi đã đề xuất một phương pháp mới để giải quyết vấn đề này bằng mô hình phân loại đa lớp để phân loại nội dung thành 3 nhãn: HATE, OFFENSIVE và CLEAN. Với bộ dữ liệu tiếng Việt trong cuộc thi VLSP-SHARED Task, kết quả thử nghiệm của chúng tôi có vị trí đầu tiên trên bảng xếp hạng cuối cùng.

Simultaneous convolutional neural network for highly efficient image steganography

Pham Van Toan - Hoang Dinh Thoi - Do Hoang Thai Duong - Ta Minh Thanh 2019 19th International Symposium on Communications and Information Technologies (ISCIT) http://iscit2019.org

Techinical: Information Security, Image Steganography, Secure Data Transmission, Deep Convolutional Neural Network

Trong bài báo này, công việc của chúng tôi tập trung giải quyết bài toán giấu tin hình ảnh với các mô hình Deep Learning. Các công việc chính là ẩn một hình ảnh (hình ảnh bí mật) bên trong một hình ảnh khác có cùng kích thước (ảnh cover). Thông qua các thử nghiệm của mình chúng tôi đã chứng minh được phương pháp này mang lại hiệu quả tối ưu. Các kết quả được so sánh với nghiên cứu của Google Research và Đại học Thượng Hải cho thấy phương pháp của chúng tôi đạt ưu điểm vượt trội hơn so với nghiên cứu tương tự

Deep Neural Networks based Invisible Steganography for Audio-into-Image Algorithm

Pham Huu Quang - Hoang Dinh Thoi - Pham Van Toan - Ta Minh Thanh 2019 IEEE 8th Global Conference on Consumer Electronics (GCCE 2019) http://www.ieee-gcce.org/2019

Techinical: Information Security, Steganography, Secure Data Transmission, Deep Convolutional Neural Network.

Steganography là ngành khoa học che giấu thông tin bí mật bên trong các dạng dữ liệu thông thường. Trong bài báo này, chúng tôi đề xuất việc sử dụng các kỹ thuật Deep learning để giấu đi âm thanh bí mật vào các hình ảnh kỹ thuật số. Các thí nghiệm được thực hiện với một bộ dữ liệu 24.000 ảnh và bộ dữ liệu âm thanh có tên VIVOS Corpus. Thông qua kết quả thử nghiệm, chúng tôi đã chứng minh được phương pháp của chúng tôi hiệu quả hơn các phương pháp truyền thống. Tính toàn vẹn của cả hình ảnh và âm thanh được bảo toàn gần như tuyệt đối trong khi độ dài của âm thanh ẩn được tăng lên đáng kể.

Proposal of feature matching technique using similarity featuresfiltering for image alignment

Pham Van Toan, Ta Minh Thanh, Nguyen Thanh Trung, Pham Thi Hong Anh Proceedings of the ISSAT International Conference on Data Science in Business, Finance and Industry (DSBFI 2019) https://www.researchgate.net/publication/332696653_Proposal_of_Feature_Matching_Technique_Using_Similarity_Features_Filtering_for_Image_Alignment

Techinical: Image alignment, similarity features filtering, feature matching, feature-extraction.

Nghiên cứu đề xuất phương pháp cải tiến cho bài toán feature-based alignment cho dạng dữ liệu dạng biểu mẫu, hóa đơn. Kết quả thực nghiệm cho thấy thuật toán đã cải thiện đáng kể độ chính xác của bài toán feature-based alignment

Improving Phonetic Recognition with Sequence-length Standardized MFCC Features and Deep Bi-directional LSTM

Pham Van Toan, Nguyen Thanh Hau and Ta Minh Thanh 2018 5th NAFOSTED Conference on Information and Computer Science (NICS) https://www.researchgate.net/publication/329705993_Improving_Phonetic_Recognition_with_Sequence-length_Standardized_MFCC_Features_and_Deep_Bi-Directional_LSTM

Techinical: Natural language processing, audio processing with MFCC, sequence length, recurrent neural network with tensorflow.

Phát hiện lỗi sai trong phát âm là một trong những bài toán quan trọng trong lĩnh vực nghiên cứu về ngôn ngữ. Trong bài báo hoa học này, chúng tôi sử dụng phương pháp Mel Frequency Cepstral Coefficients (MFCC) để trích chọn đặc trưng, sử dụng kiến trúc mạng Recurrent Neural Network kết hợp kĩ thuật sequence length. Với data từ tập dữ liệu TIMIT chúng tôi đã cài đặt và thử nghiệm nhiều mô hình với các kiến trúc khác nhau. Trong số các mô hình đó, kết quả tốt nhất được ghi nhận là 13.05 % PER (Phonemes Error Rate), thấp hơn so với kết quả tốt nhất ở thời điểm hiện tại khoảng 3.5%

Large scale fashion search system with deep learning and quantization indexing

Pham Van Toan, Hoang Dinh Thoi, Pham Hoang Anh, Nguyen Thanh Hau, Ta Minh Thanh Proceedings of the Ninth International Symposium on Information and Communication Technology. ACM, 2018. https://dl.acm.org/citation.cfm?id=3287964

Techinical: Object detection with SSD MobilenetV2, Triplet loss,Quantization indexing, Similarity learning, image retrieval.

Trong bài báo khoa học này, chúng tôi xây dựng một hệ thống tự động tìm kiếm các sản phẩm thời trang tương tự trong kho dữ liệu lớn dựa trên hình ảnh mà người dùng cung cấp. Đóng góp chính của nghiên cứu này là phương pháp Quantization Indexing - một phương pháp convert dữ liệu từ không gian vector số thực (numerical space) sang không gian văn bản (text space), từ đó việc tìm các sản phẩm thời trang tương tự có thể được tiến hành một cách dễ dàng với sự giúp đỡ của công cụ Elasticsearch

A Practical Solution to the ACM RecSys Challenge 2018

Pham Thi Hong Anh ACM RecSys challenge 2018 https://www.researchgate.net/publication/330304128_A_Practical_Solution_to_the_ACM_RecSys_Challenge_2018

Techinical: Recommendation with Colaborative Filtering and SVD, Matrix Factorization, Content based learning.

Với tập dataset được cung cấp bởi Spotify cho cuộc thi ACM RecSys challenge 2018. Bài báo trình bày về hướng giải quyết bài toán gợi ý các bài hát tiếp theo cho 10.000 Playlist trong tập challenge.

Deep learning ASR-based approach to non-native learner mispronunciation detection

Pham Van Toan - Ta Minh Thanh - Nguyen Thanh Hau The 2018 Vietnam joint Conference on Artificial Intelligence for Life (AI4Life-2018) https://ai4life.uet.vnu.edu.vn

Techinical: Speech Recognition, Mispronunciation Evaluation, Goodness of Pronunciation Estimation.

Trong các bài báo này chúng tôi đã thử một số mô hình học tập sâu như CNN, RNN và kết hợp chúng cho phân loại ngữ âm tiếng Nhật. Nghiên cứu được áp dụng trong Talky Bird - một ứng dụng di động phát hiện lỗi phát âm của người học tiếng Nhật

Aggregation of non linear features LASSO in real estate pricing

Pham Van Toan, Nguyen Hoang Huy Vietnam Mathematics and Applications 2016 http://www1.vnua.edu.vn/tapchi/Upload/9-2016-cntt.pdf

Techinical: Lasso Regression, Combine Features, Feature Extraction for Real Estate data.

Sử dụng phương pháp kết tập các thuộc tính hồi quy phi tuyến tính cải thiện hiệu năng của ứng dụng định giá bất động sản trên địa bàn quận Long Biên và quận Montreal. Phương pháp đạt được nhiều cải tiến so với các phương pháp cũ như Linear và SVM

Vietnamese Text Classification based on BoW and Keywords Extraction with Neural Network

Pham Van Toan, Ta Minh Thanh The 21st Asia Pacific Symposium on Intelligent and Evolutionary Systems Conference 2017 https://ieeexplore.ieee.org/document/8233559

Techinical: Bag of Word, Keywords Extraction, Neural Network, Text Classification.

Sử dụng phương pháp kết tập các keywords làm vecto đặc trưng và áp dụng với mạng nơ ron ứng dụng cho bài toán phân loại văn bản tiếng Việt. Theo thí nghiệm đánh giá, độ chính xác được báo cáo là 99,75%. Đây là kết quả tốt nhất tại thời điểm nghiên cứu so với các phương pháp ứng dụng trên cùng một tập dữ liệu văn bản tiếng Việt