PUBLICATIONS

Distributed Watermarking for Cross-domain of Semantic Large Image Database

Le Danh Tai, Nguyen Kim Thang, Ta Minh Thanh EAI INISCOM 2020 - 6th EAI International Conference on Industrial Networks and Intelligent System https://iniscom2020.eai-conferences.org/accepted-papers/

Techinical: Distributed watermarking、Multiple Image Database 、Image sets

Bài báo này đề xuất một thuật toán thuỷ vân phân tán trên một tập dữ liệu ảnh lớn dùng trong các thuật toán học sâu. Chúng tôi phát hiện các tập ảnh trong tập dữ liệu ảnh có liên quan ngữ nghĩa với nhau để nhúng một phần thông tin bản quyền trong tập ảnh đó. Một phần dữ liệu của thông tin thuỷ vân sẽ được phân tán thành các ảnh (shadow) bởi thuật toán phân tán ảnh (n,n). Mỗi một shadow sẽ được nhúng vào miền dữ liệu tần số DCT-SVD của 1 ảnh trong tập ảnh ngữ nghĩa. Do mỗi một tập ảnh ngữ nghĩa này có nhiều ảnh nên chúng ta có thể kỳ vọng có được một phương pháp bền vững để bảo vệ bản quyền tập ảnh dữ liệu trước những tấn công xử lý ảnh.

Robust Content-Based Recommendation Distribution System with Gaussian Mixture Model

Nguyen Van Dat, Pham Van Toan, Ta Minh Thanh ICCCI 2020 : The 12th International Conference on Computational Collective Intelligence https://iccci.pwr.edu.pl/2020/

Techinical: Gaussian Mixture Model, Content based recommendation

Thuật toán gợi ý dựa trên nội dung là một phương pháp phổ biến trong các hệ thống gợi ý. Nó là một phương pháp mạnh mẽ và hiệu quả cho nhiều hệ thống gợi ý trên thế giới. Tuy nhiên độ chính xác của các phương pháp dựa trên content vẫn còn là một vấn đề khó giải quyết. Nó phụ thuộc vào cách biểu diễn sự tương đồng giữa các vector đặc trưng (gọi là các feature). Để giải quyết vấn đề này chúng tôi đề xuất một phương pháp gợi ý dựa trên Gausian Mixture Model để cải thiện độ chính xác và đưa ra các kết quả khả quan. So sánh thuật toán đề xuất của chúng tôi với một số mô hình phổ biến khác trên cùng một tập dữ liệu, độ chính xác của kết quả thử nghiệm không chỉ vượt trội so với hai mô hình khác mà còn đạt được thời gian phản hồi rất nhanh trong các ứng dụng thực tế.

Cross-domain using Composing of Selected DCT Coefficients Strategy with Quantization Tables for Reversible Data Hiding in JPEG image

Pham Quang Huy, Le Danh Tai, Ta Minh Thanh and Pham Van Toan The Fifth International Conference on Research in Intelligent and Computing in Engineering (RICE 2020) https://www.researchgate.net/publication/339913153_Cross-domain_using_Composing_of_Selected_DCT_Coefficients_Strategy_with_Quantization_Tables_for_Reversible_Data_Hiding_in_JPEG_image

Techinical: Reversible data hiding, JPEG image

Nghiên cứu thuỷ vân thuận nghịch là một thử thách lớn để cải thiện khả năng giấu tin, tính mềm dẻo của thuật toán và nâng cao chất lượng của ảnh sau khi nén. Trong bài báo này, chúng tôi đề xuất một thuật toán RDH (Reversible Data Hiding) sử dụng tổ hợp các hệ số DCT kết hợp với xử lý của bảng lượng tử trong ảnh JPEG. Để giảm thiểu ảnh hưởng của chất lượng ảnh sau nhúng thông tin, chúng tôi điều tra ảnh hưởng của các bảng lượng tử lên các hệ số DCT để xác định vị trí nhúng thông tin cho phù hợp. Kết quả thực nghiệm cho thấy đề xuất của chúng tôi có kết quả tốt hơn nhiều so với kết quả của các giải pháp trước đây cả về dung lượng nhúng thông tin và chất lượng ảnh sau khi nhúng.

Deep learning approach for singer classification on Vietnamese popular music

Pham Van Toan - Tran Ngo Quang Ngoc - Ta Minh Thanh SoICT 2019 - The 10th international symposium on information and communication technology https://dl.acm.org/citation.cfm?doid=3368926.3369700

Techinical: Speech Separation, Vocal Segmentation, Singer Classification, Deep Neural Network

Phân loại giọng hát của ca sĩ là một nhiệm vụ có ý nghĩa trong kỷ nguyên kỹ thuật số. Với một số lượng lớn các bài hát trên thị trường âm nhạc hiện nay, việc xác định một ca sĩ rất hữu ích cho việc truy xuất thông tin âm nhạc, đánh index tự động cho các bài hát thông qua đặc trưng, v.v. Trong bài báo này, chúng tôi đề xuất một phương pháp để xác định tên của ca sĩ tại Việt Nam. Chúng tôi sử dụng việc phát hiện phân đoạn giọng hát và tách giọng hát trong khâu tiền xử lý dữ liệu. Mục đích của các bước này là trích xuất giọng của ca sĩ từ âm thanh hỗn hợp. Để xây dựng một trình phân loại ca sĩ, chúng tôi đề xuất một kiến trúc mạng thần kinh làm việc với Mel Frequency Cepstral Coefficient (MFCC) như các tính năng đầu vào được trích xuất từ giọng hát.

Self Attention based for Recommendation System

Pham Hoang Anh SoICT 2019 - The 10th international symposium on information and communication technology https://soict.org/

Techinical: Self Attention, Recommendation System, Deep Neural Network

Thiết kế một mạng neuron dành cho bài toán Recommendation dựa trên Session của người dùng nhờ việc tận dụng khả năng của Transformer đối với việc xử lý chuỗi. Trong nghiên cứu, chúng tôi đã thay đổi và bổ sung một số thành phần vào Transformer để phù hợp nhất với bài toán Recommendation. Ngoài ra, chúng tôi kết hợp 2 Transformer riêng biệt để hướng tới 2 mục đích khác nhau đó là vừa lấy ra được mục đích chính của Session hiện tại, vừa ghi lại được những đặc tính cơ bản của chuỗi đó.

Building a Vietnamese speech synthesis system using Tacotron 2

Pham Huu Quang International workshop on Vietnamese Language and Speech Processing (VLSP 2019) http://vlsp.org.vn/

Techinical: Text-to-Speech, Vietnamese speech synthesis, Deep learning, Tacotron, Tacotron2, Signal Processing, Transfer learning, Fine-tuning

Xây dựng một hệ thống tồng hợp tiếng nói truyền thống thường đòi hỏi rất nhiều chuyên gia trong lĩnh vực âm học và xử lý ngôn ngữ để có thể đưa ra nhiều kỹ thuật cải tiến, thiết kế đặc biệt cho từng ngôn ngữ. Trong bài viết này, chúng tôi mô tả cách mà chúng tôi xây dựng một hệ thống tổng hợp tiếng nói cho tiếng Việt dựa trên các kỹ thuật Deep learning. Chúng tôi đã hoàn thành việc xây dựng hai hệ thống tổng hợp tiếng nói với một tập dữ liệu lớn(gồm 22 giờ dữ liệu huấn luyện, đạt độ tự nhiên là 3.47 trên 4.3) và tập dữ liệu nhỏ(gồm 45 phút dữ liệu huấn luyện, đạt độ tự nhiên là 4.13 trên 4.58) trong nhiệm vụ text-to-speech của VLSP 2019.

Automated Hate Speech Detection on Vietnamese Social Networks

Pham Huu Quang - Pham Hoang Anh - Nguyen Trung Son International workshop on Vietnamese Language and Speech Processing (VLSP 2019) http://vlsp.org.vn/

Techinical: Vietnamese Hate Speech Detection, Natural Language Processing, Text Mining, Supervised Learning, Social Networks, Feature engineering, Text Processing

Trên các trang mạng xã hội(SNSs) như Facebook, Twitter, "hate speech" được định nghĩa là nội dung thô lỗ, thiếu tôn trọng hoặc có khả năng khiến ai đó rời khỏi cuộc thảo luận hoặc cảm thấy khó chịu khi đọc chúng. Trong nhiệm vụ lần này, chúng tôi hướng đến giải quyết vấn đề phát hiện các nội dung "hate speech" trên SNS để hỗ trợ các cuộc hội thoại hiệu quả hơn. Chúng tôi đã đề xuất một phương pháp mới để giải quyết vấn đề này bằng mô hình phân loại đa lớp để phân loại nội dung thành 3 nhãn: HATE, OFFENSIVE và CLEAN. Với bộ dữ liệu tiếng Việt trong cuộc thi VLSP-SHARED Task, kết quả thử nghiệm của chúng tôi có vị trí đầu tiên trên bảng xếp hạng cuối cùng.

Simultaneous convolutional neural network for highly efficient image steganography

Pham Van Toan - Hoang Dinh Thoi - Do Hoang Thai Duong - Ta Minh Thanh 2019 19th International Symposium on Communications and Information Technologies (ISCIT) http://iscit2019.org

Techinical: Information Security, Image Steganography, Secure Data Transmission, Deep Convolutional Neural Network

Trong bài báo này, công việc của chúng tôi tập trung giải quyết bài toán giấu tin hình ảnh với các mô hình Deep Learning. Các công việc chính là ẩn một hình ảnh (hình ảnh bí mật) bên trong một hình ảnh khác có cùng kích thước (ảnh cover). Thông qua các thử nghiệm của mình chúng tôi đã chứng minh được phương pháp này mang lại hiệu quả tối ưu. Các kết quả được so sánh với nghiên cứu của Google Research và Đại học Thượng Hải cho thấy phương pháp của chúng tôi đạt ưu điểm vượt trội hơn so với nghiên cứu tương tự

Deep Neural Networks based Invisible Steganography for Audio-into-Image Algorithm

Pham Huu Quang - Hoang Dinh Thoi - Pham Van Toan - Ta Minh Thanh 2019 IEEE 8th Global Conference on Consumer Electronics (GCCE 2019) http://www.ieee-gcce.org/2019

Techinical: Information Security, Steganography, Secure Data Transmission, Deep Convolutional Neural Network.

Steganography là ngành khoa học che giấu thông tin bí mật bên trong các dạng dữ liệu thông thường. Trong bài báo này, chúng tôi đề xuất việc sử dụng các kỹ thuật Deep learning để giấu đi âm thanh bí mật vào các hình ảnh kỹ thuật số. Các thí nghiệm được thực hiện với một bộ dữ liệu 24.000 ảnh và bộ dữ liệu âm thanh có tên VIVOS Corpus. Thông qua kết quả thử nghiệm, chúng tôi đã chứng minh được phương pháp của chúng tôi hiệu quả hơn các phương pháp truyền thống. Tính toàn vẹn của cả hình ảnh và âm thanh được bảo toàn gần như tuyệt đối trong khi độ dài của âm thanh ẩn được tăng lên đáng kể.

Proposal of feature matching technique using similarity featuresfiltering for image alignment

Pham Van Toan, Ta Minh Thanh, Nguyen Thanh Trung, Pham Thi Hong Anh Proceedings of the ISSAT International Conference on Data Science in Business, Finance and Industry (DSBFI 2019) https://www.researchgate.net/publication/332696653_Proposal_of_Feature_Matching_Technique_Using_Similarity_Features_Filtering_for_Image_Alignment

Techinical: Image alignment, similarity features filtering, feature matching, feature-extraction.

Nghiên cứu đề xuất phương pháp cải tiến cho bài toán feature-based alignment cho dạng dữ liệu dạng biểu mẫu, hóa đơn. Kết quả thực nghiệm cho thấy thuật toán đã cải thiện đáng kể độ chính xác của bài toán feature-based alignment

Improving Phonetic Recognition with Sequence-length Standardized MFCC Features and Deep Bi-directional LSTM

Pham Van Toan, Nguyen Thanh Hau and Ta Minh Thanh 2018 5th NAFOSTED Conference on Information and Computer Science (NICS) https://www.researchgate.net/publication/329705993_Improving_Phonetic_Recognition_with_Sequence-length_Standardized_MFCC_Features_and_Deep_Bi-Directional_LSTM

Techinical: Natural language processing, audio processing with MFCC, sequence length, recurrent neural network with tensorflow.

Phát hiện lỗi sai trong phát âm là một trong những bài toán quan trọng trong lĩnh vực nghiên cứu về ngôn ngữ. Trong bài báo hoa học này, chúng tôi sử dụng phương pháp Mel Frequency Cepstral Coefficients (MFCC) để trích chọn đặc trưng, sử dụng kiến trúc mạng Recurrent Neural Network kết hợp kĩ thuật sequence length. Với data từ tập dữ liệu TIMIT chúng tôi đã cài đặt và thử nghiệm nhiều mô hình với các kiến trúc khác nhau. Trong số các mô hình đó, kết quả tốt nhất được ghi nhận là 13.05 % PER (Phonemes Error Rate), thấp hơn so với kết quả tốt nhất ở thời điểm hiện tại khoảng 3.5%

Large scale fashion search system with deep learning and quantization indexing

Pham Van Toan, Hoang Dinh Thoi, Pham Hoang Anh, Nguyen Thanh Hau, Ta Minh Thanh Proceedings of the Ninth International Symposium on Information and Communication Technology. ACM, 2018. https://dl.acm.org/citation.cfm?id=3287964

Techinical: Object detection with SSD MobilenetV2, Triplet loss,Quantization indexing, Similarity learning, image retrieval.

Trong bài báo khoa học này, chúng tôi xây dựng một hệ thống tự động tìm kiếm các sản phẩm thời trang tương tự trong kho dữ liệu lớn dựa trên hình ảnh mà người dùng cung cấp. Đóng góp chính của nghiên cứu này là phương pháp Quantization Indexing - một phương pháp convert dữ liệu từ không gian vector số thực (numerical space) sang không gian văn bản (text space), từ đó việc tìm các sản phẩm thời trang tương tự có thể được tiến hành một cách dễ dàng với sự giúp đỡ của công cụ Elasticsearch

A Practical Solution to the ACM RecSys Challenge 2018

Pham Thi Hong Anh ACM RecSys challenge 2018 https://www.researchgate.net/publication/330304128_A_Practical_Solution_to_the_ACM_RecSys_Challenge_2018

Techinical: Recommendation with Colaborative Filtering and SVD, Matrix Factorization, Content based learning.

Với tập dataset được cung cấp bởi Spotify cho cuộc thi ACM RecSys challenge 2018. Bài báo trình bày về hướng giải quyết bài toán gợi ý các bài hát tiếp theo cho 10.000 Playlist trong tập challenge.

Deep learning ASR-based approach to non-native learner mispronunciation detection

Pham Van Toan - Ta Minh Thanh - Nguyen Thanh Hau The 2018 Vietnam joint Conference on Artificial Intelligence for Life (AI4Life-2018) https://ai4life.uet.vnu.edu.vn

Techinical: Speech Recognition, Mispronunciation Evaluation, Goodness of Pronunciation Estimation.

Trong các bài báo này chúng tôi đã thử một số mô hình học tập sâu như CNN, RNN và kết hợp chúng cho phân loại ngữ âm tiếng Nhật. Nghiên cứu được áp dụng trong Talky Bird - một ứng dụng di động phát hiện lỗi phát âm của người học tiếng Nhật

Aggregation of non linear features LASSO in real estate pricing

Pham Van Toan, Nguyen Hoang Huy Vietnam Mathematics and Applications 2016 http://www1.vnua.edu.vn/tapchi/Upload/9-2016-cntt.pdf

Techinical: Lasso Regression, Combine Features, Feature Extraction for Real Estate data.

Sử dụng phương pháp kết tập các thuộc tính hồi quy phi tuyến tính cải thiện hiệu năng của ứng dụng định giá bất động sản trên địa bàn quận Long Biên và quận Montreal. Phương pháp đạt được nhiều cải tiến so với các phương pháp cũ như Linear và SVM

Vietnamese Text Classification based on BoW and Keywords Extraction with Neural Network

Pham Van Toan, Ta Minh Thanh The 21st Asia Pacific Symposium on Intelligent and Evolutionary Systems Conference 2017 https://ieeexplore.ieee.org/document/8233559

Techinical: Bag of Word, Keywords Extraction, Neural Network, Text Classification.

Sử dụng phương pháp kết tập các keywords làm vecto đặc trưng và áp dụng với mạng nơ ron ứng dụng cho bài toán phân loại văn bản tiếng Việt. Theo thí nghiệm đánh giá, độ chính xác được báo cáo là 99,75%. Đây là kết quả tốt nhất tại thời điểm nghiên cứu so với các phương pháp ứng dụng trên cùng một tập dữ liệu văn bản tiếng Việt