BERT là gì? Tìm hiểu BERT trong tìm kiếm

Về cơ bản hiện nay Google có 3 nhóm giải thuật chính gồm:

  • Nhóm giải thuật liên quan về Nội dung (Unique content).
  • Nhóm giải thuật liên quan về Tối ưu trên trang (On-page optimization).
  • Nhóm giải thuật liên quan về Liên kết (Choice of links).

Bert có thể xem thuộc nhóm liên quan về nội dung.

Trong bản cập nhật tìm kiếm lớn mới đây nhất, Google đã nói rằng sự bao gồm thuật toán BERT sẽ giúp công cụ tìm kiếm này hiểu rõ hơn về ý định đằng sau các truy vấn tìm kiếm của người dùng, có nghĩa là sẽ hiển thị các kết quả phù hợp hơn.

Google cũng cho biết BERT sẽ tác động đến 10% các tìm kiếm, và nó có thể có một số tác động đến khả năng hiển thị và lưu lượng truy cập tự nhiên (organic traffic) đối với thương hiệu của bạn – điều này bạn có thể không dễ dàng nhận thấy.

Bài viết này, STG sẽ cung cấp cho bạn khái niệm BERT là gì, cách hoạt động cũng như vai trò của BERT trong tìm kiếm. Cùng tìm hiểu nhé.

Bài gốc: https://searchengineland.com/faq-all-about-the-bert-algorithm-in-google-search-324193

BERT Và Những Gì Bạn Cần Biết

BERT xuất hiện trong công cụ tìm kiếm khi nào?

BERT bắt đầu được đưa ra trong hệ thống tìm kiếm Google vào tuần của ngày 21 tháng 10 năm 2019, dành cho các truy vấn bằng tiếng Anh, bao gồm cả các trích đoạn nổi bật (featured snippets).

Danny Sullivan của Google đã cho biết: “Thuật toán này sẽ mở rộng ra trên tất cả các ngôn ngữ mà Google cung cấp, nhưng chưa có mốc thời gian nào được đặt ra”. Một mô hình BERT cũng đang được sử dụng để cải thiện các trích đoạn nổi bật (featured snippets) ở 20 quốc gia.

Vậy BERT là gì?

BERT, viết tắt của từ “Bidirectional Encoder Representations from Transformers”, là một kỹ thuật dựa trên Mạng thần kinh nhân tạo (Neural Network) để đào tạo trước quá trình xử lý ngôn ngữ tự nhiên. Nói một cách dễ hiểu, nó có thể được sử dụng để giúp Google phân biệt rõ hơn ngữ cảnh của các từ trong truy vấn tìm kiếm.

Ví dụ, trong các cụm từ “nine to five” (từ 9 giờ sáng đến 5 giờ chiều) và “a quarter to five” (5 giờ kém 15 phút), thì từ “to” có hai nghĩa khác nhau, sự khác nhau này con người có thể nhận biết rõ ràng nhưng đối với công cụ tìm kiếm thì lại ít hơn. BERT được thiết kế để phân biệt giữa các sắc thái như vậy để tạo điều kiện cho ra các kết quả phù hợp hơn.

Google đã cung cấp mã nguồn mở BERT vào tháng 11 năm 2018. Điều này có nghĩa bất kỳ ai cũng có thể sử dụng BERT đào tạo hệ thống xử lý ngôn ngữ của riêng họ để trả lời câu hỏi hoặc cho các nhiệm vụ khác.

Thế nào là một mạng lưới thần kinh nhân tạo (Neural Network)?

Các thuật toán của Neural Network được thiết kế để nhận dạng các mẫu dữ liệu. Phân loại nội dung hình ảnh, nhận dạng chữ viết tay và thậm chí dự đoán xu hướng trong thị trường tài chính là các ứng dụng phổ biến của các mạng lưới thần kinh vào cuộc sống thực – không đề cập đến các ứng dụng cho tìm kiếm như mô hình nhấp chuột.

Ví dụ về Neural Network (Nguồn hình: Google)

Google đã đào tạo trên các tập dữ liệu để nhận dạng các mẫu. “BERT được đào tạo trước bằng cách sử dụng văn bản đơn giản của Wikipedia”, Google giải thích khi đưa ra mã nguồn mở của BERT.

Quá trình xử lý ngôn ngữ tự nhiên (natural language processing) là gì?

Quá trình xử lý ngôn ngữ tự nhiên (natural language processing – hay còn viết tắt là NLP) đề cập đến một nhánh của trí tuệ nhân tạo liên quan đến ngôn ngữ học, với mục đích cho phép máy tính hiểu cách con người giao tiếp tự nhiên.

Ví dụ về những tiến bộ mà NLP có thể thực hiện bao gồm các công cụ lắng nghe xã hội (social listening), chatbot và những đề xuất từ trên điện thoại thông minh của bạn.

Nói chung, NLP không phải là một tính năng mới cho các công cụ tìm kiếm. Tuy nhiên, BERT thể hiện sự tiến bộ trong NLP thông qua đào tạo hai chiều (điều này sẽ được nói rõ hơn dưới đây).

BERT hoạt động như thế nào?

Điểm đột phá của BERT nằm ở khả năng huấn luyện các mô hình ngôn ngữ (language model) dựa trên toàn bộ tập hợp các từ trong câu hoặc truy vấn (đào tạo hai chiều) thay vì cách đào tạo truyền thống về chuỗi từ được sắp xếp (từ trái sang phải hoặc kết hợp trái sang phải và phải sang trái). Nghĩa là, BERT cho phép mô hình ngôn ngữ học ngữ cảnh của từ đó dựa trên các từ xung quanh thay vì chỉ dựa vào từ ngay trước hoặc theo sau nó.

Google gọi BERT là “hai chiều chuyên sâu” vì các cách diễn đạt theo ngữ cảnh bắt đầu “từ tầng thấp nhất trong mạng lưới thần kinh”.

Ví dụ, từ “bank” sẽ có cùng một cách diễn giải tương tự nếu không có ngữ cảnh trong “bank account” (tài khoản ngân hàng) và “bank of the river”(bờ sông). Thay vào đó, các mô hình bối cảnh tạo ra cách biểu thị của mỗi từ dựa trên các từ khác trong câu. Ví dụ trong câu “I accessed the bank account” (Tôi đã truy cập vào tài khoản ngân hàng), một mô hình bối cảnh đơn hướng chỉ diễn giải từ “bank” dựa trên “I accessed the” mà không có “account”. Tuy nhiên, BERT sẽ diễn giải từ “bank” dựa trên cả ngữ cảnh trước và sau nó –  “I accessed the … account”.

Google đã chỉ ra một số ví dụ về cách ứng dụng BERT vào trong Tìm kiếm có thể ảnh hưởng đến kết quả. Trong một ví dụ, khi bạn tìm kiếm truy vấn “math practice books for adults” (các cuốn sách thực hành toán học dành cho người lớn), trước đây kết quả chỉ đưa ra một danh sách cho một cuốn sách dành cho các Lớp 6 – 8 ở đầu các kết quả tự nhiên. Với sự áp dụng của BERT, Google đưa ra một cuốn sách có tựa đề “Math for Grownups” trên đầu kết quả tìm kiếm.

Nguồn hình: Google.

Bạn có thể thấy trong kết quả hiển thị hiện tại của truy vấn này vẫn xếp hạng những cuốn sách lớp 6 – 8, nhưng có 2 cuốn sách đặc biệt nhắm tới đối tượng là người lớn được xếp lên trên, bao gồm cả trong đoạn trích nổi bật (featured snippet).

Sự thay đổi kết quả tìm kiếm ở trên phản ánh sự hiểu biết mới về truy vấn sử dụng BERT. Các nội dung dành cho lớp trẻ không bị phạt, thay vào đó, danh sách dành riêng cho người lớn được coi là phù hợp hơn với mục đích của người tìm kiếm.

Google có sử dụng BERT để hiểu tất cả các tìm kiếm không?

Không hoàn toàn. BERT sẽ tăng cường sự hiểu biết của Google của khoảng 1/10 tìm kiếm bằng tiếng Anh ở Hoa Kỳ.

“Đặc biệt đối với các truy vấn dài hơn, nhiều cuộc hội thoại hơn hoặc các tìm kiếm trong đó các giới từ như ‘for và “to” có ý nghĩa rất lớn, Công cụ Tìm kiếm sẽ có thể hiểu ngữ cảnh của các từ trong truy vấn của bạn”, Google đã viết điều này trong bài blog của mình .

Tuy nhiên, không phải tất cả các truy vấn là cuộc trò chuyện hoặc bao gồm giới từ. Các tìm kiếm về thương hiệu và các cụm từ ngắn hơn chỉ là hai ví dụ về các loại truy vấn có thể không cần đến quá trình xử lý ngôn ngữ tự nhiên BERT.

BERT sẽ tác động đến trích đoạn nổi bật (featured snippets) như thế nào?

Như chúng ta đã thấy trong ví dụ trên, BERT có thể ảnh hưởng đến kết quả xuất hiện trong các đoạn trích nổi bật khi được áp dụng.

Trong một ví dụ khác bên dưới, Google so sánh các đoạn trích đặc trưng cho truy vấn “parking on a hill with no curb” (Cấm đậu xe trên lề đường), và giải thích rằng, “Trước đây, một truy vấn như thế này sẽ gây nhầm lẫn cho các hệ thống của chúng tôi – chúng tôi đặt quá nhiều tầm quan trọng vào từ ‘lề đường’ và bỏ qua từ ‘không’, không hiểu mức độ quan trọng của từ đó để đáp ứng một cách thích hợp cho truy vấn này. Vì vậy, chúng tôi đã trả lại kết quả cho việc đỗ xe trên trên lề đường.”

Nguồn hình: Google.

Có gì khác nhau giữa BERT và RankBrain?

Một số khả năng của BERT quét có thể nghe giống như phương pháp trí tuệ nhân tạo đầu tiên của Google để hiểu các truy vấn, RankBrain. Nhưng đây là hai thuật toán riêng biệt có thể được sử dụng để tác động đến kết quả tìm kiếm.

Quản lý điều hành cấp cao tại công ty Perficient Digital, ông Eric Enge đã phát biểu: “Điều đầu tiên bạn cần hiểu về RankBrain là nó chạy song song với các thuật toán xếp hạng tìm kiếm tự nhiên thông thường, và nó được sử dụng để điều chỉnh các kết quả được tính toán bởi các thuật toán đó”.

“RankBrain điều chỉnh kết quả bằng cách xem xét truy vấn hiện tại và tìm các truy vấn trong quá khứ tương tự. Sau đó, nó xem xét hiệu suất của kết quả tìm kiếm cho các truy vấn lịch sử đó. Dựa trên những gì thấy được, RankBrain có thể điều chỉnh đầu ra kết quả của các thuật toán xếp hạng tìm kiếm tự nhiên thông thường”, theo ông Enge.

“RankBrain cũng giúp Google giải thích các truy vấn tìm kiếm để có thể hiển thị các kết quả không cần phải chứa chính xác các từ trong truy vấn. Trong ví dụ dưới đây, Google có thể tìm ra rằng người dùng đang tìm kiếm thông tin về Tháp Eiffel, mặc dù tên của tòa tháp không xuất hiện trong truy vấn “height of the landmark in paris” (chiều cao điểm mốc của Paris).”

Ông Enge cho biết, “BERT hoạt động theo một cách hoàn toàn khác. Các thuật toán truyền thống đã cố gắng nhìn vào nội dung trên một trang để hiểu nội dung của nó và những gì nó có thể liên quan. Tuy nhiên, thuật toán NLP truyền thống thường chỉ có thể xem nội dung trước một từ HOẶC nội dung sau một từ cho ngữ cảnh bổ sung để giúp nó hiểu rõ hơn ý nghĩa của từ đó. Yếu tố hai chiều của BERT tạo nên sự khác biệt. Như đã đề cập ở trên, BERT sẽ xem xét nội dung trước và sau một từ để thông báo sự hiểu biết về ý nghĩa và mức độ liên quan của từ đó. Đây là một cải tiến quan trọng trong xử lý ngôn ngữ tự nhiên vì giao tiếp của con người thường nhiều tầng nghĩa và phức tạp.”

Cả BERT và RankBrain đều được Google sử dụng để xử lý các truy vấn và nội dung trang web, nhằm mục đích hiểu rõ hơn về ý nghĩa của các từ ngữ.

BERT ở đây không phải để thay thế RankBrain. Google có thể sử dụng nhiều phương pháp để hiểu một truy vấn, nghĩa là BERT có thể được áp dụng riêng cùng với các thuật toán khác của Google, song song với RankBrain, có thể kết hợp cả hai hoặc không tùy thuộc vào thuật ngữ tìm kiếm.

BERT có ảnh hưởng đến những sản phẩm nào khác của Google?

Thông báo Google dành cho BERT đều chỉ liên quan đến Tìm kiếm (Google Search), tuy nhiên, cũng sẽ có một số tác động đến Trợ lý ảo (Google Assistant). Khi các truy vấn được thực hiện trên Google Assistant kích hoạt BERT để cung cấp các đoạn trích nổi bật hoặc các trang web từ Google Search, những kết quả đó có thể bị ảnh hưởng bởi BERT.

Google đã nói với Search Engine Land rằng BERT hiện chưa được sử dụng cho quảng cáo, nhưng nếu được tích hợp trong tương lai, nó có thể giúp giảm bớt một số trường hợp sai của biến thể gần chính xác với từ khóa làm phiền đến các nhà quảng cáo.

“Làm thế nào có thể tối ưu hóa thuật toán BERT?” Đây không phải là vấn đề cần nghĩ đến

Sullivan đã nói rằng, “Không có gì để tối ưu hóa với BERT, cũng như không có gì để bất cứ ai phải suy nghĩ lại. Về cơ bản, cách chúng tôi tìm kiếm để hiển thị những nội dung tuyệt vời vẫn không thay đổi”.

Lời khuyên của Google về việc xếp hạng tốt luôn luôn là: giúp người dùng ghi nhớ và tạo nội dung thỏa mãn mục đích tìm kiếm của họ. Vì BERT được thiết kế để diễn giải ý định đó, nên việc cung cấp cho người dùng những gì họ muốn vẫn tiếp tục là lời khuyên của Google.

“Tối ưu hóa” hiện tại có nghĩa là bạn nên tập trung nhiều hơn vào việc tạo ra những nội dung tốt, rõ ràng, thay vì thỏa hiệp giữa việc tạo nội dung cho người đọc của bạn và việc xây dựng những cụm từ cho các bộ máy.

Bạn muốn tìm hiểu sâu hơn về BERT?

Dưới đây là một số tài liệu bổ sung mà bạn có thể tìm đọc để có thể hiểu rõ hơn về BERT.

Nhận định của STG

Có thể nói rằng, BERT là một thuật toán quan trọng và sẽ ngày càng có vai trò mạnh mẽ hơn trong Google Search nói riêng cũng như các sản phẩm của Google nói chung.

Mặc dù không có gì để có thể tác động và tối ưu theo BERT, tuy nhiên việc hiểu rõ được một trong những thuật toán Google, khái niệm, cách hoạt động và vai trò của chúng có thể giúp bạn biết thêm về cách vận hành của Google, những yếu tố nào được Google đánh giá để chọn và xếp hạng kết quả tìm kiếm. Hy vọng qua đây, bạn sẽ có thêm kiến thức đối với các giải thuật của Google khi xếp hạng tìm kiếm, cũng như thấy được mức độ quan trọng của việc hướng tới người dùng, thay vì chỉ chăm chăm tập trung nội dung chỉ để cho bộ máy tìm kiếm đọc.

SEO Tinh Gọn Dịch và biên tập

Leave a Reply

Your email address will not be published. Required fields are marked *