Người dùng internet Việt Nam hầu như ai cũng biết và sử dụng Google. Xu thế chung bây giờ không phải là tìm kiếm thông tin qua các website chuyên ngành hay những website ưa thích nữa. Mọi thứ đều được chúng ta Google, từ quyển sách, nhà hàng, tới thông tin báo chí… Tuy nhiên, đa số chúng ta lại không biết về cách thức hoạt động của Google như thế nào. Về cơ bản thì bạn … không cần biết. Nhưng suy cho cùng thì biết một chút cũng tốt chứ sao. Cùng tìm hiểu nhé!
Các bộ phận cấu thành Google
Robot ( Google Bot )– Bộ thu thập thông tin
Robot Google được biết đến dưới nhiều tên gọi khác nhau : spider, bot, crawler, hoặc web worm,…Về bản chất robot chỉ là một chương trình duyệt và thu thập thông tin từ các website trên mạng, nó tự động duyệt qua các cấu trúc siêu liên kết và trả về các danh mục kết quả của công cụ tìm kiếm. Robot thường được ví với hình ảnh con nhện vì nó tự động di chuyển trên internet thông qua các liên kết và internet chính là mạng nhện của nó. Hiểu cách thức hoạt động của con nhện này sẽ giúp chúng ta dắt mũi Google.
Index – Bộ lập chỉ mục
Hệ thống lập chỉ mục trong các công cụ tìm kiếm thực hiện việc phân tích, chọn lựa và lưu trữ những thông tin cần thiết (thường là các từ khoá hay cụm từ khoá) một cách nhanh chóng và chính xác từ những dữ liệu mà Robot thu được. Hệ thống chỉ mục cho biết cách danh mục từ khoá cần tìm nằm ở trang nào.
Trong SEO, chúng ta có các kỹ năng và thủ thuật để tăng lượng index hay thời gian index của Google đối với website của mình ( Xem: Thủ thuật giúp Google Index nhanh hơn và Google Index nhanh cho website mới
Search Engine – Bộ tìm kiếm thông tin
Search Engine hay còn gọi là Web Search Engine là một công cụ tìm kiếm được thiết kế để tìm kiếm các thông tin trên World Wide Web. Thông tin này có thể bao gồm những trang web, hình ảnh hay bất cứ một kiểu file nào trên mạng. Nói rộng ra, Search Engine là hệ thống bao gồm cả bộ thu thập thông tin và bộ lập chỉ mục. Các bộ này hoạt động liên tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn nhau về mặt dữ liệu nhưng độc lập với nhau về nguyên tắc hoạt động.
Chức năng chính của Search Engine cũng như tên gọi của nó, là công cụ tìm kiếm thông tin mà thực ra là tìm kiếm các từ khoá trong câu truy vấn xuất hiện nhiều nhất, ngoại trừ các stop words (là các giới từ hay mạo từ như the, a, an….). Khi gõ một từ khoá (keyword) cần tìm vào một công cụ tìm kiếm, các Search Engine này có nhiệm vụ tìm các từ khoá đó ở tất cả các trang Web theo hình thức các trang Web chứa nhiều từ khoá cần tìm sẽ dễ dàng trả về danh mục kết quả của các Search Engine. Ngày nay, hầu hết các search engine đều hỗ trợ chức năng tìm cơ bản và nâng cao, tìm từ đơn, từ ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm như trên đề mục, tiêu đề …
Ngoài việc tìm chính xác các từ khoá, các Search Engine phải được trang bị các phương pháp tìm kiếm đa ngôn ngữ, có nghĩa là nó phải hiểu được ý nghĩa của từ khoá cần tìm hay thậm chí là sửa cả lỗi chính tả khi người dùng đánh sai. Ví dụ, khi bạn gõ type vào Google, công cụ tìm kiếm này sẽ trả về kết quả gồm typing, typist…
Cách thức hoạt động của bộ máy tìm kiếm
Một Search Engine hoạt động trình tự theo các bước sau:
Crawling => Indexing => Searching
Search Engine làm việc bằng cách lưu trữ thông tin về nhiều trang web. Những thông tin này sẽ được thu thập bởi các Spider (chính là Web crawling) và nội dung của mỗi trang sẽ được phân tích để Search Engine quyết định nên index cái nào (ví dụ, những từ khoá được thu thập từ các titles, heading hay một số trường đặc biệt gọi là meta tags) để trả về những thông tin mà người tìm kiếm mong muốn nhất. Dữ liệu về những trang Web sẽ được lưu trữ tại các cơ sở dữ liệu chỉ mục để sử dụng cho những lần truy vấn sau. Một số Search Engine, như Google chẳng hạn, sẽ lưu trữ toàn bộ hay một phần trang gốc (được xem như một cache) cũng như thông tin về trang Web đó, trái lại với một số Search Engine khác, như AltaVista, sẽ lữu trữ tất cả các từ của những trang mà nó tìm thấy.
Khi người dùng nhập vào các Search Engine một truy vấn (chủ yếu là các keyword), các Search Engine này sẽ kiểm các index của nó và cung cấp danh sách các trang Web phù hợp nhất, thường là các cụm từ ngắn hay một phần của một đoạn văn bản. Hầu hết các Search Engine đều sử dụng các Boolean Operators (toán tử luận lý) như AND, OR và NOT để xác định các search query (truy vấn tìm kiếm). Một số SE khác lại sử dụng những phương pháp tiên tiến hơn như Proximity Search (tìm kiếm gần kề) để cho phép người dùng xác định được khoảng cách giữa các từ khoá.
Sự hữu ích của các Search Engine phụ thuộc vào mức độ phù hợp của các kết quả mà nó mang lại. Ta có thể tìm được hàng triệu trang Web chứa từ khoá mà ta cần tìm, tuy nhiên, những trang có Search Engine mạnh sẽ cho ra các kết quả phù hợp hơn cả. Hiện nay, đa số các Search Engines được điều hành bởi các công ty tư nhân sử dụng những thuật toán chuyên dụng và một cơ sỡ dữ liệu kín, mặc dù vậy một số Search Engine vẫn là nguồn mở.
Trên thế giới hiện có khoảng 263 công cụ tìm kiếm, phổ biến nhất là Google, Yahoo và Bing. Tuy nhiên ở Việt Nam, Google là công cụ tìm kiếm được sử dụng phổ biến nhất, chiếm đến 90% số lượng tìm kiếm. Khoảng 74% người dùng Internet ở Việt Nam truy cập hàng ngày vào Google trong khi đó Yahoo chí có 14% (theo khảo sát của công ty VinaLink). Vì vậy, hầu hết các trang web chỉ tập trung làm SEO trên công cụ tìm kiếm Google.
*** Tìm hiểu thêm về dịch vụ SEO Topic tổng thể của HOC11.VN tại đây:
– Kiến thức Seo cơ bản