TL;DR: Các AI assistant bịa ra địa chỉ nghe hợp lý nhưng sai, với tỉ lệ từ 6% với khách sạn chain đến 38% với vacation rental độc lập. Cách xử lý không phải là đi sửa model. Hãy publish một ground truth rõ ràng bằng markup Schema.org Place, toạ độ đã verify, và một external identifier canonical, rồi giữ sự thật đó nhất quán trên mọi platform nơi doanh nghiệp xuất hiện.
Hỏi ChatGPT địa chỉ một khách sạn ba sao ở Porto và nhiều khả năng nó sẽ trả về tên phố, số nhà và mã bưu chính. Câu trả lời nghe rất tự tin. Với các chain lớn thì đáp án thường đúng. Còn với một property boutique độc lập cách đó hai con phố, xác suất câu trả lời sai là đáng kể.
Đây không phải một edge case hiếm gặp. Đó là output có thể dự đoán được từ cách language model sinh text, và hệ quả đến trực tiếp với bất kỳ business nào phụ thuộc vào việc được tìm thấy ở một địa điểm cụ thể.
Cơ Chế Của Một Hallucination Vị Trí
Language model không lưu database địa chỉ. Nó lưu một phân phối xác suất trên token. Khi được hỏi địa chỉ, nó dự đoán một chuỗi token trông giống địa chỉ của loại venue đó ở thành phố đó.
Nếu địa chỉ thật xuất hiện nhiều lần, nhất quán, ở các nguồn có thẩm quyền trong training data, dự đoán sẽ hội tụ về đúng chuỗi ký tự. Nếu địa chỉ xuất hiện ít, không nhất quán hoặc không có, model sẽ nội suy. Nó chọn một con phố nghe hợp với khu đó, một số nhà vừa vặn với block, một mã bưu chính khớp pattern địa phương.
Output đúng ngữ pháp, hợp lý về mặt địa lý, và nhiều khi sai hoàn toàn.
Audit Mẫu: Tỷ Lệ Hallucination Theo Loại Query
Chúng tôi chạy 500 query vị trí qua ba AI assistant hàng đầu trong tháng 4/2026. Mỗi query hỏi địa chỉ của một venue cụ thể. Câu trả lời được đối chiếu với địa chỉ đã xác minh của venue trong MapAtlas GeoEnrich.
Bảng dưới đây cho thấy tỷ lệ response chứa ít nhất một sai sót địa chỉ mang tính thực chất (sai phố, sai số nhà, sai mã bưu chính, hoặc sai thành phố). Con số mang tính định hướng và đặc thù cho mẫu này.
| Loại query | ChatGPT | Perplexity | Gemini |
|---|---|---|---|
| Chain hotel | 6% | 4% | 7% |
| Boutique hotel độc lập | 19% | 14% | 22% |
| Vacation rental | 38% | 29% | 41% |
| Nhà hàng độc lập | 24% | 18% | 27% |
| Landmark hoặc điểm tham quan | 9% | 5% | 8% |
Nguồn: MapAtlas sample audit, April 2026, n=500 query.
Có hai pattern nổi bật. Thứ nhất, tỷ lệ hallucination tỉ lệ thuận với mức độ thưa và không nhất quán của dấu vết web của venue. Vacation rental, vốn thường chỉ tồn tại trên đúng một listing platform mà không có homepage riêng, chịu ảnh hưởng nặng nhất. Thứ hai, Perplexity liên tục hallucinate ít hơn, có thể vì lớp retrieval của nó neo nhiều câu trả lời vào live source thay vì parametric memory.
Một Ví Dụ Cụ Thể
Query thực hiện tháng 4/2026: "Địa chỉ guesthouse Casa do Vale ở Porto là gì?"
Câu trả lời hallucinate từ một assistant hàng đầu:
Casa do Vale nằm tại Rua de Santa Catarina 142, 4000-442 Porto, Portugal.
Câu trả lời đã xác minh từ chính hồ sơ của property và MapAtlas Geocoding:
Casa do Vale, Rua do Vale 38, 4200-512 Porto, Portugal.
Sai phố, sai mã bưu chính, và còn sai sang phía bên kia thành phố. Câu trả lời hallucinate đưa khách tới một khu shopping cách guesthouse thật ba kilomet. Sai sót không ngẫu nhiên. Rua de Santa Catarina là con phố thương mại nổi tiếng nhất Porto và xuất hiện rất dày trong training data cho các query về lưu trú ở Porto. Model đã rơi vào prior thống kê mạnh nhất của thành phố đó.
Vì Sao Structured Data Thay Đổi Kết Cục
Một trang listing có block JSON-LD Place hoặc LodgingBusiness đúng chuẩn cho model một thứ để extract thay vì bịa ra.
{
"@context": "https://schema.org",
"@type": "LodgingBusiness",
"name": "Casa do Vale",
"address": {
"@type": "PostalAddress",
"streetAddress": "Rua do Vale 38",
"postalCode": "4200-512",
"addressLocality": "Porto",
"addressCountry": "PT"
},
"geo": {
"@type": "GeoCoordinates",
"latitude": 41.1621,
"longitude": -8.5937
},
"identifier": {
"@type": "PropertyValue",
"propertyID": "wikidata",
"value": "Q00000000"
}
}
Ba đặc điểm của block này quan trọng để giảm hallucination:
- Field có cấu trúc. Model không phải parse câu văn. Phố, mã bưu chính, thành phố và quốc gia là các key riêng biệt.
- Tọa độ khớp với địa chỉ. Crawler có thể kiểm tra latitude và longitude có rơi vào polygon mã bưu chính không. Lệch nhau sẽ làm data bị đánh dấu low confidence.
- External identifier ổn định. Wikidata hoặc Google Place ID liên kết listing với một entity chuẩn. Model có thể đối chiếu địa chỉ với một nguồn có thẩm quyền thay vì dựa vào tần suất trong training data.
Khi cả ba điều kiện cùng thỏa, extraction thay thế generation. Xác suất một câu trả lời hallucinate giảm mạnh.
Lớp Nhất Quán NAP
Schema trên trang listing là cần nhưng chưa đủ. Các hệ AI đối chiếu chéo địa chỉ với các nguồn public khác: Google Business Profile, OpenStreetMap, Yelp, Tripadvisor, booking platform và open web. Khi các nguồn này mâu thuẫn, confidence giảm và model dễ thiên về việc lảng tránh hoặc generate.
Đó là lý do vì sao nhất quán Name, Address, Phone (NAP) giữa các platform là predictor mạnh hơn cho citation so với bất kỳ signal đơn lẻ nào. Một listing có schema hoàn hảo nhưng địa chỉ trên Google Business Profile lại mâu thuẫn vẫn sẽ performance kém. Xem NAP consistency cho AI search để nắm cơ chế.
Điều Gì Thường Giảm Được Rủi Ro Hallucination
Bốn việc tạo chênh lệch lớn nhất trong các đợt audit chúng tôi chạy:
1. Publish tọa độ đã xác minh đi kèm địa chỉ. Địa chỉ viết là chuỗi ký tự. Tọa độ là fact có thể verify. MapAtlas Geocoding convert địa chỉ thô thành latitude/longitude chính xác ở quy mô lớn và đánh dấu các input không resolve sạch.
2. Wrap các fact vị trí trong JSON-LD. Các type Place, LodgingBusiness, Hotel, Restaurant và LocalBusiness đều chấp nhận field address, geo và identifier. Field thiếu chính là chỗ model bắt đầu đoán.
3. Reconcile về canonical identifier. Liên kết listing với Wikidata QID hoặc Google Place ID. Điều này cho các hệ AI một primary key để deduplicate.
4. Làm giàu bằng nearby context. Hallucination không chỉ xảy ra ở field địa chỉ. Model còn bịa ra landmark gần đó, trạm transit và thời gian đi bộ. Proximity data đã xác minh, sinh ra bởi MapAtlas GeoEnrich, neo luôn các claim này. Location-specific FAQs là một bề mặt hiệu quả để phơi dữ liệu đó ra.
Chi Phí Kinh Doanh Của Một Địa Chỉ Hallucinate
Một địa chỉ sai do AI assistant đưa ra không chỉ làm xấu mặt model. Nó đẩy một khách thực sự tới sai chỗ. Hiệu ứng kéo theo cộng dồn:
- Một booking bị hủy, hoặc tệ hơn, no-show.
- Một review tiêu cực có nhắc đến sai vị trí, rồi review đó lại trở thành training data cho thế hệ model kế tiếp.
- Citation confidence của listing đi xuống về sau, vì public web giờ đây chứa các signal mâu thuẫn nhau.
Tính bất đối xứng quan trọng. Một địa chỉ hallucinate làm hại listing kể cả khi bản thân listing hoàn toàn vô tội. Cách fix không phải là sửa trực tiếp model, điều không khả thi, mà là làm cho ground truth rõ ràng đến mức model không còn lý do nào để generate ngay từ đầu.
Cách Kiểm Tra Exposure Của Bạn
MapAtlas AEO Checker miễn phí chấm một listing trên 29 structured signal, bao gồm schema địa chỉ, sự hiện diện của tọa độ, tính nhất quán NAP và external identifier. Listing pass các kiểm tra này ít bị sai lệch trong câu trả lời AI một cách đáng kể. Listing fail là listing mà model buộc phải đoán.
Hallucination vị trí không phải là quirk của riêng assistant nào. Đó là hệ quả có thể đoán trước của việc train trên open web, nơi cùng một business xuất hiện với địa chỉ hơi lệch nhau qua hàng chục nguồn. Cách fix là publish một ground truth duy nhất ở định dạng các hệ AI có thể extract, và giữ ground truth đó nhất quán ở mọi nơi khác mà business được đại diện.
Đọc thêm:
- Location-specific FAQs cho AI search
- SEO từng là keyword-to-keyword, giờ đây là database-to-database
- NAP consistency cho AI search
- Kiểm tra điểm AI visibility của bạn miễn phí
Câu hỏi thường gặp
AI address hallucination là gì?
AI address hallucination là khi một large language model trả về một địa chỉ phố, mã bưu chính hay tọa độ cụ thể nghe có vẻ hợp lý nhưng không khớp với vị trí thực tế của doanh nghiệp, landmark hay property đang được mô tả. Đây không phải một sai số làm tròn nhỏ. Model đã tổng hợp ra một địa chỉ không tồn tại, thuộc về một venue khác, hoặc ghép một con phố có thật với một thành phố sai. Với listing, điều này đặc biệt tai hại vì người dùng có thể đã đi đến sai chỗ trước khi nhận ra câu trả lời là bịa.
Vì sao AI assistant bịa địa chỉ?
Language model sinh text bằng cách dự đoán token tiếp theo có xác suất cao nhất, chứ không tra cứu fact. Khi một địa chỉ xuất hiện ít, không nhất quán trên web hoặc bị chặn crawl, model sẽ lấp khoảng trống đó bằng một chuỗi ký tự hợp lý về mặt thống kê: một tên phố nghe đúng kiểu thành phố đó, một pattern mã bưu chính khớp với vùng, một số nhà có vẻ bình thường. Không có nguồn ground-truth có cấu trúc để neo câu trả lời, model không có cách nào phân biệt một fact đã nhớ với một fact nó tự tạo ra.
Hallucination về vị trí xảy ra thường xuyên đến mức nào trong thực tế?
Trong một đợt audit mẫu MapAtlas thực hiện tháng 4/2026 trên 500 query vị trí trải từ khách sạn, vacation rental, nhà hàng đến landmark, tỷ lệ hallucination ở mức địa chỉ dao động từ khoảng 6% với các chain hotel nổi tiếng tới 38% với vacation rental độc lập. Query landmark generic cho kết quả tốt nhất; query listing long-tail cho kết quả tệ nhất. Con số mang tính định hướng và sẽ thay đổi theo model, ngôn ngữ, độ tươi mới của data, nhưng pattern thì nhất quán: venue càng ít bộc lộ structured data, model càng bịa nhiều.
Structured data Schema.org có giảm được hallucination không?
Có, nếu data được xác minh và nhất quán giữa các nguồn. Publish một block JSON-LD Place hay LodgingBusiness với tọa độ geo chính xác, địa chỉ bưu chính đã validate, cùng cross-reference tới các identifier có thẩm quyền như Wikidata hay Google Place ID sẽ cho model một điểm neo ground-truth để extract và cite. Schema không nhất quán, ví dụ tọa độ lệch với địa chỉ viết, thường lại làm giảm confidence thay vì tăng.
Làm sao audit listing của tôi về rủi ro hallucination?
Chạy URL listing qua MapAtlas AEO Checker miễn phí tại mapatlas.eu/ai-seo-checker. Checker đánh giá 29 structured signal mà các hệ AI dùng để neo fact vị trí, bao gồm tọa độ geo, Place schema, tính nhất quán NAP giữa các platform, và sự có mặt của field nearby-context. Trang thiếu các signal này sẽ bị chấm điểm rủi ro hallucination cao vì model buộc phải đoán thay vì extract.

