亚洲无码中文字视,无码久久流水呻吟,最新精品国偷自产在线美女足

頁(yè)面質(zhì)量評(píng)估及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用

文件類別：說明標(biāo)準(zhǔn)

文件格式：

文件大?。?85K

下載次數(shù)：261次

所需積分：1點(diǎn)

解壓密碼：qg68.cn

下載地址：[下載地址]

清華大學(xué)卓越生產(chǎn)運(yùn)營(yíng)總監(jiān)高級(jí)研修班

下載地址下載幫助購(gòu)買積分收藏本頁(yè)

綜合能力考核表詳細(xì)內(nèi)容

頁(yè)面質(zhì)量評(píng)估及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用
去偽存真去粗取精 ——
清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系
智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室
2006年7月，山東，濟(jì)南
去偽存真去粗取精
問題背景
頁(yè)面質(zhì)量評(píng)估的相關(guān)工作概述
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
應(yīng)用展望
去偽存真去粗取精
問題背景
頁(yè)面質(zhì)量評(píng)估的相關(guān)工作概述
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
應(yīng)用展望
問題背景
World Wide Web的出現(xiàn)與發(fā)展
問題背景
Web蘊(yùn)含著多少信息？
How Much Info 工程
由Intel, Microsoft, HP, EMC等公司贊助，UC Berkeley大學(xué)完成
2002年世界上共產(chǎn)生了5Exabyte的數(shù)據(jù)，其中92%的信息存儲(chǔ)于電子介質(zhì)
相當(dāng)于人類歷史上所有說過的話語(yǔ) 所包含的信息量的總和
大部分存儲(chǔ)于Web中，構(gòu)成了Web 中超過150Billion的網(wǎng)絡(luò)頁(yè)面
問題背景
Web的發(fā)展帶來(lái)了什么？
信息數(shù)量的急劇膨脹
知識(shí)的獲取空前簡(jiǎn)單與繁榮
Information is no longer a scarce resource - attention is.
(注意力，而不是信息，才是這個(gè)時(shí)代所稀缺的資源 )
(紐約時(shí)報(bào)，2005年10月16日)
在信息化時(shí)代，知識(shí)實(shí)際上已經(jīng)不是資源，智慧才是資源。（清華大學(xué)經(jīng)管學(xué)院魏杰教授）
從Web中有效的獲取知識(shí)正在成為人們生活與工作的必須技能
高科技企業(yè)員工1/3的時(shí)間用于查找資料
由于無(wú)法找到有效信息而浪費(fèi)的產(chǎn)值占企業(yè)收入1/5
問題背景
2005年搜索引擎市場(chǎng)的激烈競(jìng)爭(zhēng)
Google市值的變化舉世關(guān)注
Baidu上市造就數(shù)以百計(jì)的百萬(wàn)富翁
MSN推出新版搜索，MSRA建立搜索研究中心
Yahoo中國(guó)重組
主要門戶網(wǎng)站Sohu, Sina, Netease, 騰訊紛紛推出搜索引擎產(chǎn)品
問題背景
最早的網(wǎng)絡(luò)搜索引擎索引系統(tǒng)誕生：Stanford大學(xué), 1995
問題背景：搜索引擎用戶的需求
當(dāng)前面臨的存儲(chǔ)與運(yùn)算需求
每天處理超過2億用戶查詢
近80億頁(yè)面索引
問題背景：搜索引擎的索引能力
搜索引擎索引規(guī)模的競(jìng)爭(zhēng)

問題背景：搜索引擎的索引能力
搜索引擎索引規(guī)模競(jìng)爭(zhēng)的終結(jié)？
沒有任何一個(gè)搜索引擎可以覆蓋互聯(lián)網(wǎng)上的所有資源

2005年9月, Google從首頁(yè)去除了頁(yè)面索引數(shù)量的信息，并解釋說：“絕對(duì)的數(shù)量已經(jīng)不再重要”
問題背景：搜索引擎的索引能力
對(duì)中文搜索引擎而言
搜索引擎里每天有400多萬(wàn)被檢索的關(guān)鍵詞
一般而言不重復(fù)的關(guān)鍵詞會(huì)占總數(shù)的30%以內(nèi)
（根據(jù)李彥宏報(bào)告的百度狀況）
對(duì)于每個(gè)關(guān)鍵詞，用戶平均點(diǎn)擊的頁(yè)面數(shù)在2頁(yè)以內(nèi)
則可以估算如下:
用戶每天使用到的被索引的頁(yè)面數(shù)為2400萬(wàn)個(gè)左右
在百度的平均更新周期（1個(gè)月）內(nèi)，用戶共可能訪問到的頁(yè)面總數(shù)為7.2億個(gè)，
少于百度聲稱的索引量（8億）
更少于中文網(wǎng)頁(yè)總數(shù)（20億）
問題背景
搜索引擎應(yīng)當(dāng)處理 (存儲(chǔ)、評(píng)價(jià)、預(yù)處理與后處理)所有的Web頁(yè)面么?
數(shù)據(jù)數(shù)量已然非常龐大
網(wǎng)絡(luò)環(huán)境數(shù)據(jù)質(zhì)量堪憂：不可靠、Spam、過時(shí)，重復(fù)
不需要，也不可能!
利用頁(yè)面質(zhì)量評(píng)估定位高質(zhì)量頁(yè)面
在用戶查詢之前進(jìn)行  數(shù)據(jù)預(yù)處理階段
使用查詢無(wú)關(guān)特征進(jìn)行

問題背景
去偽存真去粗取精
問題背景
頁(yè)面質(zhì)量評(píng)估的相關(guān)工作概述
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
應(yīng)用展望
頁(yè)面質(zhì)量評(píng)估相關(guān)工作概述
按照粒度不同
宏觀粒度的質(zhì)量評(píng)估
去除無(wú)用頁(yè)面 / 定位有用頁(yè)面
清理“全局垃圾”

微觀粒度的質(zhì)量評(píng)估
去除頁(yè)面中的無(wú)用部分 / 找出頁(yè)面中最有用的部分
清理“局部垃圾”
頁(yè)面質(zhì)量評(píng)估相關(guān)工作概述
宏觀粒度的頁(yè)面質(zhì)量評(píng)估
目的：找出對(duì)用戶檢索信息有用的頁(yè)面
當(dāng)前的研究重點(diǎn)：Web鏈接結(jié)構(gòu)分析
如果存在超鏈接L從頁(yè)面P(source)指向頁(yè)面P(destiny)，則P(source)與P(destiny)之間滿足：
假設(shè)1：（內(nèi)容推薦假設(shè)）頁(yè)面P(source)的作者推薦頁(yè)面P(destiny)的內(nèi)容，且利用L的鏈接文本內(nèi)容對(duì)P(destiny)進(jìn)行描述。
假設(shè)2：（主題相關(guān)假設(shè)）被超鏈接連接的兩個(gè)頁(yè)面P(source)與P(destiny)比隨機(jī)抽取的兩個(gè)頁(yè)面有更大的概率有內(nèi)容相關(guān)性。
PageRank（Google）, HITS（Kleinberg.）及眾多的改進(jìn)算法
頁(yè)面質(zhì)量評(píng)估相關(guān)工作概述
微觀粒度的頁(yè)面質(zhì)量評(píng)估
目的：找出對(duì)用戶檢索信息有用的頁(yè)面的某個(gè)部分
去除特定垃圾信息（利用機(jī)器學(xué)習(xí)方法和一定量的訓(xùn)練）
去除廣告條（Davison et. al.）
去除頁(yè)面中的無(wú)關(guān)鏈接與垃圾鏈接（Kushmerick et. al.）
頁(yè)面分塊模型
依據(jù)語(yǔ)料統(tǒng)計(jì)信息計(jì)算頁(yè)面塊的信息量（Lin et. al.）
基于模板頻度檢測(cè)構(gòu)建站點(diǎn)模板（Yossef et. al. Yi et. al.）
基于頁(yè)面塊的絕對(duì)位置和機(jī)器學(xué)習(xí)方法計(jì)算塊的重要性（VIsion Based Page Segmentation, VIPS, MSRA）
頁(yè)面質(zhì)量評(píng)估相關(guān)工作概述
微觀粒度的質(zhì)量評(píng)估示例（頁(yè)面分塊）

頁(yè)面質(zhì)量評(píng)估相關(guān)工作概述
頁(yè)面質(zhì)量評(píng)估的研究現(xiàn)狀
微觀粒度
具有數(shù)據(jù)挖掘方面研究的積累（數(shù)據(jù)預(yù)處理、數(shù)據(jù)清理等）
相對(duì)比較成熟完善
宏觀粒度
搜索引擎競(jìng)價(jià)排名機(jī)制的引入，帶來(lái)了大量的鏈接垃圾
內(nèi)容推薦和主題相關(guān)假設(shè)受到挑戰(zhàn)
過多關(guān)注頁(yè)面自身的特性，忽略用戶的實(shí)際需求
只重視鏈接結(jié)構(gòu)特征，忽略頁(yè)面其他類型的查詢無(wú)關(guān)特征
頁(yè)面質(zhì)量評(píng)估的研究現(xiàn)狀
頁(yè)面質(zhì)量評(píng)估應(yīng)當(dāng)涉及到鏈接關(guān)系之外的特征信息
PageRank only uses the link structure of the web to estimate page quality. It seems to us that a better estimate of the quality of a page requires additional sources of information.
Monika R. Henzinger, Research Director of Google
我們的理解：
對(duì)于檢索系統(tǒng)而言，頁(yè)面質(zhì)量的最根本評(píng)價(jià)不是由諸如頁(yè)面在鏈接結(jié)構(gòu)圖中的重要程度這樣的特征來(lái)決定的。
能否滿足用戶獲取信息的需要是頁(yè)面質(zhì)量評(píng)價(jià)的根本出發(fā)點(diǎn)。
研究用戶需要什么，而非假設(shè)用戶需要什么
頁(yè)面質(zhì)量評(píng)估：我們的做法
有可能成為用戶檢索目標(biāo)的頁(yè)面才是高質(zhì)量的
用戶需要什么？
反映在用戶查詢的目標(biāo)頁(yè)面中
高質(zhì)量頁(yè)面：可能成為用戶檢索目標(biāo)的Web頁(yè)面
矛盾：
查詢目標(biāo)頁(yè)面是與查詢相關(guān)的
頁(yè)面質(zhì)量評(píng)估是查詢無(wú)關(guān)的過程必須使用查詢無(wú)關(guān)特征
宏觀上來(lái)講，與查詢相關(guān)的查詢目標(biāo)頁(yè)面是否存在與查詢無(wú)關(guān)的特征呢？
去偽存真去粗取精
問題背景
頁(yè)面質(zhì)量評(píng)估的相關(guān)工作概述
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
應(yīng)用展望
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
基于真實(shí)網(wǎng)絡(luò)語(yǔ)料庫(kù)進(jìn)行查詢目標(biāo)頁(yè)面的查詢無(wú)關(guān)特征分析
語(yǔ)料庫(kù)
2005.11月采集的超過3700萬(wàn)中文網(wǎng)頁(yè)
占用空間超過0.5 Terabyte.
自Sogou.com獲得
高質(zhì)量頁(yè)面采樣
訓(xùn)練集: 1600頁(yè)面
測(cè)試集: 17000頁(yè)面
由Sogou工程師手工標(biāo)注
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
基于超鏈接結(jié)構(gòu)分析的特征
PageRank
入鏈接個(gè)數(shù)
入鏈接文本長(zhǎng)度
其他特征
文檔長(zhǎng)度/大小
完全鏡像個(gè)數(shù)
URL長(zhǎng)度與類型
頁(yè)面編碼
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
PageRank
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
入鏈接個(gè)數(shù)
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
入鏈接文本長(zhǎng)度
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
文檔長(zhǎng)度
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
頁(yè)面鏡像個(gè)數(shù)
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
URL 長(zhǎng)度/類型
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
其他部分特征

查詢無(wú)關(guān)特征能夠有效地區(qū)分目標(biāo)頁(yè)面與普通頁(yè)面，亦即查詢目標(biāo)頁(yè)面具有查詢無(wú)關(guān)特征
去偽存真去粗取精
問題背景
頁(yè)面質(zhì)量評(píng)估的相關(guān)工作概述
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
應(yīng)用展望
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
根據(jù)查詢無(wú)關(guān)特征計(jì)算頁(yè)面成為查詢目標(biāo)頁(yè)面的可能性，用這種可能性表示頁(yè)面質(zhì)量的高低
形式化的表述為：
具有查詢無(wú)關(guān)特征A1, A2, A3, …, An的頁(yè)面P成為查詢目標(biāo)頁(yè)面的可能性
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
算法描述
[1] 單特征分析
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
算法描述
[2] 多特征分析
在合理選取的基礎(chǔ)上，可以發(fā)現(xiàn)特征之間的近似獨(dú)立性關(guān)系
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
算法描述
[2] 多特征分析（續(xù)）

基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
比較　　的相對(duì)大小

基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
高質(zhì)量頁(yè)面的概率分布情況
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
測(cè)試效果
測(cè)試集合：17000多個(gè)查詢目標(biāo)頁(yè)面（訓(xùn)練集的10倍）

算法判定出的高質(zhì)量頁(yè)面僅占數(shù)據(jù)總量的5%，但能夠滿足超過92%以上的用戶查詢需求
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
質(zhì)量評(píng)估算法效果的評(píng)價(jià)指標(biāo)
高質(zhì)量頁(yè)面平均召回率（High Quality Page Average Recall, AR）
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
與直接應(yīng)用PageRank作為頁(yè)面質(zhì)量評(píng)估指標(biāo)的比較
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
算法分辨垃圾/低質(zhì)量頁(yè)面的能力

同時(shí)具有較好的篩選作弊頁(yè)面和低質(zhì)量頁(yè)面的作用
去偽存真去粗取精
問題背景
頁(yè)面質(zhì)量評(píng)估的相關(guān)工作概述
高質(zhì)量頁(yè)面的查詢無(wú)關(guān)特征分析
基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法
應(yīng)用展望
應(yīng)用展望
利用頁(yè)面質(zhì)量評(píng)估算法作為搜索引擎層次索引機(jī)制的基礎(chǔ)
應(yīng)用展望
同PageRank一樣作為Ranking算法的依據(jù)
PageRank：用戶隨機(jī)訪問到某個(gè)頁(yè)面的可能性
頁(yè)面質(zhì)量：某個(gè)頁(yè)面成為用戶查詢目標(biāo)的普適可能性
具有明確的物理含義
利用類似方法進(jìn)行垃圾頁(yè)面清理工作
統(tǒng)計(jì)垃圾頁(yè)面的查詢無(wú)關(guān)特征
比較查詢目標(biāo)頁(yè)面而言，這種特征應(yīng)當(dāng)更加明顯
利用機(jī)器學(xué)習(xí)方法構(gòu)建分類器
計(jì)算某個(gè)頁(yè)面成為垃圾頁(yè)面的概率

應(yīng)用展望
其它的可能應(yīng)用方向
用于提高搜索引擎Spider的頁(yè)面抓取效率

提高個(gè)人化搜索（personalized search）質(zhì)量
更好的理解用戶使用搜索引擎的行為特點(diǎn)

頁(yè)面質(zhì)量評(píng)估及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用

[下載聲明]
1.本站的所有資料均為資料作者提供和網(wǎng)友推薦收集整理而來(lái)，僅供學(xué)習(xí)和研究交流使用。如有侵犯到您版權(quán)的，請(qǐng)來(lái)電指出，本站將立即改正。電話:010-82593357。
2、訪問管理資源網(wǎng)的用戶必須明白，本站對(duì)提供下載的學(xué)習(xí)資料等不擁有任何權(quán)利，版權(quán)歸該下載資源的合法擁有者所有。
3、本站保證站內(nèi)提供的所有可下載資源都是按“原樣”提供，本站未做過任何改動(dòng)；但本網(wǎng)站不保證本站提供的下載資源的準(zhǔn)確性、安全性和完整性；同時(shí)本網(wǎng)站也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的損失或傷害。
4、未經(jīng)本網(wǎng)站的明確許可，任何人不得大量鏈接本站下載資源；不得復(fù)制或仿造本網(wǎng)站。本網(wǎng)站對(duì)其自行開發(fā)的或和他人共同開發(fā)的所有內(nèi)容、技術(shù)手段和服務(wù)擁有全部知識(shí)產(chǎn)權(quán)，任何人不得侵害或破壞，也不得擅自使用。

手機(jī)端訪問，請(qǐng)掃描下方二維碼：

服務(wù)熱線：010-82593357

我要上傳資料，請(qǐng)點(diǎn)我！

管理工具分類

ISO認(rèn)證課程講義管理表格合同大全法規(guī)條例營(yíng)銷資料方案報(bào)告說明標(biāo)準(zhǔn)管理戰(zhàn)略商業(yè)計(jì)劃書市場(chǎng)分析 戰(zhàn)略經(jīng)營(yíng)策劃方案培訓(xùn)講義 企業(yè)上市采購(gòu)物流電子商務(wù)質(zhì)量管理企業(yè)名錄生產(chǎn)管理金融知識(shí)電子書客戶管理企業(yè)文化報(bào)告論文項(xiàng)目管理財(cái)務(wù)資料固定資產(chǎn)人力資源管理制度工作分析績(jī)效考核資料面試招聘人才測(cè)評(píng)崗位管理職業(yè)規(guī)劃 KPI績(jī)效指標(biāo)勞資關(guān)系薪酬激勵(lì)人力資源案例人事表格考勤管理人事制度薪資表格薪資制度招聘面試表格崗位分析員工管理薪酬管理績(jī)效管理入職指引薪酬設(shè)計(jì)績(jī)效管理績(jī)效管理培訓(xùn)績(jī)效管理方案平衡計(jì)分卡績(jī)效評(píng)估績(jī)效考核表格人力資源規(guī)劃安全管理制度經(jīng)營(yíng)管理制度組織機(jī)構(gòu)管理辦公總務(wù)管理財(cái)務(wù)管理制度質(zhì)量管理制度會(huì)計(jì)管理制度代理連鎖制度銷售管理制度倉(cāng)庫(kù)管理制度 CI管理制度廣告策劃制度工程管理制度采購(gòu)管理制度生產(chǎn)管理制度進(jìn)出口制度考勤管理制度人事管理制度員工福利制度咨詢?cè)\斷制度信息管理制度員工培訓(xùn)制度辦公室制度人力資源管理企業(yè)培訓(xùn)績(jī)效考核其它

精品推薦

下載排行