《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 解決方案 > 開放的一天,吳恩達(dá)、谷歌、Facebook紛紛開源數(shù)據(jù)集

開放的一天,吳恩達(dá)、谷歌、Facebook紛紛開源數(shù)據(jù)集

2019-01-24

計(jì)算機(jī)視覺自然語言處理,這幾天很多研究者都提出了新的數(shù)據(jù)集以期解決新的問題。吳恩達(dá)幾個(gè)小時(shí)前開源的「胸片」數(shù)據(jù)集希望借助 CV 輔助疾病診斷;Facebook 幾天前開源的「BISON」希望借助 CV 與 NLP 學(xué)習(xí)文字與圖像的內(nèi)在聯(lián)系;而幾個(gè)小時(shí)前谷歌更是開源了大型「自然問答」數(shù)據(jù)集,他們希望借助 NLP 學(xué)習(xí)人們谷歌問題并搜索答案的過程。


在這篇文章中,我們將介紹這幾天開源的三種數(shù)據(jù)集,它們與已有的通用數(shù)據(jù)集都不太一樣,且更關(guān)注精細(xì)化的任務(wù)。例如在谷歌開源的 QA 數(shù)據(jù)集中,它里面都是真實(shí)的搜索問題,答案也都是從維基百科查找的。這種大型的真實(shí)數(shù)據(jù)集更適合訓(xùn)練一個(gè)不那么「低智商」的 QA 對(duì)話系統(tǒng),也更符合成年人實(shí)際會(huì)問的一些問題。


其它如吳恩達(dá)等研究者開放的胸部影像數(shù)據(jù)集和 Facebook 開源的新型圖像描述數(shù)據(jù)集都很有特點(diǎn),也許以后年年體檢的「胸片」就能使用 DL 輔助診斷了,也許文本內(nèi)容和圖像內(nèi)容以后就能相互轉(zhuǎn)換了。


谷歌提出自然問答數(shù)據(jù)集 Natural Questions(NQ)


開放性的問答任務(wù)一直是衡量自然語言理解的好標(biāo)準(zhǔn),QA 系統(tǒng)一般能閱讀網(wǎng)頁并返回正確的答案。然而目前并沒有比較大的自然問答數(shù)據(jù)集,因?yàn)楦哔|(zhì)量的自然問答數(shù)據(jù)集需要大量實(shí)際問題以及尋找正確答案的人力成本。為了解決這一問題,谷歌近日開放了一個(gè)大規(guī)模數(shù)據(jù)集 Natural Questions(NQ),它可以用來訓(xùn)練并評(píng)估開放性問答系統(tǒng),并且再現(xiàn)了人類尋找問題答案的端到端過程。


NQ 數(shù)據(jù)集非常大,包含 30 萬條自然發(fā)生的問題,以及對(duì)應(yīng)的回答標(biāo)注,其中每一條回答都是由人工從維基百科頁面找到的。此外,這個(gè)自然問答數(shù)據(jù)集還包括 1.6 萬個(gè)特殊樣本,其中每一個(gè)樣本的答案都由 5 個(gè)不同的標(biāo)注者標(biāo)注,因此這種多樣性的回答更適合評(píng)估 QA 系統(tǒng)的效果。


因?yàn)榛卮?NQ 中的自然性問題比回答「小問題」有更高的要求,模型需要對(duì)提問有更深的理解,因此這樣的模型會(huì)更復(fù)雜,也會(huì)更貼近真實(shí)問答場景。所以谷歌在發(fā)布這個(gè)數(shù)據(jù)集的同時(shí),還提出了一項(xiàng)挑戰(zhàn)賽,它希望挑戰(zhàn)賽能激勵(lì)研究者基于這個(gè)數(shù)據(jù)集做出更好的問答系統(tǒng)——更能理解自然語言的問答系統(tǒng)。


NQ 數(shù)據(jù)集的論文中展示了標(biāo)注的過程與結(jié)果。簡而言之,谷歌的標(biāo)注過程可以分為以下幾個(gè)步驟:向標(biāo)注者呈現(xiàn)問題和維基百科頁面;標(biāo)注者返回一個(gè)長回答與短回答。其中長回答(I)可以為維基百科頁面上的 HTML 邊界框,一般可以是一段話或一張表,它包含回答這些問題的答案。當(dāng)然,如果沒有合適的答案或者答案太分散,標(biāo)注者也可以返回 I=NULL。短回答(s)可以是 I 中的一個(gè)或一組實(shí)體,它們可回答問題。如下展示了數(shù)據(jù)集的樣本示例:

微信圖片_20190124200505.jpg


圖 1:數(shù)據(jù)集中的樣本標(biāo)注。


論文:Natural Questions: a Benchmark for Question Answering Research


微信圖片_20190124200531.jpg


論文地址:https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf


摘要:我們提出了 Natural Questions(NQ)語料庫,它是一種新型問答數(shù)據(jù)集。問題都是提交到谷歌搜索引擎的匿名搜索請(qǐng)求。標(biāo)注者會(huì)收到一條問題以及對(duì)應(yīng)的維基百科頁面,該維基百科頁面通過問題的谷歌搜索結(jié)果(Top 5)確定。標(biāo)注者會(huì)標(biāo)注一個(gè)長回答(通常是段落)和一個(gè)短回答,其中如果頁面有明確答案,短回答是單個(gè)或多個(gè)實(shí)體,如果沒有答案,短回答和長回答標(biāo)注為 NULL。


目前數(shù)據(jù)集包含 307373 對(duì)訓(xùn)練樣本,它們有單個(gè)標(biāo)注;7830 對(duì)開發(fā)或驗(yàn)證樣本,它們有 5 種標(biāo)注;還有 7842 對(duì)測試樣本,它們也有 5 種標(biāo)注。我們還提出了驗(yàn)證數(shù)據(jù)質(zhì)量的實(shí)驗(yàn),并分析了 302 個(gè)樣本的 25 種標(biāo)注,從而充分了解標(biāo)注任務(wù)中的人工差異。為了評(píng)估問答系統(tǒng),我們提出了魯棒性的度量方法,并表示這些指標(biāo)有非常高的人類上邊界;我們同樣使用相關(guān)文獻(xiàn)中的競爭性方法建立了基線結(jié)果。


吳恩達(dá)提出胸部放射影像數(shù)據(jù)集 CheXpert


胸部放射影像是全球最常見的影像檢查,對(duì)很多威脅終身的疾病的篩查、診斷和治療至關(guān)重要。在本文中,作者介紹了一種用于解釋胸部放射影像的大型數(shù)據(jù)集——CheXpert (Chest eXpert)。該數(shù)據(jù)集包含來自 65,240 個(gè)病人的 224,316 張胸部放射影像,這些影像中標(biāo)注了 14 種常見的胸部放射影像觀察結(jié)果。作者設(shè)計(jì)了一個(gè)標(biāo)注工具(labeler),它能夠從放射報(bào)告文本中提取觀察結(jié)果并使用不確定性標(biāo)簽捕捉報(bào)告中存在的不確定性。

微信圖片_20190124200550.jpg

圖 1:CheXpert 任務(wù)旨在根據(jù)多視角胸部放射影像預(yù)測不同觀察結(jié)果的概率。


CheXpert 任務(wù)要根據(jù)多視角胸部放射影像(見圖 1)來預(yù)測 14 種不同觀察結(jié)果的概率。作者尤其關(guān)注數(shù)據(jù)集中的不確定性標(biāo)簽,并研究了結(jié)合這些不確定性標(biāo)簽來訓(xùn)練模型的不同方法。然后在包含 200 項(xiàng)標(biāo)記的驗(yàn)證集上評(píng)估了這些不確定性方法的性能,這些標(biāo)注真值由 3 位放射科醫(yī)生一致確定,他們用放射影像注釋了該驗(yàn)證集。作者根據(jù)病理的臨床意義和在數(shù)據(jù)集中的流行程度,在 5 個(gè)選定的觀察結(jié)果上評(píng)估其方法,發(fā)現(xiàn)不同的不確定性方法能夠用于不同的觀察結(jié)果。

微信圖片_20190124200610.jpg

表 1:CheXpert 數(shù)據(jù)集包含 14 個(gè)標(biāo)記的觀察結(jié)果。作者報(bào)告了訓(xùn)練集中包含這些觀察結(jié)果的研究數(shù)量。


論文:CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison


微信圖片_20190124200632.jpg


論文地址:https://arxiv.org/abs/1901.07031v1


摘要:大型的標(biāo)記數(shù)據(jù)集使得深度學(xué)習(xí)方法在諸多醫(yī)療影像任務(wù)上獲得了專家級(jí)的表現(xiàn)。我們要展示的 CheXpert 是一個(gè)大型數(shù)據(jù)集,它包含來自 65,240 個(gè)病人的 224,316 張胸部放射影像。我們?cè)O(shè)計(jì)了一個(gè)標(biāo)注工具(labeler)來自動(dòng)檢測影像報(bào)告中的 14 種觀察結(jié)果,并捕捉影像解釋中固有的不確定性。我們研究了使用不確定性標(biāo)簽訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的不同方法,該網(wǎng)絡(luò)在給定可用正面和側(cè)面放射影像的情況下輸出這些觀察結(jié)果的概率。在一個(gè)包含 200 項(xiàng)胸部放射影像研究的驗(yàn)證集上,我們發(fā)現(xiàn)不同的不確定性方法可以用于不同的病理,這些研究由 3 位經(jīng)過認(rèn)證的放射科醫(yī)生手工注釋。然后,我們?cè)诎?500 項(xiàng)胸部放射影像研究(這些研究由 5 位經(jīng)過認(rèn)證的放射科醫(yī)生一致注釋)的測試集上評(píng)估我們的最佳模型,并將模型的表現(xiàn)與另外 3 位放射科醫(yī)生檢測 5 種選定病理的表現(xiàn)進(jìn)行比較。對(duì)于心臟肥大、水腫和胸腔積液三種疾病,ROC 和 PR 模型曲線位于所有 3 個(gè)放射科醫(yī)師操作點(diǎn)之上。我們將該數(shù)據(jù)集作為評(píng)估胸部放射影像解釋模型性能的標(biāo)準(zhǔn)基準(zhǔn)公開發(fā)布。


該數(shù)據(jù)集可從以下地址免費(fèi)獲取:

https://stanfordmlgroup.github.io/competitions/chexpert


Facebook 提出新型視覺定位數(shù)據(jù)集 BISON

微信圖片_20190124200650.jpg


為系統(tǒng)提供關(guān)聯(lián)語言內(nèi)容和視覺內(nèi)容的能力是計(jì)算機(jī)視覺領(lǐng)域的一大成就。圖像描述生成和檢索等任務(wù)旨在測試這種能力,但是復(fù)雜的評(píng)估指標(biāo)也同時(shí)帶來了一些其它能力和偏差。Facebook 近日發(fā)表論文,介紹了一種替代性視覺定位系統(tǒng)評(píng)估任務(wù) Binary Image SelectiON (BISON) :給出圖像描述,讓系統(tǒng)從一對(duì)語義相似的圖像中選擇與圖像描述最匹配的圖。系統(tǒng)在 BISON 任務(wù)上的準(zhǔn)確率不僅可解釋,還能夠衡量系統(tǒng)關(guān)聯(lián)圖像描述中精細(xì)文本內(nèi)容與圖像中視覺內(nèi)容的能力。Facebook 研究者收集了 BISON 數(shù)據(jù)集,它補(bǔ)充了 COCO Captions 數(shù)據(jù)集。研究者還使用 BISON 數(shù)據(jù)集對(duì)圖像描述生成和基于描述的圖像檢索系統(tǒng)進(jìn)行輔助評(píng)估。圖像描述生成的度量指標(biāo)表明視覺定位系統(tǒng)已經(jīng)優(yōu)于人類,但 BISON 表明這些系統(tǒng)與人類表現(xiàn)還有距離。

微信圖片_20190124200711.jpg

圖 2:COCO-BISON 數(shù)據(jù)集收集過程圖示:研究者使用 COCO captions 數(shù)據(jù)集進(jìn)行 BISON 數(shù)據(jù)集收集工作。首先利用描述相似度尋找相似圖像,然后標(biāo)注者選擇對(duì)圖像對(duì)中其中一個(gè)圖像的描述,最后研究者讓多個(gè)標(biāo)注者分別基于描述選擇正確的圖像,從而驗(yàn)證標(biāo)注的準(zhǔn)確性。


該研究由美國南加州大學(xué)博士 Hexiang Hu 和 Facebook 研究者合作完成。目前已開源了驗(yàn)證數(shù)據(jù)和評(píng)估代碼。


驗(yàn)證數(shù)據(jù):https://raw.githubusercontent.com/facebookresearch/binary-image-selection/master/annotations/bison_annotations.cocoval2014.json

評(píng)估代碼:https://github.com/facebookresearch/binary-image-selection

論文地址:https://arxiv.org/abs/1901.06595


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
午夜影院日韩| 欧美剧在线免费观看网站| 亚洲精品九九| 久久精品国产免费观看| 亚洲欧美日韩成人| 亚洲综合精品四区| 亚洲欧美三级伦理| 亚洲免费在线观看视频| 亚洲一区二区三区四区中文| 日韩午夜免费| 一区二区高清在线| 中日韩美女免费视频网址在线观看| 最新国产拍偷乱拍精品| 亚洲经典一区| 日韩午夜电影av| 一区二区三区欧美在线| 一二三区精品福利视频| 一区二区三区视频在线观看| 在线一区欧美| 亚洲欧美成人| 久久成人资源| 91久久精品国产| 亚洲精品一区在线观看| 夜夜嗨av一区二区三区免费区| av成人黄色| 亚洲永久字幕| 西西人体一区二区| 欧美在线视频a| 久久伊人一区二区| 欧美激情影院| 国产精品高潮呻吟久久av无限| 国产精品视频九色porn| 国产美女精品在线| 国外精品视频| 亚洲国产一区二区三区青草影视 | 一区二区日韩免费看| 在线视频你懂得一区| 亚洲欧美在线视频观看| 久久精品毛片| 99国产精品久久久久久久成人热 | 国产综合欧美| 亚洲国产另类精品专区| 一区二区国产日产| 亚洲欧美高清| 久久精品国产亚洲一区二区三区| 亚洲精品色婷婷福利天堂| 这里只有视频精品| 欧美一区影院| 蜜桃av噜噜一区二区三区| 欧美日韩精品伦理作品在线免费观看| 国产精品免费看| 一区二区三区亚洲| 日韩一区二区免费看| 欧美一区免费视频| 一本色道精品久久一区二区三区| 午夜精品久久久久久| 久久综合福利| 国产精品v日韩精品| 一区视频在线播放| 一区二区三区四区五区视频| 久久精品国产免费观看| 在线视频你懂得一区| 欧美在线观看www| 欧美激情视频网站| 国产精品视频导航| 亚洲人体一区| 欧美一区激情视频在线观看| 日韩亚洲欧美精品| 久久精品国产99国产精品| 欧美极品在线观看| 国产日韩欧美| 亚洲精品五月天| 久久精品国产第一区二区三区最新章节 | 欧美在线啊v一区| 99ri日韩精品视频| 久久九九热免费视频| 欧美日韩亚洲综合一区| 狠狠爱成人网| 亚洲视频在线观看| 亚洲黄色av一区| 香蕉久久夜色精品国产| 欧美激情无毛| 国产又爽又黄的激情精品视频| 亚洲欧洲在线观看| 欧美一区久久| 亚洲免费视频中文字幕| 欧美顶级少妇做爰| 国产亚洲精品7777| 在线视频精品一| 亚洲美女av在线播放| 久久午夜国产精品| 国产精品中文字幕欧美| 亚洲精品一区二区三区樱花| 亚洲第一视频| 欧美在线三级| 亚洲一区国产| 亚洲精品日韩一| 久久精品免费| 欧美日韩中文字幕综合视频| 韩国三级在线一区| 亚洲欧美欧美一区二区三区| 夜夜嗨一区二区| 你懂的国产精品| 国内久久视频| 午夜在线视频观看日韩17c| 亚洲少妇自拍| 欧美精品久久久久久久免费观看 | 久久久精品欧美丰满| 国产精品入口麻豆原神| 亚洲精品之草原avav久久| 91久久精品视频| 久久久噜噜噜久久中文字幕色伊伊| 国产精品视频网站| 亚洲一区久久| 亚洲欧美日产图| 欧美视频中文字幕| 一区二区av在线| 亚洲午夜免费视频| 欧美日韩精品一本二本三本| 亚洲娇小video精品| 亚洲免费观看在线观看| 欧美高清视频在线 | 亚洲欧美日韩国产一区| 亚洲欧美国产精品桃花| 欧美小视频在线观看| 亚洲最新中文字幕| 亚洲深夜福利网站| 欧美日韩精品综合| 亚洲美女视频在线免费观看| 99精品视频免费全部在线| 欧美黄免费看| 亚洲人成小说网站色在线 | 一区二区三区av| 欧美中文字幕第一页| 国产日韩欧美综合精品| 久久久国产一区二区三区| 一区二区三区国产| 亚洲一级电影| 国产精品一区免费视频| 欧美亚洲日本国产| 久久中文欧美| 亚洲国产精品一区二区www在线| 亚洲区一区二区三区| 欧美精品久久久久久| 9国产精品视频| 亚洲欧美中文字幕| 国产精品一区免费视频| 欧美亚洲网站| 免费在线观看成人av| 国产欧美日韩91| 伊人婷婷欧美激情| 日韩一二在线观看| 国产精品美女久久久久久久| 午夜国产不卡在线观看视频| 久久亚洲综合| 亚洲七七久久综合桃花剧情介绍| 一区二区欧美激情| 国产精品亚洲网站| 香蕉国产精品偷在线观看不卡| 裸体丰满少妇做受久久99精品| 亚洲国产精品久久| 亚洲在线视频| 国内一区二区三区在线视频| 日韩一级大片| 国产精品性做久久久久久| 久久国产视频网| 欧美日本高清视频| 亚洲免费影院| 欧美1区2区3区| 亚洲私人黄色宅男| 久久精品视频在线免费观看| 亚洲国产成人在线| 亚洲欧美日韩一区| 一区二区亚洲精品国产| 亚洲网在线观看| 国内精品久久久久久久影视蜜臀 | 欧美日韩色一区| 欧美一区二区三区婷婷月色| 欧美福利电影在线观看| 亚洲午夜小视频| 久久综合久色欧美综合狠狠 | 欧美成年人网| 亚洲综合成人在线| 欧美高清视频一区| 午夜视频久久久久久| 欧美日韩中文字幕日韩欧美| 欧美在线在线| 国产精品成av人在线视午夜片| 亚洲国产高清高潮精品美女| 欧美视频免费| 亚洲国产欧洲综合997久久| 国产精品精品视频| 亚洲另类自拍| 国产综合欧美| 亚洲综合色激情五月| 在线观看欧美日韩| 久久成人资源| 在线视频欧美精品| 欧美激情精品久久久久久变态| 亚洲国内精品|