మీరు AI/ML మోడల్లతో ప్రారంభించడానికి సోర్స్ డేటాసెట్లను తెరవండి
మీ AI & ML మోడల్ల అవుట్పుట్ మీరు శిక్షణ కోసం ఉపయోగించే డేటా అంత మెరుగ్గా ఉంటుంది - కాబట్టి మీరు డేటా అగ్రిగేషన్కు వర్తించే ఖచ్చితత్వం మరియు ఆ డేటాను ట్యాగ్ చేయడం మరియు గుర్తించడం ముఖ్యం!
కాబట్టి మీరు కొత్త AI/ML చొరవను ప్రారంభించాలనుకుంటే మరియు ఇప్పుడు మీరు అధిక-నాణ్యత శిక్షణ డేటాను కనుగొనడం అనేది మీ ప్రాజెక్ట్లోని మరింత సవాలుగా ఉండే అంశాలలో ఒకటిగా ఉంటుందని మీరు త్వరగా గ్రహిస్తున్నారు, ఎందుకంటే అధిక-నాణ్యత డేటాసెట్లు AI/ని ఉంచే ఇంధనం. ML ఇంజిన్ నడుస్తోంది. భవిష్యత్తులో మీ AI/ML మోడల్లను ఉపయోగించడానికి మరియు శిక్షణ ఇవ్వడానికి ఉచితమైన ఓపెన్ డేటాసెట్ల జాబితాను మేము సేకరించాము.
| ప్రత్యేకత | సమాచార తరహా | డేటాసెట్ పేరు | పరిశ్రమ / శాఖ. | ఉల్లేఖన/ఉపయోగ సందర్భం | <span style="font-family: Mandali; "> లింక్</span> |
|---|---|---|---|---|---|
| +NLP | టెక్స్ట్ | అమెజాన్ సమీక్షలు | ఇ-కామర్స్ | సెంటిమెంట్ విశ్లేషణ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | వినియోగదారు మరియు ఉత్పత్తి వివరాలతో సాదా వచనంలో గత 35 సంవత్సరాల నుండి 18 మిలియన్ల సమీక్షలు & రేటింగ్ల సమితి. | ||||
| +NLP | టెక్స్ట్ | వికీపీడియా లింక్స్ డేటా | జనరల్ | <span style="font-family: Mandali; "> లింక్</span> | |
| వివరణ | వికీపీడియా నుండి 1.9 బిలియన్ పదాలను కలిగి ఉన్న 4 మిలియన్లకు పైగా వ్యాసాలు. ప్రతి వ్యాసం అనుబంధ సంస్థ కోసం హైపర్లింక్లను కలిగి ఉంటుంది. | ||||
| +NLP | టెక్స్ట్ | స్టాండ్ఫోర్డ్ సెంటిమెంట్ ట్రీబ్యాంక్ | వినోదం | సెంటిమెంట్ విశ్లేషణ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | 10,000 కంటే ఎక్కువ రాటెన్ టొమాటోస్ సినిమా సమీక్ష వాక్యాల కోసం సెంటిమెంట్ ఉల్లేఖనాల డేటాసెట్. పదబంధ స్థాయిలో అందుబాటులో ఉంది - ప్రతి వాక్యం పెన్ ట్రీబ్యాంక్ ఫార్మాట్లో పార్స్ ట్రీలను బైనరైజ్ చేయడం ద్వారా ఉప-పదబంధాలుగా అన్వయించబడుతుంది. | ||||
| +NLP | టెక్స్ట్ | Twitter US ఎయిర్లైన్ సెంటిమెంట్ | వైనానిక | సెంటిమెంట్ విశ్లేషణ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | 2015లో US ఎయిర్లైన్స్పై చేసిన ట్వీట్లు సానుకూల, తటస్థ మరియు ప్రతికూల భావాలుగా విభజించబడ్డాయి. | ||||
| +CV | చిత్రం | ఇమేజ్నెట్ | జనరల్ | <span style="font-family: Mandali; "> లింక్</span> | |
| వివరణ | వివిధ ఫైల్ ఫార్మాట్లలో 14 మిలియన్లకు పైగా చిత్రాలతో కూడిన డేటాసెట్ దాదాపు 21,000 సిన్సెట్లకు మ్యాప్ చేయబడింది. సిన్సెట్లు అనేవి చిత్రంగా ఉన్న అనుబంధ ఎంటిటీలతో కూడిన సినోమైమ్లు. 1 మిలియన్ చిత్రాలకు బౌండింగ్ బాక్స్లు ఉంటాయి మరియు 1 మిలియన్ కంటే ఎక్కువ చిత్రాలకు SIFT లక్షణాలు ఉంటాయి. | ||||
| +CV | చిత్రం | Google యొక్క ఓపెన్ చిత్రాలు | జనరల్ | <span style="font-family: Mandali; "> లింక్</span> | |
| వివరణ | 600 వర్గాలతో ఇమేజ్నెట్ను పోలిన డేటాసెట్. అభివృద్ధి, ధ్రువీకరణ మరియు శిక్షణ విభజనలలో లభిస్తుంది. కొన్ని చిత్రాలలో బౌండింగ్ బాక్స్లు మరియు దృశ్య సంబంధాలు కూడా ఉన్నాయి. | ||||
| +NLP | టెక్స్ట్ | కార్నెల్ మూవీ డైలాగ్స్ | వినోదం | డైలాగ్లు | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | పాత్రలు మరియు సినిమాల మెటాడేటాతో కూడిన కల్పిత సంభాషణల సమాహారం. ప్రతి వరుస ఇద్దరు వ్యక్తుల మధ్య ప్రశ్న-జవాబు ఆకృతిలో సంభాషణ. | ||||
| వివరణ | ఏప్రిల్ 2007 మరియు అక్టోబర్ 2007 మధ్య యాహూ ఆన్సర్స్ పోర్టల్ నుండి ప్రశ్నలు మరియు సమాధానాలతో కూడిన ప్రశ్న-జవాబు డేటాసెట్. | ||||
| +NLP | టెక్స్ట్ | ఎంఎస్ మార్కో | జనరల్ | ప్రశ్న సమాధానం | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | Bing వెబ్ శోధన లాగ్ల నుండి ఉల్లేఖనాలతో కూడిన ప్రశ్న-జవాబు డేటాసెట్. ప్రతి ప్రశ్నలో వినియోగదారు అందించిన సమాధానం, అలాగే సమాధానాన్ని కలిగి ఉన్న వెబ్ భాగాలు ఉంటాయి. | ||||
| +NLP | టెక్స్ట్ | సహజ ప్రశ్నల డేటాసెట్ | జనరల్ | ప్రశ్న సమాధానం | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | గూగుల్ విడుదల చేసిన ఈ డేటాసెట్లో నిజమైన వినియోగదారు ప్రశ్నలు మరియు వికీపీడియా కథనాల నుండి సమాధానాలు ఉన్నాయి. | ||||
| +NLP | టెక్స్ట్ | డిబి పీడియా | జనరల్ | విజ్ఞాన గ్రాఫ్ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | వికీపీడియా యొక్క నిర్మాణాత్మక రెండరింగ్, ఎంటిటీలు మరియు సంబంధాలను నాలెడ్జ్ గ్రాఫ్గా సంగ్రహించారు. | ||||
| +NLP | టెక్స్ట్ | యాగో | జనరల్ | విజ్ఞాన గ్రాఫ్ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | వికీపీడియా, వర్డ్నెట్ మరియు జియోనేమ్స్ నుండి ఎంటిటీలు మరియు సంబంధాలను కలిగి ఉన్న నాలెడ్జ్ గ్రాఫ్. | ||||
| +NLP | టెక్స్ట్ | ఫ్రీబేస్ | జనరల్ | విజ్ఞాన గ్రాఫ్ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | ఎంటిటీలు మరియు సంబంధాలతో కూడిన క్రౌడ్-సోర్స్డ్ నాలెడ్జ్ బేస్, ఇప్పుడు గూగుల్ నాలెడ్జ్ గ్రాఫ్లో చేర్చబడింది. | ||||
| +NLP | టెక్స్ట్ | ఆన్టోనోట్స్ | జనరల్ | సెమాంటిక్ రోల్ లేబులింగ్ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | CoNLL భాగస్వామ్య పనులలో ఉపయోగించే వాక్యనిర్మాణ, అర్థ మరియు ఉపన్యాస-స్థాయి వ్యాఖ్యానాలతో కూడిన కార్పస్. | ||||
| వివరణ | వ్యక్తి, సంస్థ మరియు స్థానం వంటి పేరున్న ఎంటిటీల కోసం వ్యాఖ్యానించబడిన ఆంగ్ల డేటాసెట్. | ||||
| +CV | చిత్రం | COCO | జనరల్ | ఆబ్జెక్ట్ డిటెక్షన్ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | సందర్భంలో సాధారణ వస్తువులు: వస్తువు గుర్తింపు, విభజన మరియు శీర్షికల కోసం గొప్పగా వ్యాఖ్యానించబడిన డేటాసెట్. | ||||
| +CV | చిత్రం | పాస్కల్ VOC | జనరల్ | ఆబ్జెక్ట్ డిటెక్షన్ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | ఆబ్జెక్ట్ డిటెక్షన్ మరియు సెగ్మెంటేషన్ సవాళ్లకు బెంచ్మార్క్ డేటాసెట్. | ||||
| +CV | చిత్రం | cityscapes | అటానమస్ డ్రైవింగ్ | సెమాంటిక్ సెగ్మెంటేషన్ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | 30 తరగతులకు పిక్సెల్-స్థాయి ఉల్లేఖనాలతో పట్టణ దృశ్య అవగాహన కోసం డేటాసెట్. | ||||
| +CV | చిత్రం | MNIST | జనరల్ | అంకెల వర్గీకరణ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | 28x28 పిక్సెల్ల 60,000 శిక్షణ మరియు 10,000 పరీక్ష చిత్రాలతో చేతితో రాసిన అంకెల డేటాసెట్. | ||||
| +CV | చిత్రం | ఫ్యాషన్-MNIST | రిటైల్ | చిత్రం వర్గీకరణ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | బెంచ్మార్కింగ్ కోసం డ్రాప్-ఇన్ రీప్లేస్మెంట్గా ఉపయోగించబడిన MNIST మాదిరిగానే జలాండో యొక్క కథన చిత్రాల డేటాసెట్. | ||||
| +NLP | ఆడియో | లిబ్రిస్పీచ్ | జనరల్ | ASR | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | 1000 గంటల ప్రసంగం మరియు అనుబంధిత పాఠాలతో ఆడియోబుక్ల నుండి తీసుకోబడిన చదివిన ఆంగ్ల ప్రసంగం యొక్క కార్పస్. | ||||
| +NLP | ఆడియో | టెడ్-లియం | జనరల్ | ASR | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | స్పీచ్ రికగ్నిషన్ పరిశోధన కోసం ఆడియోతో లిప్యంతరీకరించబడిన TED చర్చలు మరియు సమలేఖనం చేయబడిన లిప్యంతరీకరణలు. | ||||
| +NLP | ఆడియో | TIMIT | జనరల్ | ఫోనెమ్ గుర్తింపు | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | అమెరికన్ ఇంగ్లీష్ మాట్లాడేవారి ఫొనెటికల్గా లిప్యంతరీకరించబడిన ప్రసంగం, ఫోనెమ్ గుర్తింపు పనులకు విస్తృతంగా ఉపయోగించబడుతుంది. | ||||
| +NLP | ఆడియో | సాధారణ స్వరం | జనరల్ | ASR | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | ప్రపంచవ్యాప్తంగా స్వచ్ఛంద సేవకులు అందించిన బహుభాషా పఠన ప్రసంగం. | ||||
| +NLP | ఆడియో | వోక్స్ సెలెబ్ | జనరల్ | స్పీకర్ గుర్తింపు | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | YouTube వీడియోల నుండి సేకరించబడిన పెద్ద-స్థాయి స్పీకర్ గుర్తింపు డేటాసెట్. | ||||
| +NLP | టెక్స్ట్ | వికీపీడియా డంప్ | జనరల్ | లాంగ్వేజ్ మోడలింగ్ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | వికీపీడియా వ్యాసాల పూర్తి టెక్స్ట్ డంప్లు, క్రమం తప్పకుండా నవీకరించబడతాయి, భాషా నమూనాలను ముందస్తు శిక్షణ కోసం ఉపయోగిస్తారు. | ||||
| +NLP | టెక్స్ట్ | గిగావర్డ్ | వార్తలు | లాంగ్వేజ్ మోడలింగ్ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | బహుళ వార్తా సంస్థల నుండి న్యూస్వైర్ టెక్స్ట్ డేటా యొక్క సమగ్ర ఆర్కైవ్. | ||||
| +NLP | టెక్స్ట్ | IMDB సమీక్షలు | వినోదం | సెంటిమెంట్ విశ్లేషణ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | బైనరీ సెంటిమెంట్ వర్గీకరణ కోసం పెద్ద సినిమా సమీక్ష డేటాసెట్. | ||||
| +CV | వీడియో | గతిశాస్త్రం-700 | జనరల్ | చర్య గుర్తింపు | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | 700 మానవ యాక్షన్ తరగతులను కవర్ చేసే YouTube వీడియో క్లిప్ల యొక్క పెద్ద-స్థాయి, అధిక-నాణ్యత డేటాసెట్. | ||||
| +CV | వీడియో | UCF101 | జనరల్ | చర్య గుర్తింపు | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | 101 యాక్షన్ వర్గాలతో కూడిన వాస్తవిక యాక్షన్ వీడియోల డేటాసెట్. | ||||
| +CV | వీడియో | HMDB51 ద్వారా మరిన్ని | జనరల్ | చర్య గుర్తింపు | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | 51 యాక్షన్ వర్గాలతో కూడిన పెద్ద మానవ చలన వీడియో డేటాబేస్. | ||||
| వివరణ | అపరిమిత ముఖ గుర్తింపును అధ్యయనం చేయడానికి రూపొందించబడిన ముఖ ఛాయాచిత్రాల డేటాబేస్. | ||||
| +CV | చిత్రం | CASIA-వెబ్ఫేస్ | జనరల్ | ఫేస్ రికగ్నిషన్ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | లోతైన ముఖ గుర్తింపు నమూనాలకు శిక్షణ ఇవ్వడానికి మిలియన్ల ముఖ చిత్రాలతో కూడిన డేటాసెట్. | ||||
| +NLP | టెక్స్ట్ | SQuAD | జనరల్ | పఠనము యొక్క అవగాహనము | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | స్టాన్ఫోర్డ్ ప్రశ్న సమాధాన డేటాసెట్: వికీపీడియా వ్యాసాల సమితిపై క్రౌడ్వర్కర్లు అడిగే ప్రశ్నలు. | ||||
| వివరణ | CNN వార్తా కథనాల ఆధారంగా ప్రశ్నలు మరియు సమాధానాలతో కూడిన యంత్ర అవగాహన డేటాసెట్. | ||||
| +NLP | టెక్స్ట్ | మల్టీఎన్ఎల్ఐ | జనరల్ | సహజ భాషా అనుమితి | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | బహుళ శైలులలో వాక్య-జత సహజ భాషా అనుమితి కోసం ఒక డేటాసెట్. | ||||
| +NLP | టెక్స్ట్ | SNLI | జనరల్ | సహజ భాషా అనుమితి | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | స్టాన్ఫోర్డ్ నేచురల్ లాంగ్వేజ్ ఇన్ఫెరెన్స్ కార్పస్, వాక్య జతలను సంకేత, వైరుధ్యం లేదా తటస్థంగా లేబుల్ చేయబడింది. | ||||
| వివరణ | వికీపీడియాలో ధృవీకరించబడిన మంచి మరియు ఫీచర్ చేయబడిన కథనాల సెట్ నుండి సేకరించిన 100 మిలియన్లకు పైగా టోకెన్ల సేకరణ. | ||||
| వివరణ | 196 తరగతుల కార్ల యొక్క 16,185 చిత్రాల డేటాసెట్. | ||||
| +CV | చిత్రం | ఆక్స్ఫర్డ్ ఫ్లవర్స్ 102 | బోటనీ | సూక్ష్మ-కణిత వర్గీకరణ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | యునైటెడ్ కింగ్డమ్లో సాధారణంగా కనిపించే 102 పుష్ప వర్గాలు. | ||||
| +CV | చిత్రం | CIFAR-10 | జనరల్ | చిత్రం వర్గీకరణ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | 10 తరగతుల చిత్రాలు: విమానం, ఆటోమొబైల్, పక్షి, పిల్లి, జింక, కుక్క, కప్ప, గుర్రం, ఓడ మరియు ట్రక్కు. | ||||
| +CV | చిత్రం | CIFAR-100 | జనరల్ | చిత్రం వర్గీకరణ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | CIFAR-10 లాంటి డేటాసెట్, కానీ 100 ఫైన్-గ్రెయిన్డ్ తరగతులతో. | ||||
| +CV | చిత్రం | VOC వ్యక్తి లేఅవుట్ | జనరల్ | పోస్ అంచనా | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | PASCAL VOCలో భాగంగా తల, చేతులు మరియు కాళ్ళు వంటి వ్యక్తి లేఅవుట్ ఉల్లేఖనాలపై దృష్టి సారిస్తుంది. | ||||
| +CV | చిత్రం | MPII మానవ భంగిమ | జనరల్ | పోస్ అంచనా | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | శరీర కీళ్ల గురించి వ్యాఖ్యానించిన 40,000 మందికి పైగా వ్యక్తులను కలిగి ఉన్న దాదాపు 25,000 చిత్రాలు. | ||||
| వివరణ | పాఠ వర్గీకరణ పరిశోధన కోసం రాయిటర్స్ న్యూస్వైర్ కథనాల సేకరణ. | ||||
| +NLP | టెక్స్ట్ | 20 వార్తా సమూహాలు | జనరల్ | టెక్స్ట్ వర్గీకరణ | <span style="font-family: Mandali; "> లింక్</span> |
| వివరణ | 20,000 న్యూస్గ్రూప్ పత్రాల సేకరణను 20 వేర్వేరు న్యూస్గ్రూప్లుగా విభజించారు. | ||||