ప్రాజెక్ట్ వాణి

ప్రాజెక్ట్ వాణి: భారతదేశం కోసం బహుభాషా AIని రూపొందించడంలో షైప్ పాత్ర

భారతదేశం లాంటి సాంస్కృతికంగా వైవిధ్యభరితమైన మరియు భాషాపరంగా సుసంపన్నమైన దేశంలో, సమ్మిళిత AIని నిర్మించడం అనేది ప్రాతినిధ్య, అధిక-నాణ్యత డేటాసెట్‌లను సేకరించడంతో ప్రారంభమవుతుంది. అదే దీని వెనుక ఉన్న దృష్టి. ప్రాజెక్ట్ వాణి— నేతృత్వంలోని పెద్ద-స్థాయి, ఓపెన్-సోర్స్ చొరవ ఆర్ట్‌పార్క్, ఐఐఎస్సీ బెంగళూరుమరియు గూగుల్, ప్రతి భారతీయ భాష మరియు మాండలికానికి స్వరం ఇవ్వడం లక్ష్యంగా పెట్టుకుంది.

ప్రతిష్టాత్మక లక్ష్యం? సేకరించడానికి 150,000+ గంటల ప్రసంగం మరియు 15,000+ గంటల ట్రాన్స్‌క్రిప్షన్‌లు నుండి 1 మిలియన్ ప్రజలు అంతటా 773 జిల్లాలు భారతదేశం యొక్క.

ఈ జాతీయ మిషన్‌కు కీలకమైన విక్రేతలలో ఒకరిగా, షేప్ స్పాంటేనియస్ స్పీచ్ డేటా, ట్రాన్స్క్రిప్షన్ మరియు మెటాడేటా సేకరణను నిర్వహించడంలో కీలక పాత్ర పోషించింది - నిజమైన భారతదేశాన్ని నిజంగా సూచించే సమానమైన వాయిస్ టెక్నాలజీలకు పునాది వేసింది.

వాణి ప్రాజెక్ట్ వెనుక ఉన్న విజన్

ప్రాజెక్ట్ వాణి అనేది AI చేరిక అంతరాన్ని తగ్గించడానికి రూపొందించబడింది, దీనిని సృష్టించడం ద్వారా అతిపెద్ద మల్టీమోడల్, బహుభాషా, ఓపెన్-సోర్స్ డేటాసెట్ భారతదేశంలో. స్థానిక భారతీయ భాషలలో ఖచ్చితమైన ప్రసంగ గుర్తింపు, అనువాదం మరియు ఉత్పాదక AI వ్యవస్థలను అభివృద్ధి చేయడానికి ఈ డేటా పునాదిగా ఉంది - వీటిలో చాలా వరకు ప్రపంచ సాంకేతిక పర్యావరణ వ్యవస్థలలో తక్కువగా ప్రాతినిధ్యం వహిస్తున్నాయి.

దీర్ఘకాలిక దృష్టి ఏమిటంటే ప్రభావవంతమైన అనువర్తనాలకు శక్తినివ్వడం:

ప్రాజెక్ట్ వాణి కోసం భారతదేశపు అతిపెద్ద ఓపెన్-సోర్స్ స్పీచ్ డేటాసెట్‌ను రూపొందించడంలో షైప్ ఎలా సహాయపడ్డాడు

షైప్ కు సేకరణ బాధ్యత అప్పగించబడింది 8,000 గంటల ఆకస్మిక ప్రసంగం మరియు 800 గంటల మాన్యువల్‌గా ధృవీకరించబడిన లిప్యంతరీకరణలు. మా బాధ్యత స్పీకర్ ఆన్‌బోర్డింగ్, ఆడియో క్యాప్చర్, మెటాడేటా ట్యాగింగ్, ట్రాన్స్క్రిప్షన్ కోఆర్డినేషన్ మరియు నాణ్యత నియంత్రణ వరకు విస్తరించింది.

8,000 గంటల ఆకస్మిక ఆడియో డేటా

800 గంటల అధిక-నాణ్యత మాన్యువల్ ట్రాన్స్క్రిప్షన్లు

నుండి రికార్డింగ్‌లు జిల్లాకు 400+ మాతృభాష మాట్లాడేవారు, విభిన్న వయసు సమూహాలు, లింగాలు మరియు మాండలికాలను సూచిస్తుంది

80 జిల్లాలు, కవర్

నిర్ధారించడానికి ఇమేజ్ ఆధారిత ప్రాంప్టింగ్ సహజమైన, సందర్భోచిత ప్రసంగం

మా విధానాన్ని ప్రత్యేకంగా చేసినది ఇక్కడ ఉంది:

జిల్లా స్థాయి వైవిధ్యం

జిల్లా స్థాయి వైవిధ్యం

మేము బీహార్, ఉత్తరప్రదేశ్, కర్ణాటక, పశ్చిమ బెంగాల్ మరియు మహారాష్ట్ర వంటి రాష్ట్రాలలోని 80 జిల్లాల నుండి రికార్డింగ్‌లను సేకరించాము. ప్రతి జిల్లా 100 గంటల ఆడియో డేటాను అందించింది, ప్రాంతీయ సమతుల్యతను నిర్ధారిస్తుంది. ప్రధాన స్రవంతి AI డేటాసెట్‌లలో తరచుగా విస్మరించబడే ప్రాంతీయ యాసలు మరియు మాండలికాల ప్రాతినిధ్యాన్ని నిర్ధారిస్తూ, మేము స్థానిక మాట్లాడేవారిని నిమగ్నం చేసాము.

భాషా & జనాభా ప్రాతినిధ్యం

భాషా & జనాభా ప్రాతినిధ్యం

మేము బీహార్, ఉత్తరప్రదేశ్, కర్ణాటక, పశ్చిమ బెంగాల్ మరియు మహారాష్ట్ర వంటి రాష్ట్రాలలోని 80 జిల్లాల నుండి రికార్డింగ్‌లను సేకరించాము. ప్రతి జిల్లా 100 గంటల ఆడియో డేటాను అందించింది, ప్రాంతీయ సమతుల్యతను నిర్ధారిస్తుంది. ప్రధాన స్రవంతి AI డేటాసెట్‌లలో తరచుగా విస్మరించబడే ప్రాంతీయ యాసలు మరియు మాండలికాల ప్రాతినిధ్యాన్ని నిర్ధారిస్తూ, మేము స్థానిక మాట్లాడేవారిని నిమగ్నం చేసాము.

ఇమేజ్-ప్రాంప్టెడ్ స్పీచ్

ఆకస్మిక మరియు సహజ పదజాలాన్ని ప్రేరేపించడానికి, పాల్గొనేవారికి సెషన్‌కు 45–90 చిత్రాలు చూపించి వాటిని వివరించమని అడిగారు. సాంస్కృతిక చిహ్నాల నుండి రోజువారీ వస్తువుల వరకు విభిన్న చిత్రాలను ఉపయోగించి వారి మాతృభాషలో సహజమైన, ఆకస్మిక ప్రతిస్పందనలను పొందేలా పాల్గొనేవారిని ప్రోత్సహించారు. ఇది రికార్డింగ్‌లు వాస్తవ ప్రపంచ, సందర్భోచిత ప్రసంగాన్ని ప్రతిబింబించేలా చేసింది - అధునాతన NLP వ్యవస్థలకు శిక్షణ ఇవ్వడానికి ఇది అవసరం.

అధిక-నాణ్యత ట్రాన్స్క్రిప్షన్ ప్రమాణాలు

అధిక-నాణ్యత ట్రాన్స్క్రిప్షన్ ప్రమాణాలు

ప్రసంగ డేటాలో 10% మాత్రమే లిప్యంతరీకరించబడింది - ఇది 800 గంటలు. స్థానిక భాషావేత్తలు స్పీకర్ నుండి 20-50 కి.మీ వ్యాసార్థంలో ట్రాన్స్క్రిప్షన్లు నిర్వహించారు, ఇది మాండలికాలు మరియు సూక్ష్మ నైపుణ్యాలతో పరిచయాన్ని నిర్ధారిస్తుంది. రెండవ-పొర తనిఖీ <5% పద దోష రేటు (WER) ని నిర్ధారించింది.

ఖచ్చితమైన నాణ్యత హామీ

ఆడియో డేటా అధిక బార్‌ను కలిగి ఉండాలి: నేపథ్య శబ్దం, ప్రతిధ్వనులు, ఫోన్ వైబ్రేషన్‌లు లేదా వక్రీకరణలు ఉండకూడదు. ఆడియో నిశ్శబ్దంగా, ప్రతిధ్వని లేని వాతావరణంలో రికార్డ్ చేయబడింది. ప్రసంగ స్పష్టత, శబ్ద స్థాయిలు, మెటాడేటా ఖచ్చితత్వం మరియు స్పీకర్ ధృవీకరణ కోసం మార్గదర్శకాలకు అనుగుణంగా ఫైళ్లను కఠినమైన సమీక్షకు గురిచేసింది. అన్ని ఫైళ్లలో మెటాడేటా ట్యాగింగ్ ఖచ్చితంగా ఉండాలి మరియు స్పీకర్ మరియు స్థాన అమరిక కోసం అన్ని రికార్డింగ్‌లు తనిఖీ చేయబడ్డాయి.

మేము పరిష్కరించిన సవాళ్లు

మా విజయం ఖచ్చితమైన ప్రణాళిక, సాంకేతికత ఆధారిత ధ్రువీకరణ మరియు ప్రతి ప్రాంతం యొక్క సాంస్కృతిక సూక్ష్మ నైపుణ్యాలను అర్థం చేసుకున్న స్థానిక బృందాలతో భాగస్వామ్యాల ద్వారా వచ్చింది.

ప్రభావం మరియు అప్లికేషన్లు

షైప్ సహకారం ప్రాజెక్ట్ వాణి పురోగతిని వేగవంతం చేయడమే కాకుండా భారతదేశంలో సమ్మిళిత AI కి పునాది వేసింది. క్యూరేటెడ్ స్పీచ్ డేటాసెట్ ఇప్పటికే AI మోడళ్లను నిర్మించడానికి మరియు ఫైన్-ట్యూన్ చేయడానికి ఉపయోగించబడుతోంది:

  • వెర్నాక్యులర్ వాయిస్ అసిస్టెంట్లు
  • ప్రాంతీయ అనువాద యంత్రాలు
  • దృష్టి లోపం ఉన్నవారికి అందుబాటులో ఉన్న కమ్యూనికేషన్ సాధనాలు
  • గ్రామీణ విద్యార్థుల కోసం AI-ఆధారిత ఎడ్‌టెక్ ప్లాట్‌ఫామ్‌లు
  • గ్రామీణ టెలిమెడిసిన్
  • వాయిస్ ఆధారిత పౌర సేవలు
  • రియల్-టైమ్ అనువాదం మరియు లిప్యంతరీకరణ

ముగింపు

ప్రాజెక్ట్ వాణి అనేది సమ్మిళిత, ప్రాప్యత చేయగల AI వైపు ఒక సాహసోపేతమైన అడుగు - మరియు షైప్ ఒక పునాది పాత్రను పోషించడం గౌరవంగా ఉంది. ప్రాజెక్ట్ వాణిపై షైప్ చేసిన కృషి వైవిధ్యం మరియు ప్రాతినిధ్యంలో పాతుకుపోయిన నైతిక, సమ్మిళిత AI వ్యవస్థలను నిర్మించాలనే మా నిబద్ధతను పునరుద్ఘాటిస్తుంది. 8,000 గంటలకు పైగా ప్రసంగాలను సేకరించి, 800 గంటలకు పైగా లిప్యంతరీకరించడంతో, భారతదేశంలోని అత్యంత దార్శనిక డిజిటల్ చేరిక ప్రాజెక్టులలో ఒకదానిలో మేము పాత్ర పోషించినందుకు గర్విస్తున్నాము.

ప్రాజెక్ట్ వాణి 150,000+ గంటల డేటా అనే పెద్ద లక్ష్యం వైపు కొనసాగుతున్నందున, ప్రతి భారతీయుడి కోసం మాట్లాడే AI ఆవిష్కరణ యొక్క తదుపరి సరిహద్దుకు మద్దతు ఇవ్వడానికి మేము సిద్ధంగా ఉన్నాము.

వాస్తవ ప్రపంచాన్ని అర్థం చేసుకునే AIని నిర్మించడానికి మాతో భాగస్వామ్యం కావాలనుకుంటున్నారా? www.shaip.com

సామాజిక భాగస్వామ్యం

షేప్
గోప్యతా అవలోకనం

ఈ వెబ్సైట్ కుకీలను ఉపయోగిస్తుంది, తద్వారా మేము మీకు ఉత్తమ వినియోగదారు అనుభవాన్ని అందించగలము. కుకీ సమాచారం మీ బ్రౌజర్లో నిల్వ చేయబడుతుంది మరియు మీరు మా వెబ్ సైట్కి తిరిగి వచ్చినప్పుడు గుర్తించే విధులు నిర్వహిస్తుంది మరియు మీరు ఏ వెబ్సైట్లో అత్యంత ఆసక్తికరంగా మరియు ఉపయోగకరంగా ఉంటుందో తెలుసుకోవడానికి మా బృందానికి సహాయపడుతుంది.